close

眾所周知,由於 Facebook 被封鎖而 Twitter 受到限制,Telegram 在俄語互聯網上非常受歡迎,它也是俄羅斯互聯網用戶完全可以訪問的最後一個社交網絡應用程序之一。

近期,它一直是記錄俄烏戰爭的重要工具,通過一些在 Telegram 上發布的視頻、照片等內容,我們能夠及時了解戰爭局勢的變化情況。

但目前俄羅斯和烏克蘭的網絡媒體環境波動很大,許多帖子可能會隨着時間的推移會突然失效,因此,我們需要對一些內容進行及時存檔以防帖子被用戶刪除或平台無法訪問。福韻君在前期也分享了關於如何防止信息404,點擊下方圖片即可閱讀:

2 月 25 日,Telegram 頻道@MariypolCalling 發布了一段軍車視頻。但是沒過幾天研究人員就發現該帖子已不再可見。但是,幸好研究人員之前對該內容副本進行了存檔。那具體是如何操作的呢?

來自烏克蘭馬里烏波爾的電報帖子示例,已被版主刪除

相比其他平台, Telegram 是最容易存檔的通信平台之一,也是最後一個可以保存圖像元數據的平台之一。這對用戶來說是一種隱私風險,但對開源研究人員來說往往是一個福音。同時,Telegram 的聊天導出格式還可以輕鬆使用 Google 翻譯來翻譯整個頻道。即使對於技術小白用戶,這些步驟也很簡單。

Telegram內容在許多其他情況下也很有用。例如,Bellingcat 之前已將 Telegram 帖子存檔,以對極右翼團體和QAnon 陰謀進行多次調查過程中就有所展現。雖然下面提供的示例側重於與上述任何主題無關的通用組,但所描述的原則可以應用於任何 Telegram 組或帖子。

如何歸檔特定的例子、圖像或視頻

存檔媒體的最簡單方法是使用適用於 Windows、Mac 和 Linux的Telegram 桌面應用程序。然後,你只需右鍵單擊圖像或視頻並單擊「另存為...」即可保存媒體。如果圖像作為文件附加,它也將包含所有原始元數據。

你可以在 Telegram 應用程序中查看的任何消息執行此操作,即使你不是該組的成員。如果你擁有格式為https://t.me/euronews_tr/2011的帖子 URL ,則按「在頻道中查看」將允許你在 Telegram 應用程序中打開它。

https://t.me/euronews_tr/2011

此外,你還可以截取原始帖子的屏幕截圖以保存時間戳、用戶並記住你在哪裡找到了媒體項目。更進一步,你可以保存整個帖子內容和元數據的完整副本,方法是將其轉發到Show Json Bot並將返回的JSON 內容保存在單獨的文本文件中。

JSON 是指用於計算機可讀信息的特定文件格式。這與應用程序編程接口 (API)可能返回的內容相同。請注意,切勿將敏感或私人消息轉發給機器人。保存元數據很有用,因為它包含來自帖子的儘可能多的信息,包括用戶 ID、聊天 ID 和完整時間戳。

JSON(JavaScript Object Notation)是一種輕量級的數據交換格式,易於人類閱讀和寫作,機器也很容易解析和生成。它基於 JavaScript 編程語言標準 ECMA-262 第 3 版 - 1999 年 12 月的一個子集。JSON 是一種完全獨立於語言的文本格式,但使用 C 系列語言(包括 C)的程序員所熟悉的約定, C++、C#、Java、JavaScript、Perl、Python 等等。這些屬性使 JSON 成為一種理想的數據交換語言。

https://t.me/ShowJsonBot

如何歸檔整個頻道或群組

Telegram 超越了其他聊天平台,具有以人類可讀和機器可讀格式(包括文件和媒體)導出整個聊天歷史記錄的能力。但是,此功能在 Mac OS 上不可用。解決這個問題的最簡單方法(如果使用 Mac 或 Linux)是使用 Windows 虛擬機。VMWare Fusion為非商業用戶提供免費許可證,並且可以在此處找到有關如何使用它的指南。

https://www.vmware.com/uk/products/fusion.html
https://ulrikchristensen.com/run-windows-11-using-vmware-fusion/

首先,通過從對話中選擇或搜索來在 Telegram 應用程序中打開一個聊天。電報聊天可以是私人對話、頻道(單個用戶向觀眾廣播)或群組(許多用戶聊天)。有時公共頻道作為在線預覽鏈接共享。

如果你有其中之一格式為

https://t.me/s/[username]

例如:https://t.me/s/euronews_tr,

我們單擊頻道的用戶名將提供一個選項來打開它Telegram 應用程序,如果你的計算機上安裝了該平台,你還可以使用這些預覽 URL 來查找在搜索結果中隱藏的某些頻道。

https://t.me/s/euronews_tr

打開一個群組或頻道(即使是不是其成員),單擊右上角的菜單按鈕並選擇「導出聊天記錄」。

有多種導出設置可供選擇。選中每個框將導出頻道中包含的所有媒體。最大化大小限制會捕獲儘可能多的媒體,但它會顯著增加導出時間。

有兩種格式可供選擇,HTML 或 JSON。HTML 格式被設計為人類可讀的。它可以在網絡瀏覽器中打開,對於人工審核最有用。JSON 格式設計為機器可讀,在導出數據以供進一步分析時最有用。

你還可以指定一個日期範圍,如果你只想要完整頻道存檔的一個子集,這可以加快處理速度。最後,單擊「導出」開始導出過程。對於大型聊天記錄,這可能需要幾個小時。

要查看導出,請在 Web 瀏覽器中打開 messages.html 文件。

遺憾的是,目前無法使用此技術導出頻道評論。

如何翻譯Telegram 消息

Telegram 最近在移動應用程序中添加了翻譯功能。通過轉到應用程序中的設置 > 語言 > 顯示翻譯按鈕來激活該功能。要翻譯消息,可以按住以調出上下文菜單,然後選擇「翻譯」選項。

但是,使用此功能,你一次只能翻譯一條消息。通過將聊天記錄導出為 HTML(如上所述)並在 Google Chrome 中打開,可以一次翻譯整個頻道的內容。如果 Chrome 不提供翻譯該頁面,你可以通過右鍵單擊並選擇「翻譯成英語」(或你的首選語言)來請求它。

抓取和API

對於高級用戶,Telegram 的 API 也提供了對平台的非常開放的訪問,使得歸檔消息和媒體以及用戶、頻道和組元數據變得容易。對於 Python 開發人員而言,Telethon API功能齊全且文檔齊全。

https://docs.telethon.dev/en/stable/basic/quick-start.html

https://github.com/JustAnotherArchivist/snscrape
https://github.com/bellingcat/snscrape

下載 Telegram 消息的另一種方法是使用非 API 抓取工具。這種方法可以比 Telegram 的原生導出功能更快,但它只適用於公共頻道,不適用於聊天組。JustAnotherArchivist 的工具 snscrape可以很好地解決這個問題,Bellingcat 已經對其進行了 fork 以支持檢索媒體和頻道轉發信息。

特此聲明:本文旨在分享工具以交流學習,請廣大讀者在合情合理合法的範圍內使用,時刻謹記法律紅線,不得利用該工具和技術做出任何違法違規的事情。

文章來源:福韻

原創內容,未經授權禁止轉載

福韻原創IP形象設計,原創勿盜,侵權必究

封面來源:technobezz

END

長按識別下面的二維碼可加入星球

裡面已有近千篇資料可供下載

越早加入越便宜

續費五折優惠

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 鑽石舞台 的頭像
    鑽石舞台

    鑽石舞台

    鑽石舞台 發表在 痞客邦 留言(0) 人氣()