disinfo

Month: 2020-04

2020-04-01

wenyi 02:03:51
我們的discover速度跟不上八卦版的發文數啊…每天都少個3, 500篇,我先把concurrent request 從1調高到16觀察看看
wenyi 02:14:13
補充一下後來我是直接用python的 set 找差集,比較方便,不用用到sql的join。政黑版少了40篇已經補完(用之前寫的 `article.py discover`,直接給url就可以加入db了),但八卦版少 443k (2019 + 2020) 篇… 好消息是2019年10, 11, 12 月 和 2020 年1, 2月 都已經蒐集完
wenyi 02:50:54
算了一下,分兩支同時跑大概7個小時可以補完,好像還可接受。7個小時後再來檢查一次還有沒有缺
pm5 10:51:50
meanwhile 我們 db 的硬碟用量又快速地來到 79%
ronnywang 11:46:18
HTML 真的很肥大
ronnywang 11:46:47
不過 snapshot 是全部版本都會留嗎?無論文章內容有沒有變?
ronnywang 11:47:16
newsdiff 的作法是新的 snapshot 進來先直接 parse 出 title, body 。如果 title/body 都跟前版沒變的話,那這個新的 snapshot 就不存下來了
ronnywang 11:48:09
這樣優點比較省空間,畢竟不是每篇文章都那麼常變動。缺點是假如他網站架構變了就會有一段時間的 snapshot 存不到了
ronnywang 11:48:49
而且 parse 和 crawl 要同時做,不能分開成兩隻程式
pm5 12:10:43
目前要 parse 出來的資訊欄位還在增加中,所以一時還無法刪掉舊的 snapshot
pm5 12:12:53
也是可以考慮只看 title and body 決定要不要留 snapshot,因為還在增加的要 parse 的欄位看起來都是 metadata,這個通常在同一篇文章裡不會變
ronnywang 13:03:41
目前一篇 article 會留 7 個 articlesnapshot 版本嗎
pm5 13:16:37
是的
pm5 13:18:46
我也要想一下我們現在 parse 跟 crawl 分開做的情況下,要怎麼看 title and body 有沒有變
ronnywang 13:19:13
或是再加上第三層 cleaner XD
ronnywang 13:19:21
把 parse 後發現沒變的結果再刪掉
pm5 13:23:45
@chihao @ayw255 2 月份的 data loss 事件,調查結果是系統自己可以回復的都回復了,剩下無法回復的都是已經 404 的文章 https://github.com/disinfoRG/ZeroScraper/issues/94#issuecomment-607024008

GitHub

recover from data loss · Issue #94 · disinfoRG/ZeroScraper

The main reasons that we want to recover article snapshot data are: Some snapshots are not parsed yet before the data loss incident. Some snapshots are parsed before the incident and were saved in ...