disinfo

Month: 2020-04

2020-04-01

wenyi 02:03:51
我們的discover速度跟不上八卦版的發文數啊…每天都少個3, 500篇,我先把concurrent request 從1調高到16觀察看看
wenyi 02:14:13
補充一下後來我是直接用python的 set 找差集,比較方便,不用用到sql的join。政黑版少了40篇已經補完(用之前寫的 `article.py discover`,直接給url就可以加入db了),但八卦版少 443k (2019 + 2020) 篇… 好消息是2019年10, 11, 12 月 和 2020 年1, 2月 都已經蒐集完
wenyi 02:50:54
算了一下,分兩支同時跑大概7個小時可以補完,好像還可接受。7個小時後再來檢查一次還有沒有缺
pm5 10:51:50
meanwhile 我們 db 的硬碟用量又快速地來到 79%
ronnywang 11:46:18
HTML 真的很肥大
ronnywang 11:46:47
不過 snapshot 是全部版本都會留嗎?無論文章內容有沒有變?
ronnywang 11:47:16
newsdiff 的作法是新的 snapshot 進來先直接 parse 出 title, body 。如果 title/body 都跟前版沒變的話,那這個新的 snapshot 就不存下來了
ronnywang 11:48:09
這樣優點比較省空間,畢竟不是每篇文章都那麼常變動。缺點是假如他網站架構變了就會有一段時間的 snapshot 存不到了
ronnywang 11:48:49
而且 parse 和 crawl 要同時做,不能分開成兩隻程式
pm5 12:10:43
目前要 parse 出來的資訊欄位還在增加中,所以一時還無法刪掉舊的 snapshot
pm5 12:12:53
也是可以考慮只看 title and body 決定要不要留 snapshot,因為還在增加的要 parse 的欄位看起來都是 metadata,這個通常在同一篇文章裡不會變
ronnywang 13:03:41
目前一篇 article 會留 7 個 articlesnapshot 版本嗎
pm5 13:16:37
是的
pm5 13:18:46
我也要想一下我們現在 parse 跟 crawl 分開做的情況下,要怎麼看 title and body 有沒有變
ronnywang 13:19:13
或是再加上第三層 cleaner XD
ronnywang 13:19:21
把 parse 後發現沒變的結果再刪掉
pm5 13:23:45
@chihao @ayw255 2 月份的 data loss 事件,調查結果是系統自己可以回復的都回復了,剩下無法回復的都是已經 404 的文章 https://github.com/disinfoRG/ZeroScraper/issues/94#issuecomment-607024008

GitHub

recover from data loss · Issue #94 · disinfoRG/ZeroScraper

The main reasons that we want to recover article snapshot data are: Some snapshots are not parsed yet before the data loss incident. Some snapshots are parsed before the incident and were saved in ...

chihao 14:32:03
我覺得資料備份機制可能需要儘快處理 :stuck_out_tongue: 要來特別揪一個討論嗎?
mrorz 14:35:13
Cofacts 的 elasticsearch (6.3) 是是弄個 bash script:
```#!/bin/bash

SNAPSHOT_NAME=`date --iso-8601`

cd ~docker/rumors-deploy
/usr/local/bin/docker-compose exec -T db curl -XPUT localhost:9200/_snapshot/gcs/$SNAPSHOT_NAME```
然後放進 crontab 每週日凌晨執行。
Elasticsearch snapshot 是 incremental snapshot,備份時 DB 也不用關掉,我覺得很方便。

備份方面 `gcs` repo 用的是這個:https://www.elastic.co/guide/en/elasticsearch/plugins/master/repository-gcs.html

Elasticsearch (7.6) snapshot doc: https://www.elastic.co/guide/en/elasticsearch/reference/current/snapshots-take-snapshot.html
pm5 14:44:31
ronnywang 16:15:20
我又收到硬碟 >80% 的警告信了 XD
ronnywang 16:20:16
在備份之前可以能要解決硬碟要爆的問題 XD
pm5 16:23:11
ArticleSnapshot202002 可以先 archive 起來
pm5 16:24:18
這個我們可以怎麼進行比較方便?
ronnywang 16:26:21
兩個問題
一個是要 archive 在哪裡(現在 ArticleSnapshot202002 是 compressed 而且 40G ,表示要 archive 也要找有 40G 硬碟空間的地方,所以要放哪
另一個是要 archive 成什麼型式,是用 SQL dump 還是 jsonline 還是 csv (我個人比較喜歡 jsonline XD)
poga 16:29:01
丟到 s3 或是 b2 blaze?
poga 16:32:49
如果需要機器/storage 的話我應該能問問看 sponsorship... :stuck_out_tongue:
ronnywang 16:39:44
另外 0archive 的主機原生的 160G 硬碟也只剩下 40G 左右,不確定會不會塞爆。但原生硬碟裡面有 30G 是當初從原來 middle2 搬來的 dump 檔,以及 73G 是之前發生誤砍事件之後,ArticleSnapshot 裡面被刪除文章還沒釋放出空間來的備份檔
ronnywang 16:40:13
這兩個如果覺得不需要可以刪除掉,那這樣至少 ArticleSnapshot202002 可以暫時先放在原生硬碟中
pm5 16:52:21
放在哪裡這個禮拜一討論過 linode 或 nas 或 aws glacier,還沒決定。 @poga 可以幫忙問贊助的話,好啊 XD
poga 16:55:34
目前只需要 storage?如果要分享 raw data 的話 ok 嗎?這些資料應該不是開放授權? XD
pm5 16:58:13
可能 storage 跟 GCP quota 都有需要。跟贊助單位分享 raw data 嗎?這我們要問一下囉 cc @chihao
chihao 17:00:27
哪個單位?XD
chihao 17:00:46
專案其實有預算,我覺得先估計要花多少錢
poga 17:01:02
因為 AILabs 也有在作新聞分析,所以我想說兩邊直接共享資料應該是最有效益的?

寫爬蟲好麻煩的... XD
pm5 17:04:03
養爬蟲也是很麻煩…
pm5 16:55:34
Archive 格式的話 jsonlines 比較好,但是這樣會用什麼工具 dump/load?
ronnywang 16:57:10
自己刻輪子 XD
ronnywang 18:00:57
82% 了,大概一兩個小時 1% ?
chihao 18:05:17
要不要先加容量?
ronnywang 18:28:06
加容量會需要停機處理喔,因為要轉移資料庫
ronnywang 18:28:50
我覺得比較治本應該是把 202002 搬出來,然後盡快實作內容沒變就不要 snapshot 和超過兩個月就 archive ,這樣子現在硬碟空間應該很夠
chihao 19:34:38
這個感覺是個正式提案了呢!
ronnywang 18:30:15
畢竟現在 snapshot 的量是正常的七倍的量
chihao 19:47:40
提案內容 - https://g0v.hackmd.io/I8_OwNM5SI2YYfRrdjvUfg 明天有空來聊聊嗎?@pm5 @ronnywang @ayw255

g0v.hackmd.io

0archive db man - HackMD

ronnywang 23:20:47
83% 了,所以大概五個小時 1%

2020-04-02

wenyi 07:19:43
@chihao @pm5 ptt都補完了,終於…
chihao 11:37:35
關於備份機制,要來個 call 嗎?@ayw255 @pm5 @ronnywang
pm5 11:38:15
yeah
chihao 11:38:50
propose: 12pm?
wenyi 11:55:18
5 分鐘後嗎
chihao 11:55:39
好像需要 @ronnywang :stuck_out_tongue:
ronnywang 12:59:52
image.png
ronnywang 13:01:05
https://www.linode.com/docs/platform/object-storage/pricing-and-limitations/

Linode Guides & Tutorials

Object Storage Pricing and Limitations

Object Storage pricing breakdown, storage limits, transfer quotas, and other pertinent information.

ronnywang 13:59:46
Object storage 好了,相關 key 和使用方法丟給 @pm5
chihao 13:59:52
\o/
chihao 14:00:01
@ronnywang ++
ronnywang 20:43:29
現在空間 87% 了
chihao 20:59:32
怎麼⋯
pm5 22:43:52
到 90% 的話就先關掉 scraper 等我們弄好吧?
pm5 22:44:36
202002 快要 dump 好了
mglee 23:19:55
也許大家早就知道這個了:The Hamilton 2.0 dashboard 專門在收集中國與俄國在網路上的政治宣傳,他們資料呈現的方式可以參考
https://securingdemocracy.gmfus.org/hamilton-dashboard/

Alliance For Securing Democracy

Hamilton 2.0 Dashboard

The Hamilton 2.0 dashboard, a project of the Alliance for Securing Democracy at the German Marshall Fund of the United States, provides a summary analysis of the narratives and topics promoted by Russian and Chinese government officials and state-funded media on Twitter, YouTube, state-sponsored news websites, and via official diplomatic statements at

2020-04-03

chihao 10:13:08
正在寫https://docs.google.com/document/d/1PjRMaDYA-thg1ePGkqHsvYUmD-AHC2mRyFEEZKIpI8Y/edit#|第二次的 System Report。從上一次報告到這一次,資料分析和 community 的部分似乎沒有什麼新的發展 orz (my bad)
chihao 10:29:28
@mglee 也許能夠有什麼合作呢 :thinking_face:
chihao 10:30:07
Hamilton 2.0 Dashboard 專案 funder 是 GMF - German Marshall Fund
chihao 10:30:45
Just thinking out loud here :stuck_out_tongue:
ronnywang 22:01:04
89% 了
ronnywang 23:01:41
我更正一下,之前 binlog 是存 7 天,不是存 3 天
pm5 23:11:30
砍掉 ArticleSnapshot202002 降到 74%
ronnywang 23:13:10
暫時解除硬碟空間警報 XD
ronnywang 23:14:46
@pm5 如果用 「s3cmd put --acl-public [somefile] <s3://0archive/>」,可以把這個檔案上傳到 object storage 並且會有一個可下載的網址e
ronnywang 23:15:04
如果東西是想要 open 並有下載網址的話,可以加上 --acl-public

2020-04-04

pm5 10:51:01
有下載網址的話大家好像比較容易取用,我開個 spreadsheet 給 dev team member 好了

2020-04-05

ael 12:15:37
4/7 有個線上討論分析 Twitter 上機器人帳號的演講,我不知道分享在這裡適不適合
https://cyber.harvard.edu/events/virtual-event-bot-or-human-unreliable-automatic-bot-detection|https://cyber.harvard.edu/events/virtual-event-bot-or-human-unreliable-automatic-bot-detection

Berkman Klein Center

Virtual Event: Bot or Human? Unreliable Automatic Bot Detection

Jonas Kaiser and Adrian Rauchfleisch discuss their paper on Botometer's diagnostic ability over time

pm5 15:47:39
昨天(4/4)又遇到 discover 與 update processes 不明原因掛掉因此 PID table 沒有清掉所以一整天沒有跑 discover &amp; update 的問題

2020-04-06

chihao 20:05:08
要不要換 jitsi
pm5 20:05:12
我什麼都聽不到耶
pm5 20:05:14
wenyi 20:06:22
jitsi: This site can’t be reached 欸
chihao 20:06:35
whaaaa
pm5 20:06:39
打錯了
chihao 20:06:47
https://meet.jit.si/0archive

meet.jit.si

Jitsi Meet

Join a WebRTC video conference powered by the Jitsi Videobridge

ronnywang 20:06:50
jitsi 今天改版了
chihao 20:07:58
快打敗 Zoom 吧 QQ
ronnywang 20:08:39
zoom 是不是沒有網頁版,一定要下載應用程式?
chihao 20:08:56
才可以偷你的資料給中國(NO)

2020-04-08

pm5 10:22:30
真新聞關站了?
ronnywang 10:33:09
https://matters.news/@catding/%E5%85%AC%E6%B0%91%E5%BB%9F%E5%8F%A3-%E5%B7%B2%E5%8F%96%E6%B6%88%E7%99%BC%E4%BD%88-%E7%9B%AE%E5%89%8D%E5%8F%AF%E4%BB%A5%E6%94%B6%E5%B7%A5%E5%95%A6-bafyreiai3ckyx7foay23junwcbsag42kf23lxbe3abyexjegqsk5axpanq

Matters

「公民廟口」已取消發佈,目前可以收工啦~ - Matters

作者:丁新一前情提要見〈或許,耿爽沒那麼不爽——我們要「製造假新聞」來回擊中國的資訊戰嗎?〉、〈台灣研發快篩,中國在WHO收割……嗎?〉「公民廟口」粉專已於今日取消發佈(僅限在粉絲專頁有角色的用戶可見,一般用戶不可見),...

pm5 10:34:24
https://fongnews.net/ 這裡面的文章網址不太確定應該怎麼抓

溏風報

溏風報 — 「溏風報新聞傳媒」即時、公正、深入觀點,從即時新聞、社群輿論、主題節目影音、即時線上直播、社會論點、名家觀點、生活娛樂,讓讀者快速掌握完整的新聞時事。

「溏風報新聞傳媒」即時、公正、深入觀點,從即時新聞、社群輿論、主題節目影音、即時線上直播、社會論點、名家觀點、生活娛樂,讓讀者快速掌握完整的新聞時事。

pm5 10:35:32
另一方面,它有 RSS https://fongnews.net/feed
wenyi 01:12:17
我加了~
`^https://fongnews.net/((?!page|comment|tag|category).)*/$` 測試了一下應該ok
Shiva 12:40:39
@shivaxsin has joined the channel
KenChen 12:41:29
@a7164265 has joined the channel
chihao 16:02:43
Taking ArticleSnapshot of YouTube videos now \o/
pm5 09:30:40
想了一下,會不會像鄉民看電視一樣存截圖也可以?
tnstiger 16:08:35
@chihao @a7164265 是我要介紹給你的小夥伴

2020-04-09

pm5 09:29:25
備份程式 dump 每天出來的 snapshot 資料總是比 site states 算出來的筆數多一些 :thinking_face:
wenyi 11:34:18
是比discover + update stats多嗎?大概多多少啊?
wenyi 12:00:35
哦⋯看起來是 stats 算update數有bug,會漏掉在day 1 計算 day 0 stats前又再次update的articles... 我明天修一下更新stats table
wenyi 07:11:50
@pm5 每天dump的哪些snapshot是怎麼決定的啊?我更新了stats算法,discover+update 數跟每日snapshot count是一樣的, 但跟每天dump出來的row數還是有差

例如2020-04-03有 `90326` snapshots, from sql:
```select count(*) from ArticleSnapshot
where date(snapshot_at_date)="2020-04-03"

--> get 90326```
2020-04-03的dump看googlesheet row_count 是 `90,704`。

--備註新的stats 算法:

discover:
https://github.com/disinfoRG/ZeroScraper/blob/master/queries/count_articles_discovered_in_interval.sql

update: https://github.com/disinfoRG/ZeroScraper/blob/master/queries/count_articles_updated_in_interval.sql
pm5 19:55:11
dump 的計算方式是 `snapshot_at` >= 當天 00:00:00、< 隔天 00:00:00
wenyi 23:43:54
嗯…看了一下 `ns-dump` 的date_range 還有queries `get_snapshot_in_keys_date_ranged` , 2020-04-03的snapshot 數的確應該是跟stats吻合的 `90326` 筆,不太知道多出來的是從哪裡來的…

```select count(*) from ArticleSnapshot
where snapshot_at >= 1585843200 and snapshot_at<1585929600;```
chihao 10:20:36
._.
chihao 10:22:12
@ayw255 https://github.com/chihaoyo/YtScraper|YtScraper 關於 Update 的邏輯寫在 README 裡,不知道是不是跟 ZeroScraper 一致?

GitHub

chihaoyo/YtScraper

Contribute to chihaoyo/YtScraper development by creating an account on GitHub.

wenyi 11:18:14
是~除了ZeroScraper的兩個月是距離first_snapshot_at的兩個月 (60天),因為沒有parse之前不知道published_at。
chihao 10:22:24
@a7164265 哈囉哈囉 :wave:
wenyi 12:00:35
哦⋯看起來是 stats 算update數有bug,會漏掉在day 1 計算 day 0 stats前又再次update的articles... 我明天修一下更新stats table
pm5 12:37:50
不知道為什麼,密訊的網站特別對 Facebook 與 Dcard 有調整,soure code 看起來可能是顯示個 info box 還是什麼的。在 HTML 裡搜尋 `dcardsource` 就會看到

2020-04-10

2020-04-11

chihao 00:54:59
Collected 84076 YouTube urls from 84 channels/users
wenyi 01:12:17
我加了~
`^https://fongnews.net/((?!page|comment|tag|category).)*/$` 測試了一下應該ok
chihao 20:57:07
中天新聞CH52 https://www.youtube.com/channel/UCpu3bemTQwAU8PqM4kJdoEQ/
中天電視 https://www.youtube.com/channel/UC5l1Yto5oOIgRXlI4p4VKbw
這兩個有什麼差別 / 關聯? @ronnywang :stuck_out_tongue:

YouTube

中天電視

「未經著作權人事先書面同意,勿將內容用於商業性質之分享、連結。」 ►►►歡迎訂閱【中天電視】YouTube頻道家族◄◄◄ 我愛小明星大跟班:<https://www.youtube.com/channel/UCCiV0FmfqgLRC9zYjj1Q4IA> 麻辣天后傳:<https://www.youtube.com/>...

ronnywang 20:57:26
中天電視還有別的節目
ronnywang 20:57:29
兩個是不同頻道
ronnywang 20:57:50
中天電視是綜合頻道,新聞是 24hr 新聞台
chihao 20:58:09
鄉民看電視是關心前者嗎?
chihao 20:59:04
哦~中天電視還有這個連結 https://www.youtube.com/user/ctitv/ 是個 user

YouTube

中天電視

「未經著作權人事先書面同意,勿將內容用於商業性質之分享、連結。」 ►►►歡迎訂閱【中天電視】YouTube頻道家族◄◄◄ 我愛小明星大跟班:<https://www.youtube.com/channel/UCCiV0FmfqgLRC9zYjj1Q4IA> 麻辣天后傳:<https://www.youtube.com/>...

ronnywang 20:59:08
直播抓後者的,單篇新聞抓前者的
chihao 20:59:38
但 YouTube API 看來似乎把 channel 和 user 當成同一個等級的東西?
chihao 21:29:19
那 TVBS 的狀況好像不太一樣?https://www.youtube.com/user/TVBS/ 121 萬訂閱者

YouTube

TVBS NEWS

Taiwan TV News Show

chihao 21:29:38
但 TVBS 新聞網 https://www.youtube.com/channel/UCL0_NxCvkcXwZHpvqgMZY-A 只有 1.18 萬訂閱者

YouTube

TVBS新聞網

台灣本土第一個衛星電視頻道正式發聲,「立足台灣,放眼世界」我們一直與台灣的民眾在一起!

2020-04-12

delightfullychaotic 21:56:33
@delightfullychaotic has joined the channel

2020-04-15

pm5 09:21:38
之前 @ayw255 說有些錯誤新聞出現在線上媒體的時候我們沒有抓到,只抓到後來的澄清文,不知道現在漏抓新聞情況有沒有改善。我後來想想也可以把 discover 的頻率改成半小時或更短時間一次試試看
pm5 09:22:07
對八卦板也許也有用
wenyi 00:14:48
上次想說的其實是,錯誤新聞看起來多數出現在Line、微信聊天室這些不在我們觀察的目標中,本來好像就不太常出現在線上媒體的說QQ。
這是事實查核中心的list,其中有出現在媒體的只有少少幾則,最著名的大概是鍾南山說蓮蓬頭會傳染肺炎、還有從空氣檢測推測武漢燒很多屍體

我們關注的內容網站有很多莫名的文章,但就不是現在會引起關注的假新聞(沒有成功傳播 LOL?)

https://tfc-taiwan.org.tw/articles/2366
pm5 10:43:13
聊天群組裡流傳的資訊,可能就要靠跟別的專案合作來共享資料了⋯⋯0archive data standard 的目的也是希望讓這種資料流通更容易一點

2020-04-16

WaterMai 12:29:42
@akasukilee has joined the channel

2020-04-17

chihao 10:21:42
https://ocf.tw/p/pttid/ ocf \o/

ocf.tw

PTT ID Profiling | 財團法人開放文化基金會 (OCF)

網路上的不實資訊、網軍操作帶風向的狀況層出不窮,批踢踢實業坊 (PTT) 的政治類看板, 比起其他看板,帶風向的情形更加嚴重,網路上已經有很多專家利用爬蟲工具,自行搜尋分析出活動異常的 PPT 使用者帳號。本計畫希望能網羅各方資源之外,也能開發出套完整的開源工具,讓使用者自行析判斷誰是誰非。

chihao 22:26:36
@pm5 不知道能不能請求更新 disinfoRG/datasets 部分內文公開資料集 :laughing:
pm5 22:39:22
這兩天手動跑一次好了

2020-04-18

chihao 00:43:12
謝謝 pm5 \o/
pm5 22:03:10
我想來把 datasets 釋出的資料 id 改成 uuid https://github.com/disinfoRG/ArticleParser/pull/26|https://github.com/disinfoRG/ArticleParser/pull/26

#26 Change producer and publication id to UUID

I think we should switch producer and publication id to UUID for a few reasons: • Some benefits of UUID in general: • It is not sequential so it does not reveal that much information about orders. • It can be generate in the program so if we are going to have multiple parsers running on multiple databases it is not that hard to merge the data into a single dataset. • We cannot use article id for publications and site id for producers anyway, now that we are going to get scraped data from multiple upstream scrapers.

2020-04-19

ish 16:13:20
@sandy051122 has joined the channel

2020-04-20

chihao 21:06:08
Jitsi 怎麼了
wenyi 21:07:18
我們還在meeting耶,你無法加入嗎
chihao 21:07:20
也許是我的問題,斷線之後就連不進去了 orz
wenyi 21:07:24
orz
chihao 21:08:12
orz orz orz
wenyi 21:09:03
你現在加入了嗎
chihao 21:09:07
有看到我在裡面嗎?
wenyi 21:09:08
有看到你的頭像
wenyi 21:09:09
chihao 21:09:14
但沒聲音
chihao 21:09:19
我看到你們都是靜音