disinfo

Month: 2019-11

2019-11-03

fly 14:40:09
@leo424y has joined the channel

2019-11-04

嘉豪 20:01:55
@kahou has joined the channel

2019-11-05

ggm 23:57:33
@ggm has joined the channel

2019-11-06

mglee 20:35:00
@mglee has joined the channel
chihao 23:51:27
這週因為坑主在 GMT+1 的時區,所以沒辦法參與週四 9am 的小聚 ._. 大家會想要自己聚嗎?隨意 tag @ronnywang @ayw255 @ddio @mrorz @isabelhou @pm5
mglee 00:20:44
小聚有線上版的嗎?遠端亂入 +1
chihao 00:48:44
其實就是線上的啊 :laughing:
mrorz 00:51:07
我週四早上可能無法 XD
我會看看會議記錄
wenyi 00:53:41
我都ok!!
chihao 00:54:29
如果有人想主揪麻煩喊聲喔,國家感謝你(?)不然就暫停一次 :smile:
Peace 11:39:28
下週也想亂入+1
bil 23:56:52
NDI關心大家還好嗎,跟大家說hi(狂揮手)
chihao 23:59:53
hey hey hey @bil :smile:

2019-11-07

chihao 00:54:55
@mglee 你現在在哪個時區,要來揪一個海外版線上小聚嗎?
poga 01:25:00
@poga has joined the channel
mglee 01:46:13
我在 Boston GMT-5。還沒摸清楚這個坑的樣子,等我見習一次後可以看看呦
chihao 06:43:55
@mglee 所以可以小聚一下?:joy:
chihao 06:45:14
Note
1. fiscal sponsorship
2. project contributors and roadmap
mglee 06:59:07
如果除了 (搞不清楚狀況的) 我之外,有 3~4 個人想參加,我可以幫忙揪唷。(單純覺得主揪就是開 hangout??
mglee 07:01:26
欸等等,時區沒算好,台灣星期四早上九點,不就是兩小時後嗎XDDD
chihao 07:10:02
是啊 :joy: 但我在的時區沒辦法,我的意思是說我們兩個可以先來個海外小聚小聊一下
mglee 07:14:16
原來如此:laughing: 可以阿,幫我快速惡補一下!你在 GMT+1?
mglee 07:19:39
你下午是我早上,等你醒來後我們來約!
chihao 07:28:38
@mglee 好!

2019-11-09

chihao 01:18:08
有想法就先丟出來:關於 0archive 的資料搜集、研究成果如何對大眾溝通,大家有什麼想法嗎?如果是要找合作對象,我目前想到的有
• 報導者劉致昕:圖文報導
• 沃草團隊:插畫、圖表、懶人包、行銷

2019-11-10

giallino 18:38:54
@tmwu has joined the channel

2019-11-13

pm5 09:56:22
不太確定沃草的 crawler 目前狀況如何 but anyway 我寫了一個版本 https://github.com/pm5/0ar

GitHub

pm5/0ar

Contribute to pm5/0ar development by creating an account on GitHub.

chihao 20:19:45
@pm5++ @ronnywang @ayw255 例行時間來開會 sync 進度?
chihao 21:43:24
可能討論一下
1. merging repos?
2. 計算報酬的方式
3. project proposal update
isabelhou 21:45:58
我明天會參加。
wenyi 22:28:28
:ok_hand:

2019-11-14

bil 08:18:17
欸有9點小聚ㄇ
isabelhou 08:32:14
有。bil 快來。
bil 08:58:01
好好好嗚嗚嗚我寄宿家庭剛煮好飯我來點一下家庭點數,希望我吃飽你們還在QQ
ronnywang 09:40:58
@chihao 資料庫部份,我把 整理 都改成 utf8mb4_general_ci ,ROW_FORMAT 改成 COMPRESSED。前者是改成用 4bytes 存 utf-8 ,這樣可以支援一些新的 Unicode 的東西,像是 emoji 或是奇怪的文字,後者是資料壓縮,可以省空間
ronnywang 13:32:20
接下來接上資料庫後,應該可以跑個一週,然後大概統計一下各來源平均一天的新文章產生數量,這樣來評估之後可以用什麼樣的頻率去檢查更新
chihao 13:33:04
++ rolling update
ronnywang 13:33:19
再來就實驗一下 readability 的解析效果如何?
ronnywang 13:36:02
還有 youtube 影片描述抓取的部份也可以排入加入
pm5 16:16:43
抱歉早上睡死了。所以目前 scraper 的狀況是要用沃草的 NewsScraping?
chihao 17:03:51
@pm5 今早本來想請你和 @ayw255 討論,不過殘念 :laughing: wenyi 的還缺自動 scheduling 和 db querying,我還沒看過你的 code
chihao 17:04:30
NewsScraping 已經移到新的 GitHub org https://github.com/disinfoRG/NewsScraping
chihao 17:04:56
也許 pm5 wenyi 兩個 repo 可以 merge?:laughing:
chihao 17:08:31
也許值得互相 review 一下 code,找到可能可以互補的地方 or 比較好的架構?
pm5 17:08:55
scheduling will probably be db-driven because we store sites info in db. okay, I think I can merge my pipelines into it.
chihao 17:22:07
Or vice versa :slightly_smiling_face:
chihao 17:22:37
我先把 @ayw255 @pm5 @ronnywang 加到新的組織,repo 暫時未公開
suensummit 19:00:14
@suensummit has joined the channel
allison.chen 21:31:29
@allison.chen has joined the channel
bruce 21:32:03
@fockerlee has joined the channel

2019-11-15

bil 02:51:25
@ronnywang 幾個需要爬爬的網站,https://www.guancha.cn
观察者
https://news.163.com
网易新闻

guancha.cn

观察者网-中国关怀 全球视野

观察者网,致力于荟萃中外思想者精华,鼓励青年学人探索,建中西文化交流平台,为崛起中的精英提供决策参考。

pm5 16:35:57
弱弱的問一下為什麼要用 primary key 要用 int(11),還有時間為什麼不用 timestamp? https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA

g0v.hackmd.io

零時檔案系統技術文件 0archive Technical Spec - HackMD

ronnywang 16:55:44
我自己習慣存時間是用int 存,主要是早年不同 SQL 處理 timestamp 方法可能有些不同,甚至同種 SQL 不同版本可能行為都不同,用 int 統一程式端處理是最保險的
ronnywang 16:57:19
不過還沒養成用 bigint 存的習慣 ,2038 年可能會炸 XD 這個我想 2028 年再開始煩惱
pm5 17:02:12
用 int 存時間我覺得也 ok;int(11) 的話,我是想問我以為 int(size) 的 size 只是 display size,實際上跟 int 是一樣的東西
ronnywang 17:03:35
Int(11) 應該是因為 @chihao. 是用 phpmyadmin 建的 table , phpmyadmin 雞婆幫設的?
chihao 17:04:25
嗯 int(11) 是 phpmyadmin 的預設值
pm5 17:08:33
喔喔,那可以順便討論下:多人一起開發的話應該用 migration 來處理 db schema 比較容易管理,所以我打算用 Alembic 來建 db tables,用 PugSQL 與 SQLAlchemy 來存取資料庫。你們覺得如何?
ronnywang 17:08:42
pm5 有 middle2 帳號嗎?也開給你權限可以連 mysql
pm5 17:08:58
我忘了 XD
ronnywang 17:09:10
我等等查一下 XD
pm5 17:09:40
用 migration 來管理資料庫的話,push 到 middle2 的時候就需要有個管道可以跑個 script 執行 db migration
ronnywang 17:29:03
@pm5 查了一下沒有你的帳號,給我你的 email 我開個帳號給你,密碼直接寄給你吧
ronnywang 17:41:01
ㄟ不對,有你的帳號
ronnywang 17:41:06
那我改一組密碼寄給你 XD
chihao 17:46:12
工人忘記密碼機制
chihao 17:55:46
謝謝 ronny 提醒,也把 pm5 加到 middle2 project 裡囉
isabelhou 20:18:26
We need to take records of today's attack.
chihao 20:39:47
Do you mean the mass reporting attack on Facebook?
isabelhou 20:45:32
yes
isabelhou 20:46:55
https://www.facebook.com/pnnpts/

facebook.com

公視新聞網 PNN

公視新聞網 PNN, Neihu, Taiwan. 340,778 likes · 155,567 talking about this. 最新的公共電視新聞資訊、深度報導,以及新聞議題分析分享。

isabelhou 20:50:12
of the latest post, many comments include pictures and information of posts removed.
isabelhou 22:56:41
台灣臉書的Max剛剛貼文說是技術問題,跟內容無關。
chihao 22:58:20
官方說法是否就是 fact-checking 的終點?:thinking_face:
isabelhou 23:00:11
當然不是啊!
isabelhou 23:01:25
不過@ronnywang 也覺得是技術問題樣子。
chihao 23:02:00
只是順便反省自己而已 :stuck_out_tongue:
Peace 11:29:57
作為一日中國的言論管制體驗
isabelhou 11:39:14
有種演習的感覺。
ronnywang 11:49:43
所以我要推廣訊息不要只發在臉書上 XD 像我都貼在 twitter 再同步到臉書
ronnywang 11:50:19
不怕單一平臺做惡意審核
gugod 21:18:53
那不順手貼去 g0v.social 或其他 mastodon 站點嗎 :stuck_out_tongue:

2019-11-16

2019-11-17

bruce 11:03:20
嗨,我是Bruce,我會python,想問可以幫忙做什麼嗎?
isabelhou 11:13:28
hi 歡迎加入。請先看一下g0v hackmd disinfo相關共筆,像是這個https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA
bruce 11:20:25
好!
chihao 21:42:32
Hi @fockerlee! 坑還在挖,目前還沒開出明確的 issue。你會想先試著參與整體的討論嗎?
chihao 21:43:57
我先 tag 目前兩個主要開發者 @ayw255 @pm5,也介紹一下 @fockerlee 是去年 summit 的議程組助理,bruce 可能記得 pm5 是去年 summit 的議程組召集人。
pm5 21:50:57
hi hi bruce
bruce 22:25:42
嗨! pm5!
bruce 22:26:04
我想參加討論,如果可以的話

2019-11-18

chihao 21:47:53
@ayw255@pm5 和我剛結束一次 dev meeting,確認這週我們分別要做的事,可以參考會議記錄共筆。
• 因為開發進度是設定一週,所以這週四的線上小聚先取消,改成下週一晚上約 dev meeting 同步進度,如果想參與的 developer 請喊聲 :slightly_smiling_face:
• 下次小聚是下週四 11/28 9am TW time
chihao 22:16:03
@pm5 @ayw255 想請問你們是用 python2 還是 python3?
wenyi 22:16:48
PYTHON3
pm5 23:55:59
3.6
pm5 23:56:42
好像側面消息得知 middle2 的 Python 3 是 3.6
ronnywang 23:57:20
應該是 XD
ronnywang 23:57:33
最近為了 disfactory 換的

2019-11-19

chihao 00:16:58
哦哦
chihao 00:51:49
@ayw255 update: sites are in db
wenyi 00:51:59
sweet
chihao 00:52:20
I put `article` and `following` in `Site.config`
chihao 00:52:45
Would you like to try to read db for sites? Or should I still create a new `url_map.csv`?
wenyi 00:53:11
i can merge that into the code
wenyi 00:53:27
but are we discarding N1, N2, N6, … ?
chihao 00:53:34
Btw I have to say pm5++ for `Always estimate 4 hours for these things`
wenyi 00:53:42
xddd
chihao 00:54:00
@ayw255 Oh oh right. Thinking… :thinking_face:
wenyi 00:54:49
umm if we are discarding the airtable then I think we can just use the int site_id on mysql
wenyi 00:55:03
I can change the site_it of url_map.csv by joining with url
wenyi 00:56:01
(or discard url_map.csv completely and just use mysql table)
chihao 00:57:05
I’m thinking
1. I will update ALL rows in `Article` to use new `Site` id
2. You (or I) change the code to discard `url_map.csv` and just use mysql `Site` table
chihao 00:57:42
Since all articles in db belongs to sites N6 & N16
wenyi 00:58:21
yep!
chihao 00:59:14
OK I will do 1 now
wenyi 00:59:50
I can do (2) later but if you want to try out / familiarize with the current code base you’re welcome to do it
chihao 01:01:07
N16 中華全國台灣同胞聯誼會 → 16
N6 琦琦看新聞 → 6
Simple enough :laughing:
chihao 01:03:09
1: done
chihao 01:12:59
2: I feel like I should get some sleep first. I changed type of site `news_websites` to `news_website`. There is an issue for this https://github.com/disinfoRG/NewsScraping/issues/2
wenyi 01:13:40
np!
wenyi 01:13:50
I will deal with it later this afternoon
wenyi 01:13:53
good night!
chihao 01:17:15
Fyi code to initialize `Site` table in db pushed to branch `init_sites` :slightly_smiling_face:
wenyi 11:22:51
2. change the code to discard `url_map.csv` and just use mysql `Site` table 完成了,已上傳github
另外原本db上面錯誤的timestamp也改好嚕
chihao 11:24:24
wenyi++ 這兩件事本來都是我的 todo T_T
wenyi 11:24:43
`init_sites`已merge進 `master`
wenyi 11:25:14
ㄏㄏㄏㄏㄏ就順便弄了
bruce 23:01:50
想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加
https://airtable.com/shr2kjYg6RH0wgQEh

Airtable

零時檔案局/新增追蹤對象 - Airtable

Fill out the "零時檔案局/新增追蹤對象" form quickly and securely on Airtable.

chihao 23:09:26
@fockerlee 是的,「新增追蹤對象」的確是設計來這樣用,希望大家能一起幫忙據報「值得追蹤」(?)的網站、fb 粉專、youtube channel 等等
bruce 23:16:43
好!

2019-11-20

fly 09:27:25
是不是要讓type 變必填,不然會沒有 id? 如第 114,115? @chihao

想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加 <https://airtable.com/shr2kjYg6RH0wgQEh>

gugod 11:35:49
"LINE 每日頭條" 是指 http://today.line.me|today.line.me 這個站嗎
bruce 17:19:35
應該是kknews https://kknews.cc/terms.html 我之前也以為是line的,其實他們沒有自己的媒體,都是放別人的文章,另外他是完全不會查證的,那時講者舉例,之前上面有篇文章是要說用蛋白或麵粉敷燒傷是錯誤,後來上面又有篇文章說是有效的XD
bruce 17:27:32
bruce 17:32:34
但 Line Today 也是一樣在聲明中,寫他對於上面發表的內容,是不用負責任的
pm5 15:58:54
https://open-archive.org/

open-archive.org

OpenArchive Home

A free, open-source mobile application dedicated to maintaining the privacy, provenance, and preservation of your media.

2019-11-21

wenyi 04:39:16
@ronnywang @chihao 在塞了大概10K data進Article之後,phpmyadmin 點Article Table就出現Error 500(如圖)Q (目前用python api讀寫正常)
Screen Shot 2019-11-20 at 3.36.10 PM.png
ronnywang 09:46:41
phpmyadmin 在大量資料時很容易不穩定的 XD
wenyi 10:06:24
XDD OKAY as long as it’s normal
chihao 10:21:51
@ronnywang 切身之痛 :laughing:
pm5 10:42:21
好像可以開始想 dashboard 要看到什麼內容了,在資料超過 phpmyadmin 容易處理的數量的情況下
pm5 11:43:13
@chihao I don't have write permission to NewsScraping
chihao 11:49:56
What I thought we all do wait
chihao 11:52:34
@pm5 Please try again :)
bruce 12:23:18
想問零時檔案局的id,是自動生成或人工幫key?(檔案局:https://airtable.com/shrKvjXMO7GaUg1vd/tbl3DrYs5mXgl0EV9/viw2cuXweY8OxNkX6?blocks=hide)因為昨天我新增了幾個內容農場,但都沒有id

Airtable

零時檔案局 0archive - Airtable

Explore the "零時檔案局 0archive" base on Airtable.

chihao 13:16:55
人工。本來的想像是:加到 airtable 之後要由 developer 加入 db,才會開始資料搜集的自動化流程
chihao 13:17:54
這份 airtable 其實也該跟著新的 db schema 更新了 :stuck_out_tongue:
pm5 14:04:05
那我們下禮拜分一部份時間來做 site API 好了?
pm5 15:48:10
@fockerlee 下禮拜一晚上要不要一起來開 dev hangout?
bruce 17:20:24
好,想加入!
bruce 17:20:41
通常是幾點在哪裡
pm5 22:56:03
台北時間 8:00pm-9:30pm 在線上
bruce 23:48:52
好,我加入!
lexifdev 20:18:47
@sl has joined the channel
chihao 20:19:07
\lexifdev/
lexifdev 20:19:18
Hi, finally!
chihao 20:19:44
Yes finally!
isabelhou 20:19:50
\lexifdev/
isabelhou 20:19:58
Welcome!
pm5 22:55:22
@sl!
pm5 23:06:09
@ayw255 I've merged the two codebases in master. There shouldn't be any change at your end. If all goes well I will deploy this branch to middle2 tomorrow and setup an cronjob.
wenyi 03:28:10
sounds amazing! I’ve finished a first run on all the available websites. Might test the update_content spider later in the day to make sure it works.
chihao 23:13:41
I heard that @sl has interest contributing to 0archive :smile:

2019-11-22

lexifdev 00:54:35
yeah, if there’s anything that I can help
pm5 09:02:36
I'm migrating so pls ping me if you want to touch the db in the next 4 hrs or so.

2019-11-23

mrorz 13:33:02
這個要不要 pin 或置頂呢
剛才加了一個 youtube channel,覺得回報應該要更顯眼些~

想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加 <https://airtable.com/shr2kjYg6RH0wgQEh>

pm5 13:35:48
@pm5 set the channel topic: Disinfo Research Group https://g0v.hackmd.io/6ZbDhEwbR1mclAh-ws1B9A?both 回報內容農場 https://airtable.com/shr2kjYg6RH0wgQEh
pm5 17:05:45
測試用 middle2 cronjob 跑了一次 update article snapshots,目前的資料量大概要跑 2 個小時
chihao 17:06:31
:face_with_hand_over_mouth:
pm5 17:09:35
XD 可以之後把它改的跑快一點
ronnywang 17:18:23
第一次因為文章全都沒抓過,會比較久,之後因為只要抓新文章,應該可以比較快?
pm5 17:28:17
@ayw255 ++ moved db config to env so deployment to middle2 went smoothly
pm5 17:35:57
看起來第一次就已經抓過所有文章了。update snapshot 應該只抓有更新過的文章?但好像現在會抓到沒有更新的文章
ronnywang 23:26:33
update snapshot 只抓新的文章的話,應該就不需要到兩個小時那麼久,應該都可以在短時間內完成吧?
ronnywang 23:26:51
這個也是需要研究的,該設定怎麼的更新頻率
wenyi 07:31:54
update 是抓需要更新的文章(目前設定是每篇文章一天一次執行七天),因為一次執行update就是看所有資料庫裡面需要更新的文章(所有sites)
wenyi 07:32:01
所以需要很~~~~久
wenyi 07:35:10
現在還想不太到有什麼好方法可以快一點
wenyi 07:41:35
看了一下db, 好像有點奇怪, 現在已經有snapshot count = 6 的文章了,照理來說應該頂多2 or 3
wenyi 07:52:47
啊抓到bug了… update content 的現在時間忘記從台灣時間改成unix time所以更新時間比較一直是錯的:sweat_smile:,要再麻煩@pm5 大大把新的code放到middle2上面了:pray:
pm5 18:46:22
我把 code 放到 middle2 上了。拜一 dev hangout 來討論一下 release workflow 嗎?然後不用叫我大大,叫 @chihao 夶就可以了。
chihao 18:47:19
:bow::bow::bow:
ronnywang 18:49:16
chihao 18:53:01
ronnywang 19:14:29
啊啊,手機有這字,電腦看不到
pm5 19:18:47
@ronnywang 對調教爬蟲有什麼建議嗎?
ronnywang 19:19:01
平行處理?
ronnywang 19:19:13
確定是卡在爬蟲速度嗎?
ronnywang 19:20:27
newsdiff 那邊我會平行爬,但是同一個 domain 的內容只會同時爬一隻
pm5 19:21:03
爬蟲現在 delay 1.5 sec 的樣子
ronnywang 19:21:27
curl_multi 可以平行爬不同網址
ronnywang 19:22:11
scrapy 可以研究看看有沒有 curl_multi 功能可以開?不過要注意平行時不要同時多個 thread 爬同一站,以免被抓包不正常流量
wenyi 19:57:54
scrapy是single threaded + asynchronous request&process
wenyi