disinfo

Month: 2019-11

2019-11-03

fly 14:40:09
@leo424y has joined the channel

2019-11-04

嘉豪 20:01:55
@kahou has joined the channel

2019-11-05

ggm 23:57:33
@ggm has joined the channel

2019-11-06

mglee 20:35:00
@mglee has joined the channel
chihao 23:51:27
這週因為坑主在 GMT+1 的時區,所以沒辦法參與週四 9am 的小聚 ._. 大家會想要自己聚嗎?隨意 tag @ronnywang @ayw255 @ddio @mrorz @isabelhou @pm5
mglee 00:20:44
小聚有線上版的嗎?遠端亂入 +1
chihao 00:48:44
其實就是線上的啊 :laughing:
mrorz 00:51:07
我週四早上可能無法 XD
我會看看會議記錄
wenyi 00:53:41
我都ok!!
chihao 00:54:29
如果有人想主揪麻煩喊聲喔,國家感謝你(?)不然就暫停一次 :smile:
Peace 11:39:28
下週也想亂入+1
bil 23:56:52
NDI關心大家還好嗎,跟大家說hi(狂揮手)
chihao 23:59:53
hey hey hey @bil :smile:

2019-11-07

chihao 00:54:55
@mglee 你現在在哪個時區,要來揪一個海外版線上小聚嗎?
poga 01:25:00
@poga has joined the channel
mglee 01:46:13
我在 Boston GMT-5。還沒摸清楚這個坑的樣子,等我見習一次後可以看看呦
chihao 06:43:55
@mglee 所以可以小聚一下?:joy:
chihao 06:45:14
Note
1. fiscal sponsorship
2. project contributors and roadmap
mglee 06:59:07
如果除了 (搞不清楚狀況的) 我之外,有 3~4 個人想參加,我可以幫忙揪唷。(單純覺得主揪就是開 hangout??
mglee 07:01:26
欸等等,時區沒算好,台灣星期四早上九點,不就是兩小時後嗎XDDD
chihao 07:10:02
是啊 :joy: 但我在的時區沒辦法,我的意思是說我們兩個可以先來個海外小聚小聊一下
mglee 07:14:16
原來如此:laughing: 可以阿,幫我快速惡補一下!你在 GMT+1?
mglee 07:19:39
你下午是我早上,等你醒來後我們來約!
chihao 07:28:38
@mglee 好!

2019-11-09

chihao 01:18:08
有想法就先丟出來:關於 0archive 的資料搜集、研究成果如何對大眾溝通,大家有什麼想法嗎?如果是要找合作對象,我目前想到的有
• 報導者劉致昕:圖文報導
• 沃草團隊:插畫、圖表、懶人包、行銷

2019-11-10

giallino 18:38:54
@tmwu has joined the channel

2019-11-13

pm5 09:56:22
不太確定沃草的 crawler 目前狀況如何 but anyway 我寫了一個版本 https://github.com/pm5/0ar

GitHub

pm5/0ar

Contribute to pm5/0ar development by creating an account on GitHub.

chihao 20:19:45
@pm5++ @ronnywang @ayw255 例行時間來開會 sync 進度?
chihao 21:43:24
可能討論一下
1. merging repos?
2. 計算報酬的方式
3. project proposal update
isabelhou 21:45:58
我明天會參加。
wenyi 22:28:28
:ok_hand:

2019-11-14

bil 08:18:17
欸有9點小聚ㄇ
isabelhou 08:32:14
有。bil 快來。
bil 08:58:01
好好好嗚嗚嗚我寄宿家庭剛煮好飯我來點一下家庭點數,希望我吃飽你們還在QQ
ronnywang 09:40:58
@chihao 資料庫部份,我把 整理 都改成 utf8mb4_general_ci ,ROW_FORMAT 改成 COMPRESSED。前者是改成用 4bytes 存 utf-8 ,這樣可以支援一些新的 Unicode 的東西,像是 emoji 或是奇怪的文字,後者是資料壓縮,可以省空間
ronnywang 13:32:20
接下來接上資料庫後,應該可以跑個一週,然後大概統計一下各來源平均一天的新文章產生數量,這樣來評估之後可以用什麼樣的頻率去檢查更新
chihao 13:33:04
++ rolling update
ronnywang 13:33:19
再來就實驗一下 readability 的解析效果如何?
ronnywang 13:36:02
還有 youtube 影片描述抓取的部份也可以排入加入
pm5 16:16:43
抱歉早上睡死了。所以目前 scraper 的狀況是要用沃草的 NewsScraping?
chihao 17:03:51
@pm5 今早本來想請你和 @ayw255 討論,不過殘念 :laughing: wenyi 的還缺自動 scheduling 和 db querying,我還沒看過你的 code
chihao 17:04:30
NewsScraping 已經移到新的 GitHub org https://github.com/disinfoRG/NewsScraping
chihao 17:04:56
也許 pm5 wenyi 兩個 repo 可以 merge?:laughing:
chihao 17:08:31
也許值得互相 review 一下 code,找到可能可以互補的地方 or 比較好的架構?
pm5 17:08:55
scheduling will probably be db-driven because we store sites info in db. okay, I think I can merge my pipelines into it.
chihao 17:22:07
Or vice versa :slightly_smiling_face:
chihao 17:22:37
我先把 @ayw255 @pm5 @ronnywang 加到新的組織,repo 暫時未公開
suensummit 19:00:14
@suensummit has joined the channel
allison.chen 21:31:29
@allison.chen has joined the channel
bruce 21:32:03
@fockerlee has joined the channel

2019-11-15

bil 02:51:25
@ronnywang 幾個需要爬爬的網站,https://www.guancha.cn
观察者
https://news.163.com
网易新闻

guancha.cn

观察者网-中国关怀 全球视野

观察者网,致力于荟萃中外思想者精华,鼓励青年学人探索,建中西文化交流平台,为崛起中的精英提供决策参考。

pm5 16:35:57
弱弱的問一下為什麼要用 primary key 要用 int(11),還有時間為什麼不用 timestamp? https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA

g0v.hackmd.io

零時檔案系統技術文件 0archive Technical Spec - HackMD

ronnywang 16:55:44
我自己習慣存時間是用int 存,主要是早年不同 SQL 處理 timestamp 方法可能有些不同,甚至同種 SQL 不同版本可能行為都不同,用 int 統一程式端處理是最保險的
ronnywang 16:57:19
不過還沒養成用 bigint 存的習慣 ,2038 年可能會炸 XD 這個我想 2028 年再開始煩惱
pm5 17:02:12
用 int 存時間我覺得也 ok;int(11) 的話,我是想問我以為 int(size) 的 size 只是 display size,實際上跟 int 是一樣的東西
ronnywang 17:03:35
Int(11) 應該是因為 @chihao. 是用 phpmyadmin 建的 table , phpmyadmin 雞婆幫設的?
chihao 17:04:25
嗯 int(11) 是 phpmyadmin 的預設值
pm5 17:08:33
喔喔,那可以順便討論下:多人一起開發的話應該用 migration 來處理 db schema 比較容易管理,所以我打算用 Alembic 來建 db tables,用 PugSQL 與 SQLAlchemy 來存取資料庫。你們覺得如何?
ronnywang 17:08:42
pm5 有 middle2 帳號嗎?也開給你權限可以連 mysql
pm5 17:08:58
我忘了 XD
ronnywang 17:09:10
我等等查一下 XD
pm5 17:09:40
用 migration 來管理資料庫的話,push 到 middle2 的時候就需要有個管道可以跑個 script 執行 db migration
ronnywang 17:29:03
@pm5 查了一下沒有你的帳號,給我你的 email 我開個帳號給你,密碼直接寄給你吧
ronnywang 17:41:01
ㄟ不對,有你的帳號
ronnywang 17:41:06
那我改一組密碼寄給你 XD
chihao 17:46:12
工人忘記密碼機制
chihao 17:55:46
謝謝 ronny 提醒,也把 pm5 加到 middle2 project 裡囉
isabelhou 20:18:26
We need to take records of today's attack.
chihao 20:39:47
Do you mean the mass reporting attack on Facebook?
isabelhou 20:45:32
yes
isabelhou 20:46:55
https://www.facebook.com/pnnpts/

facebook.com

公視新聞網 PNN

公視新聞網 PNN, Neihu, Taiwan. 340,778 likes · 155,567 talking about this. 最新的公共電視新聞資訊、深度報導,以及新聞議題分析分享。

isabelhou 20:50:12
of the latest post, many comments include pictures and information of posts removed.
isabelhou 22:56:41
台灣臉書的Max剛剛貼文說是技術問題,跟內容無關。
chihao 22:58:20
官方說法是否就是 fact-checking 的終點?:thinking_face:
isabelhou 23:00:11
當然不是啊!
isabelhou 23:01:25
不過@ronnywang 也覺得是技術問題樣子。
chihao 23:02:00
只是順便反省自己而已 :stuck_out_tongue:
Peace 11:29:57
作為一日中國的言論管制體驗
isabelhou 11:39:14
有種演習的感覺。
ronnywang 11:49:43
所以我要推廣訊息不要只發在臉書上 XD 像我都貼在 twitter 再同步到臉書
ronnywang 11:50:19
不怕單一平臺做惡意審核
gugod 21:18:53
那不順手貼去 g0v.social 或其他 mastodon 站點嗎 :stuck_out_tongue:

2019-11-16

2019-11-17

bruce 11:03:20
嗨,我是Bruce,我會python,想問可以幫忙做什麼嗎?
isabelhou 11:13:28
hi 歡迎加入。請先看一下g0v hackmd disinfo相關共筆,像是這個https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA
bruce 11:20:25
好!
chihao 21:42:32
Hi @fockerlee! 坑還在挖,目前還沒開出明確的 issue。你會想先試著參與整體的討論嗎?
chihao 21:43:57
我先 tag 目前兩個主要開發者 @ayw255 @pm5,也介紹一下 @fockerlee 是去年 summit 的議程組助理,bruce 可能記得 pm5 是去年 summit 的議程組召集人。
pm5 21:50:57
hi hi bruce
bruce 22:25:42
嗨! pm5!
bruce 22:26:04
我想參加討論,如果可以的話

2019-11-18

chihao 21:47:53
@ayw255@pm5 和我剛結束一次 dev meeting,確認這週我們分別要做的事,可以參考會議記錄共筆。
• 因為開發進度是設定一週,所以這週四的線上小聚先取消,改成下週一晚上約 dev meeting 同步進度,如果想參與的 developer 請喊聲 :slightly_smiling_face:
• 下次小聚是下週四 11/28 9am TW time
chihao 22:16:03
@pm5 @ayw255 想請問你們是用 python2 還是 python3?
wenyi 22:16:48
PYTHON3
pm5 23:55:59
3.6
pm5 23:56:42
好像側面消息得知 middle2 的 Python 3 是 3.6
ronnywang 23:57:20
應該是 XD
ronnywang 23:57:33
最近為了 disfactory 換的

2019-11-19

chihao 00:16:58
哦哦
chihao 00:51:49
@ayw255 update: sites are in db
wenyi 00:51:59
sweet
chihao 00:52:20
I put `article` and `following` in `Site.config`
chihao 00:52:45
Would you like to try to read db for sites? Or should I still create a new `url_map.csv`?
wenyi 00:53:11
i can merge that into the code
wenyi 00:53:27
but are we discarding N1, N2, N6, … ?
chihao 00:53:34
Btw I have to say pm5++ for `Always estimate 4 hours for these things`
wenyi 00:53:42
xddd
chihao 00:54:00
@ayw255 Oh oh right. Thinking… :thinking_face:
wenyi 00:54:49
umm if we are discarding the airtable then I think we can just use the int site_id on mysql
wenyi 00:55:03
I can change the site_it of url_map.csv by joining with url
wenyi 00:56:01
(or discard url_map.csv completely and just use mysql table)
chihao 00:57:05
I’m thinking
1. I will update ALL rows in `Article` to use new `Site` id
2. You (or I) change the code to discard `url_map.csv` and just use mysql `Site` table
chihao 00:57:42
Since all articles in db belongs to sites N6 & N16
wenyi 00:58:21
yep!
chihao 00:59:14
OK I will do 1 now
wenyi 00:59:50
I can do (2) later but if you want to try out / familiarize with the current code base you’re welcome to do it
chihao 01:01:07
N16 中華全國台灣同胞聯誼會 → 16
N6 琦琦看新聞 → 6
Simple enough :laughing:
chihao 01:03:09
1: done
chihao 01:12:59
2: I feel like I should get some sleep first. I changed type of site `news_websites` to `news_website`. There is an issue for this https://github.com/disinfoRG/NewsScraping/issues/2
wenyi 01:13:40
np!
wenyi 01:13:50
I will deal with it later this afternoon
wenyi 01:13:53
good night!
chihao 01:17:15
Fyi code to initialize `Site` table in db pushed to branch `init_sites` :slightly_smiling_face:
wenyi 11:22:51
2. change the code to discard `url_map.csv` and just use mysql `Site` table 完成了,已上傳github
另外原本db上面錯誤的timestamp也改好嚕
chihao 11:24:24
wenyi++ 這兩件事本來都是我的 todo T_T
wenyi 11:24:43
`init_sites`已merge進 `master`
wenyi 11:25:14
ㄏㄏㄏㄏㄏ就順便弄了