disinfo

Month: 2019-11

2019-11-03

fly 14:40:09
@leo424y has joined the channel

2019-11-04

kahou 20:01:55
@kahou has joined the channel

2019-11-05

ggm 23:57:33
@ggm has joined the channel

2019-11-06

mglee 20:35:00
@mglee has joined the channel
chihao 23:51:27
這週因為坑主在 GMT+1 的時區,所以沒辦法參與週四 9am 的小聚 ._. 大家會想要自己聚嗎?隨意 tag @ronnywang @ayw255 @ddio @mrorz @isabelhou @pm5
小聚有線上版的嗎?遠端亂入 +1
其實就是線上的啊 😆
我週四早上可能無法 XD
我會看看會議記錄
我都ok!!
如果有人想主揪麻煩喊聲喔,國家感謝你(?)不然就暫停一次 😄
下週也想亂入+1
bil 23:56:52
NDI關心大家還好嗎,跟大家說hi(狂揮手)
chihao 23:59:53
hey hey hey @bil 😄
4 🐳 1

2019-11-07

chihao 00:54:55
@mglee 你現在在哪個時區,要來揪一個海外版線上小聚嗎?
poga 01:25:00
@poga has joined the channel
mglee 01:46:13
我在 Boston GMT-5。還沒摸清楚這個坑的樣子,等我見習一次後可以看看呦
chihao 06:43:55
@mglee 所以可以小聚一下?😂
chihao 06:45:14
Note
1. fiscal sponsorship
2. project contributors and roadmap
mglee 06:59:07
如果除了 (搞不清楚狀況的) 我之外,有 3~4 個人想參加,我可以幫忙揪唷。(單純覺得主揪就是開 hangout??
mglee 07:01:26
欸等等,時區沒算好,台灣星期四早上九點,不就是兩小時後嗎XDDD
chihao 07:10:02
是啊 😂 但我在的時區沒辦法,我的意思是說我們兩個可以先來個海外小聚小聊一下
mglee 07:14:16
原來如此😆 可以阿,幫我快速惡補一下!你在 GMT+1?
mglee 07:19:39
你下午是我早上,等你醒來後我們來約!
chihao 07:28:38
@mglee 好!

2019-11-09

chihao 01:18:08
有想法就先丟出來:關於 0archive 的資料搜集、研究成果如何對大眾溝通,大家有什麼想法嗎?如果是要找合作對象,我目前想到的有
• 報導者劉致昕:圖文報導
• 沃草團隊:插畫、圖表、懶人包、行銷

2019-11-10

giallino 18:38:54
@tmwu has joined the channel

2019-11-13

pm5 09:56:22
不太確定沃草的 crawler 目前狀況如何 but anyway 我寫了一個版本 https://github.com/pm5/0ar

GitHub

pm5/0ar

Contribute to pm5/0ar development by creating an account on GitHub.

chihao 20:19:45
@pm5++ @ronnywang @ayw255 例行時間來開會 sync 進度?
chihao 21:43:24
可能討論一下
1. merging repos?
2. 計算報酬的方式
3. project proposal update
isabelhou 21:45:58
我明天會參加。
🙌 1
wenyi 22:28:28
👌
🙌 1

2019-11-14

bil 08:18:17
欸有9點小聚ㄇ
isabelhou 08:32:14
有。bil 快來。
bil 08:58:01
好好好嗚嗚嗚我寄宿家庭剛煮好飯我來點一下家庭點數,希望我吃飽你們還在QQ
👍 2
ronnywang 09:40:58
@chihao 資料庫部份,我把 整理 都改成 utf8mb4_general_ci ,ROW_FORMAT 改成 COMPRESSED。前者是改成用 4bytes 存 utf-8 ,這樣可以支援一些新的 Unicode 的東西,像是 emoji 或是奇怪的文字,後者是資料壓縮,可以省空間
🙌 2
ronnywang 13:32:20
接下來接上資料庫後,應該可以跑個一週,然後大概統計一下各來源平均一天的新文章產生數量,這樣來評估之後可以用什麼樣的頻率去檢查更新
chihao 13:33:04
++ rolling update
ronnywang 13:33:19
再來就實驗一下 readability 的解析效果如何?
ronnywang 13:36:02
還有 youtube 影片描述抓取的部份也可以排入加入
👍 2
pm5 16:16:43
抱歉早上睡死了。所以目前 scraper 的狀況是要用沃草的 NewsScraping?
chihao 17:03:51
@pm5 今早本來想請你和 @ayw255 討論,不過殘念 😆 wenyi 的還缺自動 scheduling 和 db querying,我還沒看過你的 code
chihao 17:04:30
NewsScraping 已經移到新的 GitHub org https://github.com/disinfoRG/NewsScraping
chihao 17:04:56
也許 pm5 wenyi 兩個 repo 可以 merge?😆
chihao 17:08:31
也許值得互相 review 一下 code,找到可能可以互補的地方 or 比較好的架構?
pm5 17:08:55
scheduling will probably be db-driven because we store sites info in db. okay, I think I can merge my pipelines into it.
chihao 17:22:07
Or vice versa 🙂
chihao 17:22:37
我先把 @ayw255 @pm5 @ronnywang 加到新的組織,repo 暫時未公開
suensummit 19:00:14
@suensummit has joined the channel
1
allison.chen 21:31:29
@allison.chen has joined the channel
bruce 21:32:03
@fockerlee has joined the channel

2019-11-15

bil 02:51:25
@ronnywang 幾個需要爬爬的網站,https://www.guancha.cn
观察者
https://news.163.com
网易新闻

guancha.cn

观察者网-中国关怀 全球视野

观察者网,致力于荟萃中外思想者精华,鼓励青年学人探索,建中西文化交流平台,为崛起中的精英提供决策参考。

@ronnywang @chihao 我已經把這兩個網站加入Airtable & DB 的site table囉~
非常感謝❤️
🙌 2
pm5 16:35:57
弱弱的問一下為什麼要用 primary key 要用 int(11),還有時間為什麼不用 timestamp? https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA

g0v.hackmd.io

零時檔案系統技術文件 0archive Technical Spec - HackMD

ronnywang 16:55:44
我自己習慣存時間是用int 存,主要是早年不同 SQL 處理 timestamp 方法可能有些不同,甚至同種 SQL 不同版本可能行為都不同,用 int 統一程式端處理是最保險的
ronnywang 16:57:19
不過還沒養成用 bigint 存的習慣 ,2038 年可能會炸 XD 這個我想 2028 年再開始煩惱
pm5 17:02:12
用 int 存時間我覺得也 ok;int(11) 的話,我是想問我以為 int(size) 的 size 只是 display size,實際上跟 int 是一樣的東西
ronnywang 17:03:35
Int(11) 應該是因為 @chihao. 是用 phpmyadmin 建的 table , phpmyadmin 雞婆幫設的?
chihao 17:04:25
嗯 int(11) 是 phpmyadmin 的預設值
pm5 17:08:33
喔喔,那可以順便討論下:多人一起開發的話應該用 migration 來處理 db schema 比較容易管理,所以我打算用 Alembic 來建 db tables,用 PugSQL 與 SQLAlchemy 來存取資料庫。你們覺得如何?
1
ronnywang 17:08:42
pm5 有 middle2 帳號嗎?也開給你權限可以連 mysql
pm5 17:08:58
我忘了 XD
ronnywang 17:09:10
我等等查一下 XD
pm5 17:09:40
用 migration 來管理資料庫的話,push 到 middle2 的時候就需要有個管道可以跑個 script 執行 db migration
ronnywang 17:29:03
@pm5 查了一下沒有你的帳號,給我你的 email 我開個帳號給你,密碼直接寄給你吧
ronnywang 17:41:01
ㄟ不對,有你的帳號
ronnywang 17:41:06
那我改一組密碼寄給你 XD
chihao 17:46:12
工人忘記密碼機制
chihao 17:55:46
謝謝 ronny 提醒,也把 pm5 加到 middle2 project 裡囉
isabelhou 20:18:26
We need to take records of today's attack.
chihao 20:39:47
Do you mean the mass reporting attack on Facebook?
isabelhou 20:45:32
yes
isabelhou 20:46:55
https://www.facebook.com/pnnpts/

facebook.com

公視新聞網 PNN

公視新聞網 PNN, Neihu, Taiwan. 340,778 likes · 155,567 talking about this. 最新的公共電視新聞資訊、深度報導,以及新聞議題分析分享。

isabelhou 20:50:12
of the latest post, many comments include pictures and information of posts removed.
isabelhou 22:56:41
台灣臉書的Max剛剛貼文說是技術問題,跟內容無關。
chihao 22:58:20
官方說法是否就是 fact-checking 的終點?🤔
當然不是啊!
不過@ronnywang 也覺得是技術問題樣子。
只是順便反省自己而已 😛
作為一日中國的言論管制體驗
有種演習的感覺。
所以我要推廣訊息不要只發在臉書上 XD 像我都貼在 twitter 再同步到臉書
不怕單一平臺做惡意審核
那不順手貼去 g0v.social 或其他 mastodon 站點嗎 😛

2019-11-16

2019-11-17

bruce 11:03:20
嗨,我是Bruce,我會python,想問可以幫忙做什麼嗎?
hi 歡迎加入。請先看一下g0v hackmd disinfo相關共筆,像是這個https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA
好!
Hi @fockerlee! 坑還在挖,目前還沒開出明確的 issue。你會想先試著參與整體的討論嗎?
我先 tag 目前兩個主要開發者 @ayw255 @pm5,也介紹一下 @fockerlee 是去年 summit 的議程組助理,bruce 可能記得 pm5 是去年 summit 的議程組召集人。
hi hi bruce
嗨! pm5!
我想參加討論,如果可以的話

2019-11-18

chihao 21:47:53
@ayw255@pm5 和我剛結束一次 dev meeting,確認這週我們分別要做的事,可以參考會議記錄共筆。
• 因為開發進度是設定一週,所以這週四的線上小聚先取消,改成下週一晚上約 dev meeting 同步進度,如果想參與的 developer 請喊聲 🙂
• 下次小聚是下週四 11/28 9am TW time
chihao 22:16:03
@pm5 @ayw255 想請問你們是用 python2 還是 python3?
wenyi 22:16:48
PYTHON3
pm5 23:55:59
3.6
pm5 23:56:42
好像側面消息得知 middle2 的 Python 3 是 3.6
ronnywang 23:57:20
應該是 XD
ronnywang 23:57:33
最近為了 disfactory 換的

2019-11-19

chihao 00:16:58
哦哦
chihao 00:51:49
@ayw255 update: sites are in db
wenyi 00:51:59
sweet
chihao 00:52:20
I put `article` and `following` in `Site.config`
chihao 00:52:45
Would you like to try to read db for sites? Or should I still create a new `url_map.csv`?
wenyi 00:53:11
i can merge that into the code
wenyi 00:53:27
but are we discarding N1, N2, N6, … ?
chihao 00:53:34
Btw I have to say pm5++ for `Always estimate 4 hours for these things`
wenyi 00:53:42
xddd
chihao 00:54:00
@ayw255 Oh oh right. Thinking… 🤔
wenyi 00:54:49
umm if we are discarding the airtable then I think we can just use the int site_id on mysql
wenyi 00:55:03
I can change the site_it of url_map.csv by joining with url
wenyi 00:56:01
(or discard url_map.csv completely and just use mysql table)
chihao 00:57:05
I’m thinking
1. I will update ALL rows in `Article` to use new `Site` id
2. You (or I) change the code to discard `url_map.csv` and just use mysql `Site` table
chihao 00:57:42
Since all articles in db belongs to sites N6 & N16
wenyi 00:58:21
yep!
chihao 00:59:14
OK I will do 1 now
wenyi 00:59:50
I can do (2) later but if you want to try out / familiarize with the current code base you’re welcome to do it
🙌 1
chihao 01:01:07
N16 中華全國台灣同胞聯誼會 → 16
N6 琦琦看新聞 → 6
Simple enough 😆
chihao 01:03:09
1: done
chihao 01:12:59
2: I feel like I should get some sleep first. I changed type of site `news_websites` to `news_website`. There is an issue for this https://github.com/disinfoRG/NewsScraping/issues/2
wenyi 01:13:40
np!
wenyi 01:13:50
I will deal with it later this afternoon
wenyi 01:13:53
good night!
chihao 01:17:15
Fyi code to initialize `Site` table in db pushed to branch `init_sites` 🙂
👌 1
wenyi 11:22:51
2. change the code to discard `url_map.csv` and just use mysql `Site` table 完成了,已上傳github
另外原本db上面錯誤的timestamp也改好嚕
🙌 1
chihao 11:24:24
wenyi++ 這兩件事本來都是我的 todo T_T
wenyi 11:24:43
`init_sites`已merge進 `master`
1
wenyi 11:25:14
ㄏㄏㄏㄏㄏ就順便弄了
😂 1
bruce 23:01:50
想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加
https://airtable.com/shr2kjYg6RH0wgQEh

Airtable

零時檔案局/新增追蹤對象 - Airtable

Fill out the "零時檔案局/新增追蹤對象" form quickly and securely on Airtable.

chihao 23:09:26
@fockerlee 是的,「新增追蹤對象」的確是設計來這樣用,希望大家能一起幫忙據報「值得追蹤」(?)的網站、fb 粉專、youtube channel 等等
bruce 23:16:43
好!

2019-11-20

fly 09:27:25
是不是要讓type 變必填,不然會沒有 id? 如第 114,115? @chihao

想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加 <https://airtable.com/shr2kjYg6RH0wgQEh>

gugod 11:35:49
"LINE 每日頭條" 是指 today.line.me 這個站嗎
應該是kknews https://kknews.cc/terms.html 我之前也以為是line的,其實他們沒有自己的媒體,都是放別人的文章,另外他是完全不會查證的,那時講者舉例,之前上面有篇文章是要說用蛋白或麵粉敷燒傷是錯誤,後來上面又有篇文章說是有效的XD
但 Line Today 也是一樣在聲明中,寫他對於上面發表的內容,是不用負責任的
pm5 15:58:54
https://open-archive.org/

open-archive.org

OpenArchive Home

A free, open-source mobile application dedicated to maintaining the privacy, provenance, and preservation of your media.

2

2019-11-21

wenyi 04:39:16
@ronnywang @chihao 在塞了大概10K data進Article之後,phpmyadmin 點Article Table就出現Error 500(如圖)Q (目前用python api讀寫正常)
Screen Shot 2019-11-20 at 3.36.10 PM.png
ronnywang 09:46:41
phpmyadmin 在大量資料時很容易不穩定的 XD
wenyi 10:06:24
XDD OKAY as long as it’s normal
chihao 10:21:51
@ronnywang 切身之痛 😆
pm5 10:42:21
好像可以開始想 dashboard 要看到什麼內容了,在資料超過 phpmyadmin 容易處理的數量的情況下
pm5 11:43:13
@chihao I don't have write permission to NewsScraping
chihao 11:49:56
What I thought we all do wait
chihao 11:52:34
@pm5 Please try again :)
✅ 1
bruce 12:23:18
想問零時檔案局的id,是自動生成或人工幫key?(檔案局:https://airtable.com/shrKvjXMO7GaUg1vd/tbl3DrYs5mXgl0EV9/viw2cuXweY8OxNkX6?blocks=hide)因為昨天我新增了幾個內容農場,但都沒有id

Airtable

零時檔案局 0archive - Airtable

Explore the "零時檔案局 0archive" base on Airtable.

chihao 13:16:55
人工。本來的想像是:加到 airtable 之後要由 developer 加入 db,才會開始資料搜集的自動化流程
chihao 13:17:54
這份 airtable 其實也該跟著新的 db schema 更新了 😛
👍 1
pm5 14:04:05
那我們下禮拜分一部份時間來做 site API 好了?
🙌 1
pm5 15:48:10
@fockerlee 下禮拜一晚上要不要一起來開 dev hangout?
好,想加入!
通常是幾點在哪裡
台北時間 8:00pm-9:30pm 在線上
好,我加入!
🙌 1