#disinfo
2019-11-03
fly
14:40:09
@leo424y has joined the channel
2019-11-04
kahou
20:01:55
@kahou has joined the channel
2019-11-05
ggm
23:57:33
@ggm has joined the channel
2019-11-06
mglee
20:35:00
@mglee has joined the channel
chihao
23:51:27
這週因為坑主在 GMT+1 的時區,所以沒辦法參與週四 9am 的小聚 ._. 大家會想要自己聚嗎?隨意 tag @ronnywang @ayw255 @ddio @mrorz @isabelhou @pm5
mglee
2019-11-07 00:20:44
小聚有線上版的嗎?遠端亂入 +1
chihao
2019-11-07 00:48:44
其實就是線上的啊 😆
mrorz
2019-11-07 00:51:07
我週四早上可能無法 XD
我會看看會議記錄
我會看看會議記錄
wenyi
2019-11-07 00:53:41
我都ok!!
chihao
2019-11-07 00:54:29
如果有人想主揪麻煩喊聲喔,國家感謝你(?)不然就暫停一次 😄
Peace
2019-11-07 11:39:28
下週也想亂入+1
bil
23:56:52
NDI關心大家還好嗎,跟大家說hi(狂揮手)
2019-11-07
mglee
00:20:44
小聚有線上版的嗎?遠端亂入 +1
mrorz
00:51:07
我週四早上可能無法 XD
我會看看會議記錄
我會看看會議記錄
wenyi
00:53:41
我都ok!!
chihao
00:54:29
如果有人想主揪麻煩喊聲喔,國家感謝你(?)不然就暫停一次 😄
chihao
00:54:55
@mglee 你現在在哪個時區,要來揪一個海外版線上小聚嗎?
poga
01:25:00
@poga has joined the channel
mglee
01:46:13
我在 Boston GMT-5。還沒摸清楚這個坑的樣子,等我見習一次後可以看看呦
chihao
06:43:55
@mglee 所以可以小聚一下?😂
chihao
06:45:14
Note
1. fiscal sponsorship
2. project contributors and roadmap
1. fiscal sponsorship
2. project contributors and roadmap
mglee
06:59:07
如果除了 (搞不清楚狀況的) 我之外,有 3~4 個人想參加,我可以幫忙揪唷。(單純覺得主揪就是開 hangout??
mglee
07:01:26
欸等等,時區沒算好,台灣星期四早上九點,不就是兩小時後嗎XDDD
chihao
07:10:02
是啊 😂 但我在的時區沒辦法,我的意思是說我們兩個可以先來個海外小聚小聊一下
mglee
07:14:16
原來如此😆 可以阿,幫我快速惡補一下!你在 GMT+1?
mglee
07:19:39
你下午是我早上,等你醒來後我們來約!
chihao
07:28:38
@mglee 好!
2019-11-09
chihao
01:18:08
有想法就先丟出來:關於 0archive 的資料搜集、研究成果如何對大眾溝通,大家有什麼想法嗎?如果是要找合作對象,我目前想到的有
• 報導者劉致昕:圖文報導
• 沃草團隊:插畫、圖表、懶人包、行銷
• 報導者劉致昕:圖文報導
• 沃草團隊:插畫、圖表、懶人包、行銷
2019-11-10
isabelhou
14:21:45
親子天下
即使不看假訊息會不會有影響?當然會!你說「其實我也沒在看,就這樣滑過去而已」,其實光這樣無意識的滑過去就很危險,因為你沒有真正在思考,而且就算你只是很快的滑過去,那些訊息還是有進到你的大腦裡,慢慢...![]()
- ❤️1
giallino
18:38:54
@tmwu has joined the channel
2019-11-13
chihao
20:19:45
@pm5++ @ronnywang @ayw255 例行時間來開會 sync 進度?
chihao
21:43:24
可能討論一下
1. merging repos?
2. 計算報酬的方式
3. project proposal update
1. merging repos?
2. 計算報酬的方式
3. project proposal update
2019-11-14
bil
08:18:17
欸有9點小聚ㄇ
isabelhou
08:32:14
有。bil 快來。
chihao
08:55:15
chihao
08:58:34
Meeting notes https://g0v.hackmd.io/BChGrPg-TkWsvks2ey5q6A?both
ronnywang
09:40:58
@chihao 資料庫部份,我把 整理 都改成 utf8mb4_general_ci ,ROW_FORMAT 改成 COMPRESSED。前者是改成用 4bytes 存 utf-8 ,這樣可以支援一些新的 Unicode 的東西,像是 emoji 或是奇怪的文字,後者是資料壓縮,可以省空間
- 🙌2
ronnywang
13:32:20
接下來接上資料庫後,應該可以跑個一週,然後大概統計一下各來源平均一天的新文章產生數量,這樣來評估之後可以用什麼樣的頻率去檢查更新
chihao
13:33:04
++ rolling update
ronnywang
13:33:19
再來就實驗一下 readability 的解析效果如何?
pm5
16:16:43
抱歉早上睡死了。所以目前 scraper 的狀況是要用沃草的 NewsScraping?
chihao
17:03:51
@pm5 今早本來想請你和 @ayw255 討論,不過殘念 😆 wenyi 的還缺自動 scheduling 和 db querying,我還沒看過你的 code
chihao
17:04:30
NewsScraping 已經移到新的 GitHub org https://github.com/disinfoRG/NewsScraping
chihao
17:04:56
也許 pm5 wenyi 兩個 repo 可以 merge?😆
chihao
17:08:31
也許值得互相 review 一下 code,找到可能可以互補的地方 or 比較好的架構?
pm5
17:08:55
scheduling will probably be db-driven because we store sites info in db. okay, I think I can merge my pipelines into it.
chihao
17:22:07
Or vice versa 🙂
chihao
17:22:37
我先把 @ayw255 @pm5 @ronnywang 加到新的組織,repo 暫時未公開
allison.chen
21:31:29
@allison.chen has joined the channel
bruce
21:32:03
@fockerlee has joined the channel
2019-11-15
bil
02:51:25
- 🙌2
wenyi
2019-11-20 06:47:17
@ronnywang @chihao 我已經把這兩個網站加入Airtable & DB 的site table囉~
非常感謝❤️
pm5
16:35:57
弱弱的問一下為什麼要用 primary key 要用 int(11),還有時間為什麼不用 timestamp? https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA
ronnywang
16:55:44
我自己習慣存時間是用int 存,主要是早年不同 SQL 處理 timestamp 方法可能有些不同,甚至同種 SQL 不同版本可能行為都不同,用 int 統一程式端處理是最保險的
ronnywang
16:57:19
不過還沒養成用 bigint 存的習慣 ,2038 年可能會炸 XD 這個我想 2028 年再開始煩惱
pm5
17:02:12
用 int 存時間我覺得也 ok;int(11) 的話,我是想問我以為 int(size) 的 size 只是 display size,實際上跟 int 是一樣的東西
ronnywang
17:03:35
Int(11) 應該是因為 @chihao. 是用 phpmyadmin 建的 table , phpmyadmin 雞婆幫設的?
chihao
17:04:25
嗯 int(11) 是 phpmyadmin 的預設值
pm5
17:08:33
喔喔,那可以順便討論下:多人一起開發的話應該用 migration 來處理 db schema 比較容易管理,所以我打算用 Alembic 來建 db tables,用 PugSQL 與 SQLAlchemy 來存取資料庫。你們覺得如何?
1
ronnywang
17:08:42
pm5 有 middle2 帳號嗎?也開給你權限可以連 mysql
pm5
17:08:58
我忘了 XD
ronnywang
17:09:10
我等等查一下 XD
pm5
17:09:40
用 migration 來管理資料庫的話,push 到 middle2 的時候就需要有個管道可以跑個 script 執行 db migration
ronnywang
17:29:03
@pm5 查了一下沒有你的帳號,給我你的 email 我開個帳號給你,密碼直接寄給你吧
ronnywang
17:41:01
ㄟ不對,有你的帳號
ronnywang
17:41:06
那我改一組密碼寄給你 XD
chihao
17:46:12
工人忘記密碼機制
chihao
17:55:46
謝謝 ronny 提醒,也把 pm5 加到 middle2 project 裡囉
isabelhou
20:18:26
We need to take records of today's attack.
chihao
20:39:47
Do you mean the mass reporting attack on Facebook?
isabelhou
20:45:32
yes
isabelhou
20:46:55
facebook.com
公視新聞網 PNN, Neihu, Taiwan. 340,778 likes · 155,567 talking about this. 最新的公共電視新聞資訊、深度報導,以及新聞議題分析分享。
isabelhou
20:50:12
of the latest post, many comments include pictures and information of posts removed.
wenyi
22:35:03
what happened on facebook today?
isabelhou
22:55:42
tw.news.yahoo.com
[新頭殼newtalk] 臉書(FACEBOOK)今 (15) 天晚上七點多突然發生許多貼文被「大量檢舉下架」,其中部分內容關乎政治議題,被臉書官方偵測,以「貼文違反《社群守則》」為由,全部改定公開對象限定為「自己才能看到」。此外,部分網域的連結也遭受屏蔽,無法分享在臉書上,如《新頭殼》、《公視新聞網》、《鏡周刊》、《風傳媒》及《上下游 News&Market》等多家網站。臉書昨 (14) 天剛宣布最新的社群守則,表示會移除臉書和Instagram上有害的內容,讓平台更安全,為使用者帶來更舒適的體驗。但今天下午台灣用戶就傳出大量刪文的災情,連只是轉貼新聞連結,包含新頭殼、公視、風傳媒、鏡周刊、上下游等等新聞來源都被刪除![]()
isabelhou
22:56:41
台灣臉書的Max剛剛貼文說是技術問題,跟內容無關。
chihao
22:58:20
官方說法是否就是 fact-checking 的終點?🤔
isabelhou
2019-11-15 23:00:11
當然不是啊!
isabelhou
2019-11-15 23:01:25
不過@ronnywang 也覺得是技術問題樣子。
chihao
2019-11-15 23:02:00
只是順便反省自己而已 😛
Peace
2019-11-16 11:29:57
作為一日中國的言論管制體驗
isabelhou
2019-11-16 11:39:14
有種演習的感覺。
ronnywang
2019-11-16 11:49:43
所以我要推廣訊息不要只發在臉書上 XD 像我都貼在 twitter 再同步到臉書
ronnywang
2019-11-16 11:50:19
不怕單一平臺做惡意審核
gugod
2019-11-17 21:18:53
那不順手貼去 g0v.social 或其他 mastodon 站點嗎 😛
isabelhou
23:00:11
當然不是啊!
isabelhou
23:01:25
不過@ronnywang 也覺得是技術問題樣子。
isabelhou
23:06:45
cna.com.tw
臉書今天發生大量貼文違反社群守則有關垃圾訊息規定而遭移除的問題,網友質疑與香港或選舉相關內容遭檢舉下架,但也有民眾實測轉貼香港反送中主題文章未被移除,臉書官方則尚未回應。![]()
2019-11-16
isabelhou
11:39:14
有種演習的感覺。
2019-11-17
bruce
11:03:20
嗨,我是Bruce,我會python,想問可以幫忙做什麼嗎?
isabelhou
2019-11-17 11:13:28
hi 歡迎加入。請先看一下g0v hackmd disinfo相關共筆,像是這個https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA
bruce
2019-11-17 11:20:25
好!
chihao
2019-11-18 21:42:32
Hi @fockerlee! 坑還在挖,目前還沒開出明確的 issue。你會想先試著參與整體的討論嗎?
chihao
2019-11-18 21:43:57
我先 tag 目前兩個主要開發者 @ayw255 @pm5,也介紹一下 @fockerlee 是去年 summit 的議程組助理,bruce 可能記得 pm5 是去年 summit 的議程組召集人。
hi hi bruce
bruce
2019-11-18 22:25:42
嗨! pm5!
bruce
2019-11-18 22:26:04
我想參加討論,如果可以的話
isabelhou
11:13:28
hi 歡迎加入。請先看一下g0v hackmd disinfo相關共筆,像是這個https://g0v.hackmd.io/lMQO37z6SbWNWo3R4-X_EA
bruce
11:20:25
好!
gugod
21:18:53
那不順手貼去 g0v.social 或其他 mastodon 站點嗎 😛
2019-11-18
chihao
10:54:57
@isabelhou @pm5 Work plan https://docs.google.com/document/d/1g4Tf2q6lMX8-DelxRhhR6pBNGk42Jae76AjMMvbiZQk/edit#
chihao
21:42:32
Hi @fockerlee! 坑還在挖,目前還沒開出明確的 issue。你會想先試著參與整體的討論嗎?
chihao
21:43:57
我先 tag 目前兩個主要開發者 @ayw255 @pm5,也介紹一下 @fockerlee 是去年 summit 的議程組助理,bruce 可能記得 pm5 是去年 summit 的議程組召集人。
chihao
21:47:53
• @ayw255、@pm5 和我剛結束一次 dev meeting,確認這週我們分別要做的事,可以參考會議記錄共筆。
• 因為開發進度是設定一週,所以這週四的線上小聚先取消,改成下週一晚上約 dev meeting 同步進度,如果想參與的 developer 請喊聲 🙂
• 下次小聚是下週四 11/28 9am TW time
• 因為開發進度是設定一週,所以這週四的線上小聚先取消,改成下週一晚上約 dev meeting 同步進度,如果想參與的 developer 請喊聲 🙂
• 下次小聚是下週四 11/28 9am TW time
pm5
21:50:57
hi hi bruce
chihao
22:16:03
@pm5 @ayw255 想請問你們是用 python2 還是 python3?
wenyi
22:16:48
PYTHON3
bruce
22:25:42
嗨! pm5!
bruce
22:26:04
我想參加討論,如果可以的話
pm5
23:55:59
3.6
pm5
23:56:42
好像側面消息得知 middle2 的 Python 3 是 3.6
ronnywang
23:57:20
應該是 XD
ronnywang
23:57:33
最近為了 disfactory 換的
2019-11-19
chihao
00:16:58
哦哦
chihao
00:51:49
@ayw255 update: sites are in db
wenyi
00:51:59
sweet
chihao
00:52:20
I put `article` and `following` in `Site.config`
chihao
00:52:45
Would you like to try to read db for sites? Or should I still create a new `url_map.csv`?
wenyi
00:53:11
i can merge that into the code
wenyi
00:53:27
but are we discarding N1, N2, N6, … ?
chihao
00:53:34
Btw I have to say pm5++ for `Always estimate 4 hours for these things`
wenyi
00:53:42
xddd
chihao
00:54:00
@ayw255 Oh oh right. Thinking… 🤔
wenyi
00:54:49
umm if we are discarding the airtable then I think we can just use the int site_id on mysql
wenyi
00:55:03
I can change the site_it of url_map.csv by joining with url
wenyi
00:56:01
(or discard url_map.csv completely and just use mysql table)
chihao
00:57:05
I’m thinking
1. I will update ALL rows in `Article` to use new `Site` id
2. You (or I) change the code to discard `url_map.csv` and just use mysql `Site` table
1. I will update ALL rows in `Article` to use new `Site` id
2. You (or I) change the code to discard `url_map.csv` and just use mysql `Site` table
chihao
00:57:42
Since all articles in db belongs to sites N6 & N16
wenyi
00:58:21
yep!
chihao
00:59:14
OK I will do 1 now
wenyi
00:59:50
I can do (2) later but if you want to try out / familiarize with the current code base you’re welcome to do it
- 🙌1
chihao
01:01:07
N16 中華全國台灣同胞聯誼會 → 16
N6 琦琦看新聞 → 6
Simple enough 😆
N6 琦琦看新聞 → 6
Simple enough 😆
chihao
01:03:09
1: done
chihao
01:12:59
2: I feel like I should get some sleep first. I changed type of site `news_websites` to `news_website`. There is an issue for this https://github.com/disinfoRG/NewsScraping/issues/2
wenyi
01:13:40
np!
wenyi
01:13:50
I will deal with it later this afternoon
wenyi
01:13:53
good night!
wenyi
11:22:51
2. change the code to discard `url_map.csv` and just use mysql `Site` table 完成了,已上傳github
另外原本db上面錯誤的timestamp也改好嚕
另外原本db上面錯誤的timestamp也改好嚕
- 🙌1
chihao
11:24:24
wenyi++ 這兩件事本來都是我的 todo T_T
bruce
23:01:50
想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加
https://airtable.com/shr2kjYg6RH0wgQEh
https://airtable.com/shr2kjYg6RH0wgQEh
chihao
23:09:26
@fockerlee 是的,「新增追蹤對象」的確是設計來這樣用,希望大家能一起幫忙據報「值得追蹤」(?)的網站、fb 粉專、youtube channel 等等
bruce
23:16:43
好!
2019-11-20
fly
09:27:25
是不是要讓type 變必填,不然會沒有 id? 如第 114,115? @chihao
Bruce Lee
想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加
https://airtable.com/shr2kjYg6RH0wgQEh
- Forwarded from #disinfo
- 2019-11-19 23:01:50
gugod
11:35:49
"LINE 每日頭條" 是指 today.line.me 這個站嗎
bruce
2019-11-20 17:19:35
應該是kknews https://kknews.cc/terms.html 我之前也以為是line的,其實他們沒有自己的媒體,都是放別人的文章,另外他是完全不會查證的,那時講者舉例,之前上面有篇文章是要說用蛋白或麵粉敷燒傷是錯誤,後來上面又有篇文章說是有效的XD
bruce
2019-11-20 17:27:32
bruce
2019-11-20 17:32:34
但 Line Today 也是一樣在聲明中,寫他對於上面發表的內容,是不用負責任的
pm5
15:58:54
open-archive.org
A free, open-source mobile application dedicated to maintaining the privacy, provenance, and preservation of your media.
2
bruce
17:19:35
應該是kknews https://kknews.cc/terms.html 我之前也以為是line的,其實他們沒有自己的媒體,都是放別人的文章,另外他是完全不會查證的,那時講者舉例,之前上面有篇文章是要說用蛋白或麵粉敷燒傷是錯誤,後來上面又有篇文章說是有效的XD
2019-11-21
wenyi
04:39:16
@ronnywang @chihao 在塞了大概10K data進Article之後,phpmyadmin 點Article Table就出現Error 500(如圖)Q (目前用python api讀寫正常)
ronnywang
09:46:41
phpmyadmin 在大量資料時很容易不穩定的 XD
wenyi
10:06:24
XDD OKAY as long as it’s normal
chihao
10:21:51
@ronnywang 切身之痛 😆
pm5
10:42:21
好像可以開始想 dashboard 要看到什麼內容了,在資料超過 phpmyadmin 容易處理的數量的情況下
pm5
11:43:13
@chihao I don't have write permission to NewsScraping
chihao
11:49:56
What I thought we all do wait
bruce
12:23:18
想問零時檔案局的id,是自動生成或人工幫key?(檔案局:https://airtable.com/shrKvjXMO7GaUg1vd/tbl3DrYs5mXgl0EV9/viw2cuXweY8OxNkX6?blocks=hide)因為昨天我新增了幾個內容農場,但都沒有id
chihao
13:16:55
人工。本來的想像是:加到 airtable 之後要由 developer 加入 db,才會開始資料搜集的自動化流程
pm5
15:48:10
@fockerlee 下禮拜一晚上要不要一起來開 dev hangout?
- 🙌1
bruce
2019-11-21 17:20:24
好,想加入!
bruce
2019-11-21 17:20:41
通常是幾點在哪裡
台北時間 8:00pm-9:30pm 在線上
bruce
2019-11-21 23:48:52
好,我加入!
bruce
17:20:24
好,想加入!
bruce
17:20:41
通常是幾點在哪裡
lexifdev
20:18:47
@sl has joined the channel
chihao
20:19:07
\lexifdev/
lexifdev
20:19:18
Hi, finally!
chihao
20:19:44
Yes finally!
isabelhou
20:19:50
\lexifdev/
isabelhou
20:19:58
Welcome!
pm5
22:56:03
台北時間 8:00pm-9:30pm 在線上
pm5
23:06:09
@ayw255 I've merged the two codebases in master. There shouldn't be any change at your end. If all goes well I will deploy this branch to middle2 tomorrow and setup an cronjob.
- 🙌2
wenyi
2019-11-22 03:28:10
sounds amazing! I’ve finished a first run on all the available websites. Might test the update_content spider later in the day to make sure it works.
chihao
23:13:41
I heard that @sl has interest contributing to 0archive 😄
bruce
23:48:52
好,我加入!
2019-11-22
lexifdev
00:54:35
yeah, if there’s anything that I can help
wenyi
03:28:10
sounds amazing! I’ve finished a first run on all the available websites. Might test the update_content spider later in the day to make sure it works.
2019-11-23
mrorz
13:33:02
這個要不要 pin 或置頂呢
剛才加了一個 youtube channel,覺得回報應該要更顯眼些~
剛才加了一個 youtube channel,覺得回報應該要更顯眼些~
Bruce Lee
想問 Add a Site 是用來人工加假新聞或內容農場嗎?昨天有聽公視的君竹分享,特別提到Linek的每日頭條,也是內容農場,所以想說是否可以透過這 Add a site 去加
https://airtable.com/shr2kjYg6RH0wgQEh
- Forwarded from #disinfo
- 2019-11-19 23:01:50
2
pm5
13:35:48
@pm5 set the channel topic: Disinfo Research Group https://g0v.hackmd.io/6ZbDhEwbR1mclAh-ws1B9A?both 回報內容農場 https://airtable.com/shr2kjYg6RH0wgQEh
- 👍1
pm5
17:05:45
測試用 middle2 cronjob 跑了一次 update article snapshots,目前的資料量大概要跑 2 個小時
chihao
2019-11-23 17:06:31
🤭
XD 可以之後把它改的跑快一點
ronnywang
2019-11-23 17:18:23
第一次因為文章全都沒抓過,會比較久,之後因為只要抓新文章,應該可以比較快?
@ayw255 ++ moved db config to env so deployment to middle2 went smoothly
看起來第一次就已經抓過所有文章了。update snapshot 應該只抓有更新過的文章?但好像現在會抓到沒有更新的文章
ronnywang
2019-11-23 23:26:33
update snapshot 只抓新的文章的話,應該就不需要到兩個小時那麼久,應該都可以在短時間內完成吧?
ronnywang
2019-11-23 23:26:51
這個也是需要研究的,該設定怎麼的更新頻率
wenyi
2019-11-24 07:31:54
update 是抓需要更新的文章(目前設定是每篇文章一天一次執行七天),因為一次執行update就是看所有資料庫裡面需要更新的文章(所有sites)
wenyi
2019-11-24 07:32:01
所以需要很~~~~久
wenyi
2019-11-24 07:35:10
現在還想不太到有什麼好方法可以快一點
wenyi
2019-11-24 07:41:35
看了一下db, 好像有點奇怪, 現在已經有snapshot count = 6 的文章了,照理來說應該頂多2 or 3
wenyi
2019-11-24 07:52:47
啊抓到bug了… update content 的現在時間忘記從台灣時間改成unix time所以更新時間比較一直是錯的😅,要再麻煩@pm5 大大把新的code放到middle2上面了🙏
我把 code 放到 middle2 上了。拜一 dev hangout 來討論一下 release workflow 嗎?然後不用叫我大大,叫 @chihao 夶就可以了。
chihao
2019-11-24 18:47:19
🙇🙇🙇
ronnywang
2019-11-24 18:49:16
chihao
2019-11-24 18:53:01
ronnywang
2019-11-24 19:14:29
啊啊,手機有這字,電腦看不到
@ronnywang 對調教爬蟲有什麼建議嗎?
ronnywang
2019-11-24 19:19:01
平行處理?
ronnywang
2019-11-24 19:19:13
確定是卡在爬蟲速度嗎?
ronnywang
2019-11-24 19:20:27
newsdiff 那邊我會平行爬,但是同一個 domain 的內容只會同時爬一隻
爬蟲現在 delay 1.5 sec 的樣子
ronnywang
2019-11-24 19:21:09
ronnywang
2019-11-24 19:21:27
curl_multi 可以平行爬不同網址
ronnywang
2019-11-24 19:22:11
scrapy 可以研究看看有沒有 curl_multi 功能可以開?不過要注意平行時不要同時多個 thread 爬同一站,以免被抓包不正常流量
wenyi
2019-11-25 19:57:54
scrapy是single threaded + asynchronous request&process
wenyi
2019-11-25 20:01:01
可以提高concurrent request per domain,目前是16
chihao
17:06:31
🤭
ronnywang
17:18:23
第一次因為文章全都沒抓過,會比較久,之後因為只要抓新文章,應該可以比較快?
pm5
17:35:57
看起來第一次就已經抓過所有文章了。update snapshot 應該只抓有更新過的文章?但好像現在會抓到沒有更新的文章
ronnywang
23:26:33
update snapshot 只抓新的文章的話,應該就不需要到兩個小時那麼久,應該都可以在短時間內完成吧?
ronnywang
23:26:51
這個也是需要研究的,該設定怎麼的更新頻率
2019-11-24
wenyi
07:31:54
update 是抓需要更新的文章(目前設定是每篇文章一天一次執行七天),因為一次執行update就是看所有資料庫裡面需要更新的文章(所有sites)
wenyi
07:32:01
所以需要很~~~~久
wenyi
07:35:10
現在還想不太到有什麼好方法可以快一點
wenyi
07:41:35
看了一下db, 好像有點奇怪, 現在已經有snapshot count = 6 的文章了,照理來說應該頂多2 or 3
wenyi
07:52:47
啊抓到bug了… update content 的現在時間忘記從台灣時間改成unix time所以更新時間比較一直是錯的😅,要再麻煩@pm5 大大把新的code放到middle2上面了🙏
pm5
18:46:22
我把 code 放到 middle2 上了。拜一 dev hangout 來討論一下 release workflow 嗎?然後不用叫我大大,叫 @chihao 夶就可以了。
1
chihao
18:47:19
🙇🙇🙇
ronnywang
18:49:16
ronnywang
19:14:29
啊啊,手機有這字,電腦看不到
pm5
19:18:47
@ronnywang 對調教爬蟲有什麼建議嗎?
ronnywang
19:19:01
平行處理?
ronnywang
19:19:13
確定是卡在爬蟲速度嗎?
ronnywang
19:20:27
newsdiff 那邊我會平行爬,但是同一個 domain 的內容只會同時爬一隻
pm5
19:21:03
爬蟲現在 delay 1.5 sec 的樣子
ronnywang
19:21:09
ronnywang
19:21:27
curl_multi 可以平行爬不同網址
2019-11-25
poga
01:24:56
發現 0archive 好像第一屆獎助金我提過一個 civil archive
chihao
01:26:24
@poga 幫補連結 https://grants.g0v.tw/projects/586a7be0a327a4001ee49126 那要跳坑嗎 😆
HackDash
環境中隨時產生許多事件與數據,但缺乏良好的紀錄,難以引用而不易作為平時決策的依據。 Civil Archive 將給每個事件(何時何地發生何事)一個永久網址,平時討論便能引用。並透過去中心化技術確保資料不會被[任意下架](<https://www.wired.com/2017/01/rogue-scientists-race-save-climate-data-trump/>)或修改。讓每個情境都能引用適合的資料做依據。
- 😆1
chihao
01:29:06
跳坑/併坑?😎
wenyi
19:57:54
scrapy是single threaded + asynchronous request&process
wenyi
20:01:01
可以提高concurrent request per domain,目前是16
chihao
20:01:56
@pm5 @ayw255 dev meetup?
chihao
20:03:31
Link in calendar :) anyone else?
bruce
20:03:41
+1
bruce
20:05:00
may i know where the calendar is
bruce
20:05:19
thank you!
chihao
20:10:35
chihao
20:18:53
Today’s meeting notes https://g0v.hackmd.io/BChGrPg-TkWsvks2ey5q6A
chihao
22:11:10
大家好,0archive dev meeting 剛結束,其中跟 meeting 時間有關的事想跟在這個頻道的大家更新。
chihao
22:14:22
因為台灣人 9am 起床有困難(?),所以我決定之後的 community hangout 都改到每週四晚上 8 點,大家一樣自由參加、聊天,如果想要加入 google calendar event,可以把 email 透過私訊傳給我,下次 community hangout 是 12/5。讓我 tag 目前有在 gcal event 裡的人 @ayw255 @bil @fockerlee @ddio @isabelhou @mrorz @poga @pm5 @ronnywang 如果想退出 gcal event 也請喊聲即可 🙂
- 🐳4
chihao
22:15:47
dev meeting 則和 community hangout 分開,在每週一晚上 8 點,讓開發者討論實作,因為目前 repo 還未開放,所以如果想加入開發,請喊聲加入 dev meeting,才會視情況開權限。等到 project 穩定下來,repo 應該會加上 license 開源,到時候還請大家自由貢獻 😄
chihao
22:19:08
有在想週四的 disinfoRG community hangout 要不要加到 g0v 行事曆,不過我覺得好像再等一下好了(理由不明) @ronnywang 覺得呢?😆
wenyi
22:21:21
咦所以這週四沒有community hangout?
chihao
22:22:39
@ayw255 這週四 8pm 我發現我個人無法 host,所以擅自決定取消了 😂 有人想要接手這週的 community hangout 嗎?
wenyi
22:35:50
😆 所以@pm5 的pipenv & black 實作就順延嗎
chihao
22:37:03
我剛好知道 @pm5 這週四 8pm 也無法參與,在 9am → 8pm 的時候忘了檢查行事曆了 😆
pm5
22:42:49
那我改成先寫一個 guide 給你們,如果有問題我們再找時間處理好了?
- 🙌2
wenyi
2019-11-25 22:57:48
好哇好哇
@ayw255 @fockerlee @chihao 有遇到什麼問題嗎?
bruce
2019-11-28 20:01:14
我目前還沒用到middle2和NewScraping,還在找可以用的fb爬蟲😂
喔喔,fbcrawl 試過了嗎?
bruce
2019-11-29 16:38:44
試了,出現跟別人一樣的issue(https://github.com/rugantio/fbcrawl/issues/50),後來我把我fb安全性設定的雙重驗證關掉後再嘗試仍然一樣,我在試試看別的工具中
wenyi
2019-11-30 02:09:24
沒有什麼問題,除了brew install mysql之後,guide上面好像漏掉要先`mysql.server start` before creating tables~~
wenyi
2019-11-30 02:14:35
啊另外,我無法用`black . ` (會出現找不到black的error),所以我重新裝的一次 pipenv install black ,在branch `discover wrapper`中的pipfile可以看到
wenyi
22:57:48
好哇好哇
2019-11-26
yellowsoar
21:12:05
@yellowsoar has joined the channel
2019-11-28
pm5
14:39:58
@ayw255 @fockerlee @chihao 有遇到什麼問題嗎?
chihao
18:19:46
pm5++
bruce
20:01:14
我目前還沒用到middle2和NewScraping,還在找可以用的fb爬蟲😂
asoble
23:38:09
@asoble has joined the channel
2019-11-29
pm5
07:44:47
喔喔,fbcrawl 試過了嗎?
pm5
10:11:45
@chihao I need to add a unique key column to the Sites airtable
the simplest way I think is to add a column with formula `RECORD_ID()`
chihao
2019-11-29 11:15:11
I did not know you could do that `RECORD_ID()` Yes please!
I can't alter the table XD
chihao
2019-11-29 11:21:04
Why am I bad at this? Now you can. But I’ve done it! (hehe)
pm5
10:12:39
the simplest way I think is to add a column with formula `RECORD_ID()`
chihao
11:15:11
I did not know you could do that `RECORD_ID()` Yes please!
pm5
11:16:41
I can't alter the table XD
chihao
11:21:04
Why am I bad at this? Now you can. But I’ve done it! (hehe)
chihao
12:00:39
\yellowsoar/
bruce
16:38:44
試了,出現跟別人一樣的issue(https://github.com/rugantio/fbcrawl/issues/50),後來我把我fb安全性設定的雙重驗證關掉後再嘗試仍然一樣,我在試試看別的工具中
GitHub
Hi, When I make a test with Donald Trump I have this result, can you help me ? : INFO: Ignoring response <404 <https://mbasic.facebook.com/checkpoint/DonaldTrump>>: HTTP status code is not hand...
2019-11-30
wenyi
02:09:24
沒有什麼問題,除了brew install mysql之後,guide上面好像漏掉要先`mysql.server start` before creating tables~~
wenyi
02:14:35
啊另外,我無法用`black . ` (會出現找不到black的error),所以我重新裝的一次 pipenv install black ,在branch `discover wrapper`中的pipfile可以看到
wenyi
04:22:32
branch `discover_wrapper` merged to `master` and deployed to middle2. Here’s the changes:
1. db migration - add ‘is_active’ column to Site table.
2. codes/batch_discover.py: 包每隻discover spider的程式, 用multiprocessing
3. .pre-commit-config.yaml: “language” change to python=3.7
1. db migration - add ‘is_active’ column to Site table.
2. codes/batch_discover.py: 包每隻discover spider的程式, 用multiprocessing
3. .pre-commit-config.yaml: “language” change to python=3.7
- 🚀2
`batch_discover.py` now runs daily on middle2.
There are some problems with duplicated article url hash. Here is the log: https://middle2.com/project/cronlog/tainan-sun-500796
wenyi
2019-12-02 05:20:39
有發現針對一些website (e.g. 中國台灣網& udn) 會有這些錯誤,但還不太知道為什麼QQ 至少他不會被送進db
wenyi
2019-12-02 05:21:23
is_active column update完成, batch_discover should work well next run on middle2!
chihao
14:47:08
@pm5 @ayw255 @fockerlee 這次 12/21 的大松,0archive 要來提案嗎?😄
1
1- ❤️1
isabelhou
2019-11-30 20:52:04
Can you guys pitch disinfo project at FtO?
bruce
2019-12-01 16:47:20
gogogo
wenyi
2019-12-02 05:00:19
we can start discussing what kind of dataset can we put together before the hackathon? data visualization would probably the easiest way for ppl to contribute.
isabelhou
20:52:04
Can you guys pitch disinfo project at FtO?