#disinfo
2020-02-03
chihao
12:33:48
@ayw255 @pm5 @fockerlee 今晚是久違的 dev meeting 👋
1- 🙌1
- ❤️1
- 👍1
抱歉我要遲到幾分鐘
chihao
2020-02-03 19:58:51
OK 👌
@chihao 可以幫我貼嗎?
近況:很宅
進度:整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論:整理出來的需求、這個月的分工與目標
近況:很宅
進度:整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論:整理出來的需求、這個月的分工與目標
chihao
2020-02-03 20:15:27
XD
pm5
19:58:40
抱歉我要遲到幾分鐘
chihao
19:58:51
OK 👌
pm5
20:15:11
@chihao 可以幫我貼嗎?
近況:很宅
進度:整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論:整理出來的需求、這個月的分工與目標
近況:很宅
進度:整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論:整理出來的需求、這個月的分工與目標
chihao
20:15:27
XD
2020-02-05
chihao
16:14:30
這個 http://www.cpfcnews.tw/ @ayw255 不知道能不能順利爬下來
wenyi
2020-02-05 23:23:17
@chihao 加進去跑囉!
bil
19:38:20
https://vimeo.com/387781944
嗨鄰鄰想備份這個影片~~感謝大德
嗨鄰鄰想備份這個影片~~感謝大德
Vimeo
A 78-year-old man covered his body with one beautiful tattoo. The retired Principal City Planner for Baltimore talks about trees, consciousness, letting go of life and his genitals. “out of the blue” is this week’s Staff Pick Premiere. Read more about it on the Vimeo Blog: Directors: Friendzone (Jonathan Bregel & Steve Hoover) Producer: Jonathan Bregel Editor: Steve Hoover Cinematography: Jonathan Bregel & Dan St. Ours Composer: Theo Bedoucha Sound Design & Mix: Defacto Sound () Colorist: Jacob McKee
youtube有鎖年齡很不方便
bil
19:39:02
youtube有鎖年齡很不方便
wenyi
23:23:17
@chihao 加進去跑囉!
chihao
23:55:21
@bil 影音備份機制還在 0archive 的 roadmap 上,有沒有什麼建議怎麼進行?來 tag 一下 @mrorz 好了?😂
噢原來還不行XDDD可能要有很大的空間
2020-02-06
2020-02-11
frank
13:30:54
@pacoou has joined the channel
2020-02-13
pm5
13:42:00
@fockerlee 等一下我會晚 10 分鐘上線,抱歉
bruce
13:59:41
好
gugod
20:24:31
typopedia.blogspot.com
這是個為了發洩悶氣的特攻隊,如果要投稿或是作不定主題的討論,歡迎到訪客留言板 (/2006/05/blog-post_114758831903987592.html#comments)。除此之外,尚有一類似主題的姐妹 Blog : <http://absurdorama.blogspot.com/|荒謬大觀>。
- 😆2
gugod
2020-02-13 21:50:26
https://github.com/g0v/people-in-news/blob/master/etc/substr-common-typos.txt
簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂
簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂
gugod
2020-02-24 21:14:08
https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E5%AA%92%E9%AB%94%E4%BA%82%E8%B1%A1#%E6%9C%AA%E7%B6%93%E6%9F%A5%E8%AD%89
突然發現這頁的整理其實對於判別 disinfo 有一定的幫助呢
突然發現這頁的整理其實對於判別 disinfo 有一定的幫助呢
gugod
21:50:26
https://github.com/g0v/people-in-news/blob/master/etc/substr-common-typos.txt
簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂
簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂
GitHub
公眾人物新聞的追蹤. Contribute to g0v/people-in-news development by creating an account on GitHub.
2020-02-18
wenyi
12:28:17
現在fb & news有各自的db,airtable update 到DB site table 的airtable spider 是要FbScraping & NewsScraping 各自不同,還是要同一隻airtable spider 加 type filter parameter (array of types),設定放進類似 env 的地方? @chihao @pm5
wenyi
12:28:58
個人覺得 @chihao 提議的加type filter parameter還不錯
chihao
12:29:21
\ 2. / spider 可以重用,只是不同環境 tainan / changhua 抓不同 type 的 site
chihao
12:29:46
然後環境名 `tainan` / `changhua` 感覺也需要進入 env,給 parser db 對照用
chihao
12:30:42
ScrapperDb – ParserDb 從 1–1 進化到 n–1 的關係 \o/
wenyi
13:04:25
摁摁那感覺是加一個db_type = news / db_type = fb 的env
chihao
13:05:25
感覺不用到 type,就用 name 就可以,這樣取名可以比較任性
chihao
13:05:53
tainan 就叫 tainan,changhua 就叫 changhua
ABow_Chen
13:55:00
@fred39392001 has joined the channel
wenyi
21:22:31
這樣之後open source會不會很難懂啊,想像中這樣的話 airtable spider應該是有個 `if db_name == "changhua" then update fb sites`? 還是我漏掉了什麼@@ @chihao
chihao
21:42:59
site spider:
• gets options from env
• update site table according to env options
• gets options from env
• update site table according to env options
- 👍1
chihao
21:43:11
這樣?
2020-02-19
chihao
00:03:57
在 code 應該就不會出現 `A == 'X'` 而是 `env.types.include(A)` 這種判斷
wenyi
2020-02-19 00:11:52
ok sounds good!
chihao
2020-02-19 00:15:46
\o/
wenyi
00:11:52
ok sounds good!
chihao
00:15:46
\o/
wenyi
23:55:20
更新的airtable spider deploy 到 `tainan` 了!
2020-02-20
pm5
00:18:39
好像 https://read01.com/ 和 https://kknews.cc/ 在今天晚上 7 點那一輪遇到太多次 CloudFlare challenge,之後就開始出問題了。我先把它們 `is_active = 0`。
wenyi
01:08:52
哇 要再來測試一下了
wenyi
07:49:09
有關update parralleism的問題,測試以後發現問題是很多 active url 會出現connection lost的error。看了一下 `execute_spider.py` 和 `ns.py` 的差別只在前者用CrawlerProcess 後者用CrawlerRunner,兩者都有一樣的問題。
在parallel update出現問題的active urls,如果只update單一site,可以成功 update。
開了一個Issue: https://github.com/disinfoRG/NewsScraping/issues/74
在parallel update出現問題的active urls,如果只update單一site,可以成功 update。
開了一個Issue: https://github.com/disinfoRG/NewsScraping/issues/74
fly
15:47:24
Wei ji
20:37:17
@40432220 has joined the channel
2020-02-22
chihao
20:59:38
<!here> #disinf1thon
這個,其實,明天下午 2 點,本來是實體的第壹次不實資訊松,不過因為防疫需求,0archive 團隊決定把這次小松改成線上 cowork 🙂
👉 如果有想做什麼關於不實資訊的專案,可以到這裡先提案哦 😄 https://g0v.hackmd.io/DvoeZunbSqK4UBq8AUg4VA
👉 歡迎明天 2pm 上線 hacking 💪 Hangout 連結在共筆裡 💚 https://hangouts.google.com/call/hlyOQ7-icWBVu58MnoUkAEEM
這個,其實,明天下午 2 點,本來是實體的第壹次不實資訊松,不過因為防疫需求,0archive 團隊決定把這次小松改成線上 cowork 🙂
👉 如果有想做什麼關於不實資訊的專案,可以到這裡先提案哦 😄 https://g0v.hackmd.io/DvoeZunbSqK4UBq8AUg4VA
👉 歡迎明天 2pm 上線 hacking 💪 Hangout 連結在共筆裡 💚 https://hangouts.google.com/call/hlyOQ7-icWBVu58MnoUkAEEM
- 👍2
2
2020-02-23
isabelhou
11:42:17
disinfo超強
Esther Chuang
12:05:21
@imbatteryesther has joined the channel
chihao
14:00:41
disinf1thon 線上小松開始囉 \o/
chihao
14:01:05
chihao
17:52:36
disinf1thon 線上小松結束囉 😆 謝謝 @fockerlee @ronnywang @pm5 A-Bao(@claudia19882002?)的參與 \o/
ABow_Chen
2020-02-23 20:44:42
@chihao hi hi 我是ABow,看來我還要再提昇自己的功力,才有機會幫上忙!
YingHsuan
17:52:40
@claudia19882002 has joined the channel
ABow_Chen
20:44:42
@chihao hi hi 我是ABow,看來我還要再提昇自己的功力,才有機會幫上忙!
laiTzan
21:42:18
@jinnik7571 has joined the channel
2020-02-24
gugod
21:14:08
https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E5%AA%92%E9%AB%94%E4%BA%82%E8%B1%A1#%E6%9C%AA%E7%B6%93%E6%9F%A5%E8%AD%89
突然發現這頁的整理其實對於判別 disinfo 有一定的幫助呢
突然發現這頁的整理其實對於判別 disinfo 有一定的幫助呢
台灣媒體亂象主要指台灣於1980年代解嚴後,由於商業媒體(特指新聞媒體)利用暴力、血腥、煽情、炒作與捏造新聞等違反媒體倫理手段增加收視率或報刊發行量之現象。該亂象促使部份人士成立媒體批評團體並對媒體進行監督和批判。如1999年成立之台灣媒體觀察教育基金會、2000年八掌溪事件後成立之「與媒體對抗」運動及2002年成立之新聞公害防治基金會等。媒體批評團體反對爆料公社為目標進行大清洗,有些側重人民媒體素養之提昇,有些則偏向批判商業化之媒體環境並要求健全公共媒體空間 。
2020-02-25
pm5
12:34:12
剛才轉 parserdb 好像跑了好一陣子才跑完,期間疑似 middle2 一些功能會停掉⋯⋯可能是產生的 tmp file 太大。我等一下看 ronny 有上線的時候再來轉 newsdb 的 collation 好了,以免遇到什麼問題需要協助。
如果現在的主機吃不下轉碼,那另一個辦法是優先進行 snapshot table rotate,然後寫不進去的 article 等到有新 table 的時候再來存。
wenyi
2020-02-25 13:25:09
@pm5 ptt的我停掉了~
好⋯⋯那來跑轉碼了
chihao
2020-02-25 14:12:51
++
跑了 4 個小時,進度約 57%
跑完囉
chihao
2020-02-25 23:17:25
holy…
pm5
12:34:48
如果現在的主機吃不下轉碼,那另一個辦法是優先進行 snapshot table rotate,然後寫不進去的 article 等到有新 table 的時候再來存。
ronnywang
13:10:29
Matters
作者:丁新一 @catding、編輯:siren @賽倫、結語:施奕丞 @施奕丞、建議:映昕 @映昕本文中的新聞截圖,為方便閱讀,會移除部分非新聞文本內容(如圖片、廣告等)。
mrorz
2020-02-25 14:34:02
wenyi
13:25:09
@pm5 ptt的我停掉了~
chihao
13:54:48
炎上中?
chihao
13:55:05
想爬嗎 😏
chihao
14:12:51
++
mrorz
14:34:02
BBC News
Meet one of the world’s most prolific writers of disinformation![]()
KerwinYen
15:47:46
@kevinyenhaha has joined the channel
pm5
17:57:26
跑了 4 個小時,進度約 57%
chihao
21:21:48
在做開源前的準備工作,我有點想要把兩個 repo 的名字從 ing 改成 er 結尾 `NewsScraper` `FbScraper` 會不會製造太多麻煩?😆
chihao
21:22:36
另,`NewsScraper` ? `WebScraper` ? 😛
改名看起來不會有什麼麻煩,但WebScraper 這個名字好像太泛用了一點?
chihao
2020-02-26 12:20:00
+1
chihao
2020-02-26 12:20:19
ZeroScraper 😏
chihao
2020-02-26 12:20:42
`zaWebScraper`
`zaFbScraper`
`zaFbScraper`
chihao
2020-02-26 12:25:16
@ayw255 @fockerlee 有想法嗎?😆
bruce
2020-02-26 12:27:06
abcpWebScraper
wenyi
2020-02-26 12:33:10
Hum....
chihao
2020-02-26 12:43:45
za = zero archive
abcp 是什麼 😆
abcp 是什麼 😆
wenyi
2020-02-26 13:15:18
general-scraper-by-0archive/ fb-scraper-by-0archive
chihao
23:17:25
holy…
2020-02-26
wenyi
07:38:20
@fockerlee `fb_handler.py` 這個file在哪裡啊?沒有在 `FbScraping` 的 `master` 看到
bruce
2020-02-26 12:12:29
在update_on_middle2這個 branch
chihao
2020-02-26 12:23:00
我已經請 bruce 著手整理 branch,今天會有初步進度報告 @fockerlee
bruce
2020-02-27 10:35:50
@ayw255 我剛更新上去然後merge你的pr了感謝
bruce
2020-02-27 10:36:56
@chihao 我整理一版到master上了 有更新README 檔案有些目前沒用到的我今天會再整理掉
pm5
11:39:17
改名看起來不會有什麼麻煩,但WebScraper 這個名字好像太泛用了一點?
chihao
11:40:28
@fockerlee 今天的測試開始之前,麻煩你先開個文件說明測試方法,再開始跑
bruce
12:12:29
在update_on_middle2這個 branch
chihao
12:20:00
+1
chihao
12:20:19
ZeroScraper 😏
chihao
12:20:42
`zaWebScraper`
`zaFbScraper`
`zaFbScraper`
chihao
12:23:00
我已經請 bruce 著手整理 branch,今天會有初步進度報告 @fockerlee
chihao
12:25:16
@ayw255 @fockerlee 有想法嗎?😆
bruce
12:27:06
abcpWebScraper
wenyi
12:33:10
Hum....
chihao
12:43:45
za = zero archive
abcp 是什麼 😆
abcp 是什麼 😆
ifh
13:12:22
@fhead17 has joined the channel
wenyi
13:15:18
general-scraper-by-0archive/ fb-scraper-by-0archive
fly
19:58:55
https://www.newsprovenanceproject.com/
https://www.cup.com.hk/2020/02/24/out-of-context-photos-mislead-majority/
最近,「紐約時報」就與科技公司 IBM 合作進行「新聞來源計劃(The News Provenance Project)」,以概念驗證(Proof of concept)為策略,標記更多圖片資源,包括標註有關圖片何時拍攝、拍攝地點和原始發佈者的資訊,有助防止人們使用舊照片傳播虛假資訊。
https://www.cup.com.hk/2020/02/24/out-of-context-photos-mislead-majority/
最近,「紐約時報」就與科技公司 IBM 合作進行「新聞來源計劃(The News Provenance Project)」,以概念驗證(Proof of concept)為策略,標記更多圖片資源,包括標註有關圖片何時拍攝、拍攝地點和原始發佈者的資訊,有助防止人們使用舊照片傳播虛假資訊。
newsprovenanceproject.com
The News Provenance Project seeks to diminish the spread of misinformation by empowering readers to make more informed, confident judgements about the news they see online.
*CUP
社交網絡近日流傳一段超市未完全開閘,民眾就如「喪屍」般連爬帶跑衝進去的片段。有指那是疫情下的搶購片段,但事實是影片早在發生疫症前已經上載,為去年 10 月青島一間超市限時搶購促銷雞蛋的「盛況」。以上事例或無傷大雅,但社交網站中大多具誤導成分的帖文,都是利用舊有照片及影片作為最近發生事件的「證據」,增加可信性。![]()
- 👍1
2020-02-27
bruce
10:36:56
@chihao 我整理一版到master上了 有更新README 檔案有些目前沒用到的我今天會再整理掉
bruce
12:28:41
2020-02-28
wenyi
08:13:05
@fockerlee ,我整理了一下 `FbScraping` , see https://github.com/disinfoRG/FbScraping/pull/20
想問一下,現在 `fb_handler --discover` 是否不能指定一個 site,只能指定一種type (fb_page or fb_public_group)
還有 `page_parser.py` 和 `post_parser.py` 看起來是沒有用在任何地方,是否可以刪除?
想問一下,現在 `fb_handler --discover` 是否不能指定一個 site,只能指定一種type (fb_page or fb_public_group)
還有 `page_parser.py` 和 `post_parser.py` 看起來是沒有用在任何地方,是否可以刪除?
- 🙌1
bruce
2020-02-28 08:59:40
謝謝你 我來看一下!
bruce
2020-02-28 21:53:45
我更新上去了 把兩個檔案的helper拿掉
bruce
2020-02-28 21:55:20
忘記回答 用參數 site 加上指定的 site_id 就可以
chihao
08:47:15
wenyi ++
chihao
08:47:21
大掃除?😆
wenyi
08:47:53
減肥減起來
chihao
08:49:05
關於 repo 的名字,也許是開坑一來最大難關?
wenyi
08:51:31
NonFBScraper好像還不錯
chihao
08:51:55
😂😂😂
wenyi
08:55:32
其實只是反向general哈哈哈
chihao
08:55:45
NotSoGeneralScraper
bruce
08:59:40
謝謝你 我來看一下!
wenyi
09:00:18
其實也沒那麼General吧
chihao
09:00:28
嗯
wenyi
09:00:28
如果是ajax call的網頁的話我們就不能用
chihao
09:00:34
._.
wenyi
09:00:59
現在的article都是要用url來認
wenyi
09:01:11
這種網頁有沒有名字(?)
chihao
09:01:18
BlogScraper
chihao
09:01:59
其實我覺得 NewsScraper 好像也可以,只是覺得兩個 s `sS` 好像有點搞笑
chihao
09:02:10
純粹感受問題(?)
wenyi
09:03:47
同意兩個 s 怪怪的
chihao
09:30:48
`WebpageScraper`
chihao
09:31:30
但 dcard 😛
chihao
09:34:09
`ArticleScraper`
bruce
21:53:45
我更新上去了 把兩個檔案的helper拿掉
bruce
21:55:20
忘記回答 用參數 site 加上指定的 site_id 就可以
chihao
22:09:20
`zaScraper` / `zaFbScraper` 呢
chihao
22:09:30
`za` = zero archive 😛
2020-02-29
gugod
00:29:12
ZeroScraper :d
- ❤️1
chihao
2020-02-29 09:56:31
@ayw255 @pm5 覺得呢?😆
chihao
2020-02-29 09:56:41
這個名字怎麼樣 😆
wenyi
2020-02-29 09:56:44
還不錯耶!
chihao
2020-02-29 09:57:13
下一個就得叫 `OneScraper` 了 😆
chihao
2020-02-29 09:57:55
那就決定囉?XDDD
好啊
gugod
2020-02-29 13:10:58
XD
chihao
2020-03-02 22:29:54
@gugod ++ https://github.com/disinfoRG/ZeroScraper
chihao
09:56:31
@ayw255 @pm5 覺得呢?😆
chihao
09:56:41
這個名字怎麼樣 😆
wenyi
09:56:44
還不錯耶!
chihao
09:57:13
下一個就得叫 `OneScraper` 了 😆
chihao
09:57:55
那就決定囉?XDDD
pm5
10:35:06
好啊
gugod
13:10:58
XD
chihao
20:47:56
like truenews?