#disinfo

chihao 12:33:48

@ayw255 @pm5 @fockerlee 今晚是久違的 dev meeting 👋

1
🙌1
❤️1
👍1

pm5 2020-02-03 19:58:40

抱歉我要遲到幾分鐘

chihao 2020-02-03 19:58:51

OK 👌

pm5 2020-02-03 20:15:11

@chihao 可以幫我貼嗎？

近況：很宅
進度：整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論：整理出來的需求、這個月的分工與目標

chihao 2020-02-03 20:15:27

XD

pm5 19:58:40

抱歉我要遲到幾分鐘

chihao 19:58:51

OK 👌

pm5 20:15:11

@chihao 可以幫我貼嗎？

近況：很宅
進度：整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論：整理出來的需求、這個月的分工與目標

chihao 20:15:27

XD

chihao 16:14:30

這個 http://www.cpfcnews.tw/ @ayw255 不知道能不能順利爬下來

wenyi 2020-02-05 23:23:17

@chihao 加進去跑囉！

bil 19:38:20

https://vimeo.com/387781944
嗨鄰鄰想備份這個影片~~感謝大德

Vimeo

out of the blue

A 78-year-old man covered his body with one beautiful tattoo. The retired Principal City Planner for Baltimore talks about trees, consciousness, letting go of life and his genitals. “out of the blue” is this week’s Staff Pick Premiere. Read more about it on the Vimeo Blog: Directors: Friendzone (Jonathan Bregel & Steve Hoover) Producer: Jonathan Bregel Editor: Steve Hoover Cinematography: Jonathan Bregel & Dan St. Ours Composer: Theo Bedoucha Sound Design & Mix: Defacto Sound () Colorist: Jacob McKee

bil 2020-02-05 19:39:02

youtube有鎖年齡很不方便

bil 19:39:02

youtube有鎖年齡很不方便

wenyi 23:23:17

@chihao 加進去跑囉！

chihao 23:55:21

@bil 影音備份機制還在 0archive 的 roadmap 上，有沒有什麼建議怎麼進行？來 tag 一下 @mrorz 好了？😂

bil 2020-02-06 00:58:55

噢原來還不行XDDD可能要有很大的空間

bil 00:58:55

噢原來還不行XDDD可能要有很大的空間

🕳️1

frank 13:30:54

@pacoou has joined the channel

pm5 13:42:00

@fockerlee 等一下我會晚 10 分鐘上線，抱歉

bruce 13:59:41

好

gugod 20:24:31

https://typopedia.blogspot.com/

最近才又想到…. 或許「錯字比率」可以做為評估一間新聞社的方式之一…

(有沒有要人加入 Typopedia blog ? 😛 )

typopedia.blogspot.com

去吧！錯誤特攻隊！

這是個為了發洩悶氣的特攻隊，如果要投稿或是作不定主題的討論，歡迎到訪客留言板 (/2006/05/blog-post_114758831903987592.html#comments)。除此之外，尚有一類似主題的姐妹 Blog : <http://absurdorama.blogspot.com/|荒謬大觀>。

😆2

gugod 2020-02-13 21:50:26

https://github.com/g0v/people-in-news/blob/master/etc/substr-common-typos.txt

簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂

gugod 2020-02-24 21:14:08

https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E5%AA%92%E9%AB%94%E4%BA%82%E8%B1%A1#%E6%9C%AA%E7%B6%93%E6%9F%A5%E8%AD%89

突然發現這頁的整理其實對於判別 disinfo 有一定的幫助呢

gugod 21:50:26

https://github.com/g0v/people-in-news/blob/master/etc/substr-common-typos.txt

簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂

GitHub

g0v/people-in-news

公眾人物新聞的追蹤. Contribute to g0v/people-in-news development by creating an account on GitHub.

chihao 12:26:17

\ wenyi /

🙌1

wenyi 12:28:17

現在fb & news有各自的db，airtable update 到DB site table 的airtable spider 是要FbScraping & NewsScraping 各自不同，還是要同一隻airtable spider 加 type filter parameter (array of types)，設定放進類似 env 的地方？ @chihao @pm5

wenyi 12:28:58

個人覺得 @chihao 提議的加type filter parameter還不錯

chihao 12:29:21

\ 2. / spider 可以重用，只是不同環境 tainan / changhua 抓不同 type 的 site

chihao 12:29:46

然後環境名 `tainan` / `changhua` 感覺也需要進入 env，給 parser db 對照用

chihao 12:30:42

ScrapperDb – ParserDb 從 1–1 進化到 n–1 的關係 \o/

wenyi 13:04:25

摁摁那感覺是加一個db_type = news / db_type = fb 的env

chihao 13:05:25

感覺不用到 type，就用 name 就可以，這樣取名可以比較任性

chihao 13:05:53

tainan 就叫 tainan，changhua 就叫 changhua

ABow_Chen 13:55:00

@fred39392001 has joined the channel

wenyi 21:22:31

這樣之後open source會不會很難懂啊，想像中這樣的話 airtable spider應該是有個 `if db_name == "changhua" then update fb sites`? 還是我漏掉了什麼@@ @chihao

chihao 21:42:59

site spider:
• gets options from env
• update site table according to env options

👍1

chihao 21:43:11

這樣？

chihao 00:03:57

在 code 應該就不會出現 `A == 'X'` 而是 `env.types.include(A)` 這種判斷

wenyi 2020-02-19 00:11:52

ok sounds good!

chihao 2020-02-19 00:15:46

\o/

wenyi 00:11:52

ok sounds good!

chihao 00:15:46

\o/

wenyi 23:55:20

更新的airtable spider deploy 到 `tainan` 了!

pm5 00:18:39

好像 https://read01.com/ 和 https://kknews.cc/ 在今天晚上 7 點那一輪遇到太多次 CloudFlare challenge，之後就開始出問題了。我先把它們 `is_active = 0`。

wenyi 01:08:52

哇要再來測試一下了

wenyi 07:49:09

有關update parralleism的問題，測試以後發現問題是很多 active url 會出現connection lost的error。看了一下 `execute_spider.py` 和 `ns.py` 的差別只在前者用CrawlerProcess 後者用CrawlerRunner，兩者都有一樣的問題。
在parallel update出現問題的active urls，如果只update單一site，可以成功 update。
開了一個Issue: https://github.com/disinfoRG/NewsScraping/issues/74

fly 15:34:19

可以爬新聞的套件，只是不知中文媒體整合的如何。http://newspaper.readthedocs.io/en/latest/

fly 2020-02-20 15:47:24

https://medium.com/@yanweiliu/%E4%BD%BF%E7%94%A8python%E9%80%B2%E8%A1%8C%E6%96%B0%E8%81%9E%E7%88%AC%E8%9F%B2-d540707212a3

fly 15:47:24

https://medium.com/@yanweiliu/%E4%BD%BF%E7%94%A8python%E9%80%B2%E8%A1%8C%E6%96%B0%E8%81%9E%E7%88%AC%E8%9F%B2-d540707212a3

Medium

Python爬蟲學習筆記(五) — 使用newspaper3k進行新聞爬蟲

Using Python To Crawl Articles

Wei ji 20:37:17

@40432220 has joined the channel

pm5 20:39:16

chihao yo

https://tictec.mysociety.org/2020/presentation/taiwan-elections-disinformation

Forwarded from #intl

2020-02-22 18:32:26

chihao 20:59:38

<!here> #disinf1thon
這個，其實，明天下午 2 點，本來是實體的第壹次不實資訊松，不過因為防疫需求，0archive 團隊決定把這次小松改成線上 cowork 🙂
👉 如果有想做什麼關於不實資訊的專案，可以到這裡先提案哦 😄 https://g0v.hackmd.io/DvoeZunbSqK4UBq8AUg4VA
👉 歡迎明天 2pm 上線 hacking 💪 Hangout 連結在共筆裡 💚 https://hangouts.google.com/call/hlyOQ7-icWBVu58MnoUkAEEM

g0v.hackmd.io

disinf1thon 第壹次不實訊息松 - HackMD

👍2
2

chihao 11:33:48

disinf1thon 提案爆發 😆 @ayw255 ++

😆1
😮1

isabelhou 11:42:17

disinfo超強

Esther Chuang 12:05:21

@imbatteryesther has joined the channel

chihao 14:00:41

disinf1thon 線上小松開始囉 \o/

chihao 14:01:05

Hangout 這邊請 → https://hangouts.google.com/call/hlyOQ7-icWBVu58MnoUkAEEM

chihao 17:52:36

disinf1thon 線上小松結束囉 😆 謝謝 @fockerlee @ronnywang @pm5 A-Bao（@claudia19882002？）的參與 \o/

ABow_Chen 2020-02-23 20:44:42

@chihao hi hi 我是ABow，看來我還要再提昇自己的功力，才有機會幫上忙！

YingHsuan 17:52:40

@claudia19882002 has joined the channel

ABow_Chen 20:44:42

@chihao hi hi 我是ABow，看來我還要再提昇自己的功力，才有機會幫上忙！

laiTzan 21:42:18

@jinnik7571 has joined the channel

gugod 21:14:08

https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E5%AA%92%E9%AB%94%E4%BA%82%E8%B1%A1#%E6%9C%AA%E7%B6%93%E6%9F%A5%E8%AD%89

突然發現這頁的整理其實對於判別 disinfo 有一定的幫助呢

臺灣媒體亂象

台灣媒體亂象主要指台灣於1980年代解嚴後，由於商業媒體（特指新聞媒體）利用暴力、血腥、煽情、炒作與捏造新聞等違反媒體倫理手段增加收視率或報刊發行量之現象。該亂象促使部份人士成立媒體批評團體並對媒體進行監督和批判。如1999年成立之台灣媒體觀察教育基金會、2000年八掌溪事件後成立之「與媒體對抗」運動及2002年成立之新聞公害防治基金會等。媒體批評團體反對爆料公社為目標進行大清洗，有些側重人民媒體素養之提昇，有些則偏向批判商業化之媒體環境並要求健全公共媒體空間。

pm5 12:34:12

剛才轉 parserdb 好像跑了好一陣子才跑完，期間疑似 middle2 一些功能會停掉⋯⋯可能是產生的 tmp file 太大。我等一下看 ronny 有上線的時候再來轉 newsdb 的 collation 好了，以免遇到什麼問題需要協助。

pm5 2020-02-25 12:34:48

如果現在的主機吃不下轉碼，那另一個辦法是優先進行 snapshot table rotate，然後寫不進去的 article 等到有新 table 的時候再來存。

wenyi 2020-02-25 13:25:09

@pm5 ptt的我停掉了～

pm5 2020-02-25 13:55:24

好⋯⋯那來跑轉碼了

chihao 2020-02-25 14:12:51

++

pm5 2020-02-25 17:57:26

跑了 4 個小時，進度約 57%

pm5 2020-02-25 21:56:15

跑完囉

chihao 2020-02-25 23:17:25

holy…

pm5 12:34:48

如果現在的主機吃不下轉碼，那另一個辦法是優先進行 snapshot table rotate，然後寫不進去的 article 等到有新 table 的時候再來存。

ronnywang 13:10:29

https://matters.news/@catding/%E6%88%96%E8%A8%B1-%E8%80%BF%E7%88%BD%E6%B2%92%E9%82%A3%E9%BA%BC%E4%B8%8D%E7%88%BD-%E6%88%91%E5%80%91%E8%A6%81-%E8%A3%BD%E9%80%A0%E5%81%87%E6%96%B0%E8%81%9E-%E4%BE%86%E5%9B%9E%E6%93%8A%E4%B8%AD%E5%9C%8B%E7%9A%84%E8%B3%87%E8%A8%8A%E6%88%B0%E5%97%8E-bafyreibomotr74y7x3mwewsmaf3k3nkiqjhlu3az2pbkaa33igxzn44zyu

Matters

或許，耿爽沒那麼不爽——我們要「製造假新聞」來回擊中國的資訊戰嗎？ - Matters

作者：丁新一 @catding、編輯：siren @賽倫、結語：施奕丞 @施奕丞、建議：映昕 @映昕本文中的新聞截圖，為方便閱讀，會移除部分非新聞文本內容（如圖片、廣告等）。

mrorz 2020-02-25 14:34:02

這篇讓我想起這個故事，整個情節很像呢。

https://www.bbc.co.uk/news/resources/idt-sh/the_godfather_of_fake_news

wenyi 13:25:09

@pm5 ptt的我停掉了～

chihao 13:54:48

炎上中？

chihao 13:55:05

想爬嗎 😏

pm5 13:55:24

Replied to a thread: 2020-02-25 12:34:12

好⋯⋯那來跑轉碼了

chihao 14:12:51

++

mrorz 14:34:02

這篇讓我想起這個故事，整個情節很像呢。

https://www.bbc.co.uk/news/resources/idt-sh/the_godfather_of_fake_news

BBC News

The godfather of fake news - BBC News

Meet one of the world’s most prolific writers of disinformation

KerwinYen 15:47:46

@kevinyenhaha has joined the channel

pm5 17:57:26

跑了 4 個小時，進度約 57%

chihao 21:21:48

在做開源前的準備工作，我有點想要把兩個 repo 的名字從 ing 改成 er 結尾 `NewsScraper` `FbScraper` 會不會製造太多麻煩？😆

chihao 21:22:36

另，`NewsScraper` ? `WebScraper` ? 😛

pm5 2020-02-26 11:39:17

改名看起來不會有什麼麻煩，但WebScraper 這個名字好像太泛用了一點？

chihao 2020-02-26 12:20:00

+1

chihao 2020-02-26 12:20:19

ZeroScraper 😏

chihao 2020-02-26 12:20:42

`zaWebScraper`
`zaFbScraper`

chihao 2020-02-26 12:25:16

@ayw255 @fockerlee 有想法嗎？😆

bruce 2020-02-26 12:27:06

abcpWebScraper

wenyi 2020-02-26 12:33:10

Hum....

chihao 2020-02-26 12:43:45

za = zero archive
abcp 是什麼 😆

wenyi 2020-02-26 13:15:18

general-scraper-by-0archive/ fb-scraper-by-0archive

pm5 21:56:15

Replied to a thread: 2020-02-25 12:34:12

跑完囉

chihao 23:17:25

holy…

wenyi 07:38:20

@fockerlee `fb_handler.py` 這個file在哪裡啊？沒有在 `FbScraping` 的 `master` 看到

bruce 2020-02-26 12:12:29

在update_on_middle2這個 branch

chihao 2020-02-26 12:23:00

我已經請 bruce 著手整理 branch，今天會有初步進度報告 @fockerlee

bruce 2020-02-27 10:35:50

@ayw255 我剛更新上去然後merge你的pr了感謝

bruce 2020-02-27 10:36:56

@chihao 我整理一版到master上了有更新README 檔案有些目前沒用到的我今天會再整理掉

pm5 11:39:17

改名看起來不會有什麼麻煩，但WebScraper 這個名字好像太泛用了一點？

chihao 11:40:28

@fockerlee 今天的測試開始之前，麻煩你先開個文件說明測試方法，再開始跑

bruce 2020-02-26 12:12:39

好

bruce 2020-02-27 12:28:41

https://g0v.hackmd.io/J_9XAF9MTu6qAeyolsomUQ

bruce 12:12:29

在update_on_middle2這個 branch

bruce 12:12:39

好

🙌1

chihao 12:20:00

+1

chihao 12:20:19

ZeroScraper 😏

chihao 12:20:42

`zaWebScraper`
`zaFbScraper`

chihao 12:23:00

我已經請 bruce 著手整理 branch，今天會有初步進度報告 @fockerlee

chihao 12:25:16

@ayw255 @fockerlee 有想法嗎？😆

bruce 12:27:06

abcpWebScraper

wenyi 12:33:10

Hum....

chihao 12:43:45

za = zero archive
abcp 是什麼 😆

ifh 13:12:22

@fhead17 has joined the channel

wenyi 13:15:18

general-scraper-by-0archive/ fb-scraper-by-0archive

fly 19:58:55

https://www.newsprovenanceproject.com/

https://www.cup.com.hk/2020/02/24/out-of-context-photos-mislead-majority/

最近，「紐約時報」就與科技公司 IBM 合作進行「新聞來源計劃（The News Provenance Project）」，以概念驗證（Proof of concept）為策略，標記更多圖片資源，包括標註有關圖片何時拍攝、拍攝地點和原始發佈者的資訊，有助防止人們使用舊照片傳播虛假資訊。

newsprovenanceproject.com

The News Provenance Project

The News Provenance Project seeks to diminish the spread of misinformation by empowering readers to make more informed, confident judgements about the news they see online.

*CUP

誤導大眾，只需一張舊相片 - *CUP

社交網絡近日流傳一段超市未完全開閘，民眾就如「喪屍」般連爬帶跑衝進去的片段。有指那是疫情下的搶購片段，但事實是影片早在發生疫症前已經上載，為去年 10 月青島一間超市限時搶購促銷雞蛋的「盛況」。以上事例或無傷大雅，但社交網站中大多具誤導成分的帖文，都是利用舊有照片及影片作為最近發生事件的「證據」，增加可信性。

👍1

bruce 10:35:50

@ayw255 我剛更新上去然後merge你的pr了感謝

1

bruce 10:36:56

@chihao 我整理一版到master上了有更新README 檔案有些目前沒用到的我今天會再整理掉

bruce 12:28:41

https://g0v.hackmd.io/J_9XAF9MTu6qAeyolsomUQ

g0v.hackmd.io

關於 FbScraping 的 cpu 測試 - HackMD

wenyi 08:13:05

@fockerlee ，我整理了一下 `FbScraping` , see https://github.com/disinfoRG/FbScraping/pull/20
想問一下，現在 `fb_handler --discover` 是否不能指定一個 site，只能指定一種type (fb_page or fb_public_group)
還有 `page_parser.py` 和 `post_parser.py` 看起來是沒有用在任何地方，是否可以刪除？

🙌1

bruce 2020-02-28 08:59:40

謝謝你我來看一下！

bruce 2020-02-28 21:53:45

我更新上去了把兩個檔案的helper拿掉

bruce 2020-02-28 21:55:20

忘記回答用參數 site 加上指定的 site_id 就可以

chihao 08:47:15

wenyi ++

chihao 08:47:21

大掃除？😆

wenyi 08:47:53

減肥減起來

chihao 08:49:05

關於 repo 的名字，也許是開坑一來最大難關？

wenyi 08:51:31

NonFBScraper好像還不錯

chihao 08:51:55

😂😂😂

wenyi 08:55:32

其實只是反向general哈哈哈

chihao 08:55:45

NotSoGeneralScraper

bruce 08:59:40

謝謝你我來看一下！

wenyi 09:00:18

其實也沒那麼General吧

chihao 09:00:28

嗯

wenyi 09:00:28

如果是ajax call的網頁的話我們就不能用

chihao 09:00:34

._.

wenyi 09:00:59

現在的article都是要用url來認

wenyi 09:01:11

這種網頁有沒有名字(?)

chihao 09:01:18

BlogScraper

chihao 09:01:59

其實我覺得 NewsScraper 好像也可以，只是覺得兩個 s `sS` 好像有點搞笑

chihao 09:02:10

純粹感受問題（？）

wenyi 09:03:47

同意兩個 s 怪怪的

chihao 09:30:48

`WebpageScraper`

chihao 09:31:30

但 dcard 😛

chihao 09:34:09

`ArticleScraper`

bruce 21:53:45

我更新上去了把兩個檔案的helper拿掉

bruce 21:55:20

忘記回答用參數 site 加上指定的 site_id 就可以

chihao 22:09:20

`zaScraper` / `zaFbScraper` 呢

chihao 22:09:30

`za` = zero archive 😛

gugod 00:29:12

ZeroScraper :d

❤️1

chihao 2020-02-29 09:56:31

@ayw255 @pm5 覺得呢？😆

chihao 2020-02-29 09:56:41

這個名字怎麼樣 😆

wenyi 2020-02-29 09:56:44

還不錯耶！

chihao 2020-02-29 09:57:13

下一個就得叫 `OneScraper` 了 😆

chihao 2020-02-29 09:57:55

那就決定囉？XDDD

pm5 2020-02-29 10:35:06

好啊

gugod 2020-02-29 13:10:58

XD

chihao 2020-03-02 22:29:54

@gugod ++ https://github.com/disinfoRG/ZeroScraper

chihao 09:56:31

@ayw255 @pm5 覺得呢？😆

chihao 09:56:41

這個名字怎麼樣 😆

wenyi 09:56:44

還不錯耶！

chihao 09:57:13

下一個就得叫 `OneScraper` 了 😆

chihao 09:57:55

那就決定囉？XDDD

pm5 10:35:06

好啊

pm5 12:00:59

https://non-fakenews.org/

gugod 13:10:58

XD

chihao 20:47:56

like truenews?

2020-02-03

2020-02-05

Vimeo

2020-02-06

2020-02-11

2020-02-13

typopedia.blogspot.com

GitHub

2020-02-18

2020-02-19

2020-02-20

Medium

2020-02-22

chihao yo

g0v.hackmd.io

2020-02-23

2020-02-24

2020-02-25

Matters

BBC News

2020-02-26

newsprovenanceproject.com

*CUP

2020-02-27

g0v.hackmd.io

2020-02-28

2020-02-29