disinfo

Month: 2020-02

2020-02-03

chihao 12:33:48
@ayw255 @pm5 @fockerlee 今晚是久違的 dev meeting 👋
抱歉我要遲到幾分鐘
OK 👌
@chihao 可以幫我貼嗎?

近況:很宅
進度:整理需求、改架構、推了資料集到 GitHub、看程式跑的狀況
討論:整理出來的需求、這個月的分工與目標
1 🙌 1 ❤️ 1 👍 1

2020-02-05

chihao 16:14:30
這個 http://www.cpfcnews.tw/ @ayw255 不知道能不能順利爬下來
@chihao 加進去跑囉!
bil 19:38:20
https://vimeo.com/387781944
嗨鄰鄰想備份這個影片~~感謝大德

Vimeo

out of the blue

A 78-year-old man covered his body with one beautiful tattoo. The retired Principal City Planner for Baltimore talks about trees, consciousness, letting go of life and his genitals. “out of the blue” is this week’s Staff Pick Premiere. Read more about it on the Vimeo Blog: Directors: Friendzone (Jonathan Bregel & Steve Hoover) Producer: Jonathan Bregel Editor: Steve Hoover Cinematography: Jonathan Bregel & Dan St. Ours Composer: Theo Bedoucha Sound Design & Mix: Defacto Sound () Colorist: Jacob McKee

youtube有鎖年齡很不方便
chihao 23:55:21
@bil 影音備份機制還在 0archive 的 roadmap 上,有沒有什麼建議怎麼進行?來 tag 一下 @mrorz 好了?😂
噢原來還不行XDDD可能要有很大的空間

2020-02-06

2020-02-11

frank 13:30:54
@pacoou has joined the channel

2020-02-13

pm5 13:42:00
@fockerlee 等一下我會晚 10 分鐘上線,抱歉
bruce 13:59:41
gugod 20:24:31
https://typopedia.blogspot.com/

最近才又想到…. 或許「錯字比率」可以做為評估一間新聞社的方式之一…

(有沒有要人加入 Typopedia blog ? 😛 )

typopedia.blogspot.com

去吧!錯誤特攻隊!

這是個為了發洩悶氣的特攻隊,如果要投稿或是作不定主題的討論,歡迎到訪客留言板 (/2006/05/blog-post_114758831903987592.html#comments)。除此之外,尚有一類似主題的姐妹 Blog : <http://absurdorama.blogspot.com/|荒謬大觀>。

https://github.com/g0v/people-in-news/blob/master/etc/substr-common-typos.txt

簡單生了個常見錯別字列表… 有沒有人要來追加一下…. ? 🙂
😆 2

2020-02-18

chihao 12:26:17
\ wenyi /
🙌 1
wenyi 12:28:17
現在fb & news有各自的db,airtable update 到DB site table 的airtable spider 是要FbScraping & NewsScraping 各自不同,還是要同一隻airtable spider 加 type filter parameter (array of types),設定放進類似 env 的地方? @chihao @pm5
wenyi 12:28:58
個人覺得 @chihao 提議的加type filter parameter還不錯
chihao 12:29:21
\ 2. / spider 可以重用,只是不同環境 tainan / changhua 抓不同 type 的 site
chihao 12:29:46
然後環境名 `tainan` / `changhua` 感覺也需要進入 env,給 parser db 對照用
chihao 12:30:42
ScrapperDb – ParserDb 從 1–1 進化到 n–1 的關係 \o/
wenyi 13:04:25
摁摁那感覺是加一個db_type = news / db_type = fb 的env
chihao 13:05:25
感覺不用到 type,就用 name 就可以,這樣取名可以比較任性
chihao 13:05:53
tainan 就叫 tainan,changhua 就叫 changhua
ABow_Chen 13:55:00
@fred39392001 has joined the channel
wenyi 21:22:31
這樣之後open source會不會很難懂啊,想像中這樣的話 airtable spider應該是有個 `if db_name == "changhua" then update fb sites`? 還是我漏掉了什麼@@ @chihao
chihao 21:42:59
site spider:
• gets options from env
• update site table according to env options
👍 1
chihao 21:43:11
這樣?

2020-02-19

chihao 00:03:57
在 code 應該就不會出現 `A == 'X'` 而是 `env.types.include(A)` 這種判斷
ok sounds good!
\o/
wenyi 23:55:20
更新的airtable spider deploy 到 `tainan` 了!

2020-02-20

pm5 00:18:39
好像 https://read01.com/https://kknews.cc/ 在今天晚上 7 點那一輪遇到太多次 CloudFlare challenge,之後就開始出問題了。我先把它們 `is_active = 0`。
wenyi 01:08:52
哇 要再來測試一下了
wenyi 07:49:09
有關update parralleism的問題,測試以後發現問題是很多 active url 會出現connection lost的error。看了一下 `execute_spider.py` 和 `ns.py` 的差別只在前者用CrawlerProcess 後者用CrawlerRunner,兩者都有一樣的問題。
在parallel update出現問題的active urls,如果只update單一site,可以成功 update。
開了一個Issue: https://github.com/disinfoRG/NewsScraping/issues/74
Wei ji 20:37:17
@40432220 has joined the channel

2020-02-22

pm5 20:39:16

<https://tictec.mysociety.org/2020/presentation/taiwan-elections-disinformation>

chihao 20:59:38
<!here> #disinf1thon
這個,其實,明天下午 2 點,本來是實體的第壹次不實資訊松,不過因為防疫需求,0archive 團隊決定把這次小松改成線上 cowork 🙂
👉 如果有想做什麼關於不實資訊的專案,可以到這裡先提案哦 😄 https://g0v.hackmd.io/DvoeZunbSqK4UBq8AUg4VA
👉 歡迎明天 2pm 上線 hacking 💪 Hangout 連結在共筆裡 💚 https://hangouts.google.com/call/hlyOQ7-icWBVu58MnoUkAEEM

g0v.hackmd.io

disinf1thon 第壹次不實訊息松 - HackMD

👍 2 2

2020-02-23

chihao 11:33:48
disinf1thon 提案爆發 😆 @ayw255 ++
😆 1 😮 1
isabelhou 11:42:17
disinfo超強
Esther Chuang 12:05:21
@imbatteryesther has joined the channel
chihao 14:00:41
disinf1thon 線上小松開始囉 \o/
chihao 17:52:36
disinf1thon 線上小松結束囉 😆 謝謝 @fockerlee @ronnywang @pm5 A-Bao(@claudia19882002?)的參與 \o/
@chihao hi hi 我是ABow,看來我還要再提昇自己的功力,才有機會幫上忙!
YingHsuan 17:52:40
@claudia19882002 has joined the channel
laiTzan 21:42:18
@jinnik7571 has joined the channel

2020-02-24

2020-02-25

pm5 12:34:12
剛才轉 parserdb 好像跑了好一陣子才跑完,期間疑似 middle2 一些功能會停掉⋯⋯可能是產生的 tmp file 太大。我等一下看 ronny 有上線的時候再來轉 newsdb 的 collation 好了,以免遇到什麼問題需要協助。
如果現在的主機吃不下轉碼,那另一個辦法是優先進行 snapshot table rotate,然後寫不進去的 article 等到有新 table 的時候再來存。
@pm5 ptt的我停掉了~
好⋯⋯那來跑轉碼了
跑了 4 個小時,進度約 57%
跑完囉
holy…
chihao 13:54:48
炎上中?
chihao 13:55:05
想爬嗎 😏
pm5 13:55:24
好⋯⋯那來跑轉碼了
KerwinYen 15:47:46
@kevinyenhaha has joined the channel
chihao 21:21:48
在做開源前的準備工作,我有點想要把兩個 repo 的名字從 ing 改成 er 結尾 `NewsScraper` `FbScraper` 會不會製造太多麻煩?😆
chihao 21:22:36
另,`NewsScraper` ? `WebScraper` ? 😛
改名看起來不會有什麼麻煩,但WebScraper 這個名字好像太泛用了一點?
ZeroScraper 😏
`zaWebScraper`
`zaFbScraper`
@ayw255 @fockerlee 有想法嗎?😆
abcpWebScraper
Hum....
za = zero archive
abcp 是什麼 😆
general-scraper-by-0archive/ fb-scraper-by-0archive
pm5 21:56:15
跑完囉

2020-02-26

wenyi 07:38:20
@fockerlee `fb_handler.py` 這個file在哪裡啊?沒有在 `FbScraping` 的 `master` 看到
在update_on_middle2這個 branch
我已經請 bruce 著手整理 branch,今天會有初步進度報告 @fockerlee
@ayw255 我剛更新上去然後merge你的pr了感謝
@chihao 我整理一版到master上了 有更新README 檔案有些目前沒用到的我今天會再整理掉
chihao 11:40:28
@fockerlee 今天的測試開始之前,麻煩你先開個文件說明測試方法,再開始跑
ifh 13:12:22
@fhead17 has joined the channel
fly 19:58:55
https://www.newsprovenanceproject.com/


https://www.cup.com.hk/2020/02/24/out-of-context-photos-mislead-majority/

最近,「紐約時報」就與科技公司 IBM 合作進行「新聞來源計劃(The News Provenance Project)」,以概念驗證(Proof of concept)為策略,標記更多圖片資源,包括標註有關圖片何時拍攝、拍攝地點和原始發佈者的資訊,有助防止人們使用舊照片傳播虛假資訊。

newsprovenanceproject.com

The News Provenance Project

The News Provenance Project seeks to diminish the spread of misinformation by empowering readers to make more informed, confident judgements about the news they see online.

*CUP

誤導大眾,只需一張舊相片 - *CUP

社交網絡近日流傳一段超市未完全開閘,民眾就如「喪屍」般連爬帶跑衝進去的片段。有指那是疫情下的搶購片段,但事實是影片早在發生疫症前已經上載,為去年 10 月青島一間超市限時搶購促銷雞蛋的「盛況」。以上事例或無傷大雅,但社交網站中大多具誤導成分的帖文,都是利用舊有照片及影片作為最近發生事件的「證據」,增加可信性。

👍 1

2020-02-27

2020-02-28

wenyi 08:13:05
@fockerlee ,我整理了一下 `FbScraping` , see https://github.com/disinfoRG/FbScraping/pull/20
想問一下,現在 `fb_handler --discover` 是否不能指定一個 site,只能指定一種type (fb_page or fb_public_group)
還有 `page_parser.py` 和 `post_parser.py` 看起來是沒有用在任何地方,是否可以刪除?
謝謝你 我來看一下!
我更新上去了 把兩個檔案的helper拿掉
忘記回答 用參數 site 加上指定的 site_id 就可以
🙌 1
chihao 08:47:15
wenyi ++
chihao 08:47:21
大掃除?😆
wenyi 08:47:53
減肥減起來
chihao 08:49:05
關於 repo 的名字,也許是開坑一來最大難關?
wenyi 08:51:31
NonFBScraper好像還不錯
chihao 08:51:55
😂😂😂
wenyi 08:55:32
其實只是反向general哈哈哈
chihao 08:55:45
NotSoGeneralScraper
wenyi 09:00:18
其實也沒那麼General吧
chihao 09:00:28
wenyi 09:00:28
如果是ajax call的網頁的話我們就不能用
chihao 09:00:34
._.
wenyi 09:00:59
現在的article都是要用url來認
wenyi 09:01:11
這種網頁有沒有名字(?)
chihao 09:01:18
BlogScraper
chihao 09:01:59
其實我覺得 NewsScraper 好像也可以,只是覺得兩個 s `sS` 好像有點搞笑
chihao 09:02:10
純粹感受問題(?)
wenyi 09:03:47
同意兩個 s 怪怪的
chihao 09:30:48
`WebpageScraper`
chihao 09:31:30
但 dcard 😛
chihao 09:34:09
`ArticleScraper`
chihao 22:09:20
`zaScraper` / `zaFbScraper` 呢
chihao 22:09:30
`za` = zero archive 😛

2020-02-29

gugod 00:29:12
ZeroScraper :d
@ayw255 @pm5 覺得呢?😆
這個名字怎麼樣 😆
還不錯耶!
下一個就得叫 `OneScraper` 了 😆
那就決定囉?XDDD
好啊
❤️ 1
chihao 20:47:56
like truenews?