disinfo

Month: 2020-03

2020-03-01

mrorz 18:33:48
雪花新聞
flakenews
chihao 18:42:44
The Onion?
cai 21:06:53
@iacmai has joined the channel
tnstiger 21:12:41
@tnstiger has joined the channel
zoe.lee 23:55:38
@zoe.lee has joined the channel

2020-03-02

chihao 09:29:40
@ayw255 有時間一起來處理 repo 改名、開源嗎?
wenyi 10:26:02
ok~~
chihao 10:27:25
今晚會後如何?
wenyi 10:29:49
我10:00~10:20左右需要離開一下,之後可以
👍 1
pm5 20:00:19
I'll be late for ~10 mins to the meeting, sorry
1
kay830123 20:44:53
@kay830123 has joined the channel
chihao 21:55:08
@pm5 @fockerlee @ayw255 About FbScraper… https://g0v.hackmd.io/0MGGecVSSkunT5DWAHFC9Q

g0v.hackmd.io

FbScraper - HackMD

🙌 1
wenyi 22:26:19
@chihao ZeroScraper開源了 🤸‍♂️
🙌 1 🤸‍♀️ 1
tnstiger 22:29:48
那 airtable content 要開嗎?
https://airtable.com/tbl3DrYs5mXgl0EV9/viw2cuXweY8OxNkX6?blocks=hide

Airtable

Airtable: Organize anything you can imagine

Airtable works like a spreadsheet but gives you the power of a database to organize anything. Sign up for free.

chihao 23:39:04
@tnstiger 請參考 HackMD book 哦 https://g0v.hackmd.io/@chihao/0archive/

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [Announcements](<https://driv>

cool 你們已經做那麼久了

2020-03-03

chihao 08:54:23
@ayw255 @pm5 datasets 也開源了;ZeroScraper 和 datasets 兩個 repo 都補上 MIT LICENSE `Copyright (c) 2020 0archive Project` cc @fockerlee @isabelhou 🙂
🙌 1 1
chihao 09:22:16
顯圖也加上去了 😆
wenyi 10:22:22
@fockerlee @pm5 @chihao 拍謝想問一下大家禮拜三早上的meeting可不可以改成10-12am,我忘記我有事了QQQ
先看看 pm5 和 bruce 的時間好了
我可以
謝謝!@chihao
我 10 點開始有一個閉門會議要參加 QQ
這次就請 @ayw255 @pm5 @fockerlee 同步對 FbScraper 的想法和預期,看看能不能達成架構上的共識。如果可以的話就進一步訂出 FbScraper 後續協作的具體計畫
👌 1
pm5 12:12:04
@chihao 我們的 license 是
The MIT License (MIT)
Copyright © 2020 0archive contributors
這樣嗎?
chihao 12:12:58
```MIT License
Copyright (c) 2020 0archive Project```
chihao 12:13:18
我是直接用 GitHub 的 choose a license template 😛
pm5 12:19:32
@chihao ArticleParser 也設成公開了
🙌 1

2020-03-04

Yiling 06:27:53
@yiling.cheng010 has joined the channel
wenyi 10:01:02
@fockerlee @pm5 google invitatation沒有hangout link, 直接用dev meeting的?
🖖 1
bruce 10:02:37
chihao 10:16:30
啊 my bad 🤦‍♂️🏻
pm5 12:16:41
@chihao 今天決定要改的東西在此。我們各自認領簽名。 https://g0v.hackmd.io/0MGGecVSSkunT5DWAHFC9Q?view#%E7%A8%8B%E5%BC%8F%E7%A2%BC%E6%9E%B6%E6%A7%8B

g0v.hackmd.io

On FbScraper... - HackMD

@pm5 @ayw255 @fockerlee ++ 文件中 `待議` 的那一點,我也是覺得可以不用一定要用 `article`
🙌 2
fly 17:05:17
https://taiwan.googleblog.com/2020/03/detectingfakeimergy.html

Google台灣 - 官方部落格

事實查核新工具:協助亞洲各地區新聞編輯室偵測假圖片

面對快速散播的不實資訊,如何從中去蕪存菁、辨別正確內容,儼然成為新聞記者和事實查核人員的巨大挑戰。可怕的是,不實資訊無所不在,文字還只是其中一部分, 那些像病毒般流傳的圖片 及 網路爆紅梗圖 ,也大量充斥在我們的動態消息和即時通訊,而這些內容往往都有斷章取義或造假的可能性。在...

2020-03-05

pm5 13:26:51
@fockerlee 你用的編輯器是哪一個?可以設定讓它不要產生 trailing spaces 嗎?
還有 `middle2/master` 又 diverge 了,可以處理一下嗎?
FbScraping 後續會改用 master 當 middle2 上跑的 branch 嗎? cc @ayw255 @fockerlee
應該 要吧?
想問現在deploy到middle2的是哪一個branch @fockerlee
正在處理 middle2/master 的 diverge,但剛剛 push 上彰化後 db 進不去,已經請問 ronny 了
vscode ,好的,我找一下設定
pm5 13:46:40
@chihao FbScraping 是不是也該開源了?
chihao 13:48:19
是的,是不是等架構修整完畢就可以開源了?另外改名 `FbScraper` 😛
pm5 13:48:37
不用等修整完畢吧?有什麼需要嗎?
ichieh 17:01:32
嗨我是揪松團的以婕,g0v 三月大松改為線上參與,因為知道專案們當天可能會揪實體小松,開了一個共筆彙整資料,歡迎大家持續補上自己專案的資訊和地點 😆:https://g0v.hackmd.io/@jothon/SktGdVAVU

2020-03-06

chihao 14:32:45
@pm5 那改名 `FbScraper` 之後就開源吧 \o/ cc @ayw255 @fockerlee
我不是FbScraper的Collaborator的樣子,看不到“Settings”,要麻煩 @fockerlee 處理改名,或是加我為Collaborator
@ayw255 我更新了 org member privileges
@chihao ok!
🙌 2
kiang 14:34:55
會不會立馬遭到 FB 封鎖 XD
Hsin 16:42:47
@yunghsin.hu has joined the channel
chihao 17:52:51
關於 PTT 資料的許願池 🙏💭✨ https://g0v.hackmd.io/HQrz2wS1R8Cen5NHZh7tKg?both @pm5 @ayw255

g0v.hackmd.io

On PTT data... - HackMD

👍 1
wenyi 20:01:49
@chihao @fockerlee @pm5 一樣在週一的dev meeting hangout?
wenyi 21:07:48
@chihao FbScraper 開了
wenyi 21:48:29
@pm5 @fockerlee, 用了python logging 後 basicConfig裡面已經有timestamp,原先log訊息裡面的timestamp就拿掉囉?e.g. https://github.com/disinfoRG/FbScraper/blob/master/fbscraper/actions/discover/discover_pipeline.py#L10

GitHub

disinfoRG/FbScraper

Contribute to disinfoRG/FbScraper development by creating an account on GitHub.

🖖 2

2020-03-07

bruce 10:49:50
🖖 1

2020-03-09

wenyi 12:43:20
@chihao @fockerlee @pm5 FbScraper 補上MIT License 囉 (直接複製ZeroScraper的)
🖖 2 🙌 1

2020-03-11

chihao 01:15:14
via @kiang `第一次看到臉書這個功能`

👍 1
pm5 10:42:07
@fockerlee 我想這樣做不太好 https://github.com/disinfoRG/FbScraper/pull/35 因為

1. 這樣看起來 site update 如果要 update N 篇文章,browser 就會開啟關閉 N 次
2. 看 `fb_site.py` 的程式的人,會看不懂 `fb_post.main` 這個 function 在做什麼,為什麼要這樣傳參數給它

GitHub

Support update article urls of a given site id by dieface · Pull Request #35 · disinfoRG/FbScraper

Tested with script below: $ python3 fb-site.py 20 --update --headful $ python3 fb-site.py 20 --update $ python3 fb-site.py 90 $ python3 fb-post.py 2400

bruce 14:37:50
好,那我來修改
julialiu 20:54:20
覺得這篇很適合查一下誰是源頭的喔!摘要:獨家:第三方事實查核機構? 台灣事實查核中心遭爆半數委員兼任官媒董事,眾報!
感覺起來就是台灣版本 conservative news。
這些 conservative 會強調言論自由與各種自由(美國的狀況是會用宗教自由來對抗跨性別議題等等),調性滿像 fox news 或一些美國保守派宗教媒體。
有看到那篇,但覺得眾報幕後是誰很值得查
歡迎向台灣事實查核中心據報(?)

2020-03-12

pm5 12:44:23
@fockerlee 我想問一下,現在爬蟲遇到 FB security check 的作法就是關掉 browser 不再抓,那這個 FB 帳號要等多久以後才能繼續抓?

2020-03-13

bruce 11:36:37
之前爬下來的經驗,大概要等6~8小時以後
有沒有找到其它方法可以繞過這個檢查?
目前沒有,推測要換 ip 才有機會
🖖 1
risingmoon 17:19:47
@justindavidlee88 has joined the channel
Heidi Lin 22:18:13
@chiehan.linn has joined the channel

2020-03-14

chihao 01:43:19
深夜投影片 :laughing:
3
wuulong 05:44:25
@wuulong has joined the channel
wuulong 08:30:32
COVID-19(武漢肺炎)全國指定社區採檢院所及重度收治醫院https://drive.google.com/open?id=15PvwjIUuHg-vUXuWeVUNmwCvRvqTcuRKz1b3jdiVgmU
wuulong 08:31:31
白忙卻是一種福氣!
疾管署地圖: https://antiflu.cdc.gov.tw/?selectFluObjs=1#
Stimim 08:54:30
@death1048576 has joined the channel
kiko555 09:32:46
@kiko555 has joined the channel
Ella 09:55:56
@dhjk65493 has joined the channel
stella 09:56:17
@stella has joined the channel
nonumpa 09:57:04
@acerxp511 has joined the channel
chihao 10:12:57
@a-chioh 今天要來玩資料嗎 😆
Kobe 10:14:27
@briandodo has joined the channel
a-chioh 10:16:22
@chihao 也可以! 不過最近比較忙做阿美語TTS XD
chihao 10:16:49
TTS 是啥?好啊 \o/ 都好 - 在家超 chill
a-chioh 10:16:49
這幾個禮拜都沒有注意你們的進步
a-chioh 10:16:54
對不起orz
chihao 10:19:39
沒關係啦幹嘛道歉 😄
yuanz 10:35:01
@fivil52 has joined the channel
chihao 10:36:54
我先做了一個簡單的 counter https://github.com/chihaoyo/disinfo-playground

GitHub

chihaoyo/disinfo-playground

Contribute to chihaoyo/disinfo-playground development by creating an account on GitHub.

chihao 10:37:24
在提案裡面算 `武漢` 的程式 😆
mglee 10:48:57
今天都還是程式坑嗎~?
wuulong 10:52:45
打個招呼,我是哈爸
TsungLinYeh 10:57:54
@nightcrow33 has joined the channel
wenyi 11:03:40
呼叫其他三位坑主@chihao @pm5 @fockerlee: https://meet.jit.si/g0v3803

meet.jit.si

Jitsi Meet

Join a WebRTC video conference powered by the Jitsi Videobridge

chihao 11:05:01
我在公車上喔耶
wenyi 11:05:42
\chihao/ 拍謝我現在不太方便講話
wenyi 11:07:30
想問一下今天資料分析用這份嗎?https://github.com/disinfoRG/datasets/tree/master/publications

GitHub

disinfoRG/datasets

Public datasets of 0archive data by 0archive. Contribute to disinfoRG/datasets development by creating an account on GitHub.

pm5 11:13:30
我等一下有事 😬
✈️ 1
wenyi 11:14:48
新共識:xn--jit-lp6em85ue3a.si 筆記在slack
wuulong 11:15:22
這是我今天的筆記
https://hackmd.io/@Hqy9p1_8RVS1JskGli0bBQ/HyvUiutS8
[COVID-19(武漢肺炎)全國指定社區採檢院所及重度收治醫院](
https://drive.google.com/open?id=15PvwjIUuHg-vUXuWeVUNmwCvRvqTcuRKz1b3jdiVgmU
)

HackMD

學習筆記 - 在家黑客松 - HackMD

# 學習筆記 - 在家黑客松 ## 基本資料 [官網](<https://jothon.g0v.tw/>) [本期共筆](<https://g0v.hackmd.io/@jothon/g0v-hackath>

wuulong 11:15:41
[資料分析的小技巧分享](
https://www.facebook.com/groups/LASSnet/permalink/2531513430432585/
)

facebook.com

Wuulong Hsu

資料分析的小技巧分享 這個世界真是進步得太快了。最近學到這些,真是太令人感動了,忍不住得分享。 最近剛學著分析政府的開放資料,也順便歸零學習新東西,提醒以下分享可能是野人獻曝,客官請隨喜。 開放資料是個寶庫,但要你找得到,用得上 XD 學到這兩天有突破性的發展,用幾張圖示意一下,請大家參考...

wenyi 11:17:14
we need a dataset for 肺炎 first QQ
chihao 11:19:51
@ayw255 我是先自己在本機用關鍵字過濾
wenyi 11:20:55
摁摁我想試著把跟肺炎相關的json包成一個jsonlines
pm5 11:23:41
因為 public datasets 沒有全文,所以這樣找可能會漏掉一些:
`grep '肺炎' publications/*.jsonl > coronavirus.jsonl`
👍 1
wenyi 11:24:42
除了 `肺炎` , `武漢`, `新冠` 還要有哪些關鍵字
pm5 11:28:55
可能再加一些 `grep -iE "肺炎|武漢|新冠|covid|口罩|方艙|隔離|確診" publications/*.jsonl > coronavirus.jsonl`
chihao 11:29:44
shell script \o/
chihao 11:30:36
@mglee 有什麼對資料的想法嗎?要不要來 cowork 😛
pm5 11:31:27
可以用 jq 查詢 json https://stedolan.github.io/jq/
littlefish0331 11:31:38
@littlefish0331 has joined the channel
Stimim 11:34:08
請問大家現在在做什麼?有什麼可以幫忙的嗎?會議室裡面好像沒人在?
pm5 11:35:50
是不是因為大家靜音呀?講講話看看?
wenyi 11:37:34
`'肺炎|武漢|新冠|covid|口罩|方艙|隔離|確診|疫情|病毒|譚德賽'`
wenyi 11:37:57
檔案太大要怎麼推上github or 分享 @pm5 (311.98 MB)
wenyi 11:40:16
病毒keyword找到一堆非洲豬瘟,拿掉再找一次
pm5 11:40:50
可以試試 GitHub LFS https://github.blog/2015-04-08-announcing-git-large-file-storage-lfs/ 雖然這樣就沒有分行的 version control

The GitHub Blog

Announcing Git Large File Storage (LFS) - The GitHub Blog

Distributed version control systems like Git have enabled new and powerful workflows, but they haven’t always been practical for versioning large files. We’re excited to announce Git Large File Storage (LFS) as an improved way

pm5 11:41:06
不然就要用 Google Drive
AndyLeu 11:41:22
@andyleu1028tw has joined the channel
wenyi 11:41:24
先用google drive好了
pm5 11:41:25
我們還是需要一個網站 or landing page 可以放這些匯出的檔案耶
chihao 11:42:45
@death1048576 有在這裡嗎?
Stimim 11:43:29
hi
chihao 11:43:48
Hi hi \o/
chihao 11:48:09
filter 是這個嗎? `肺炎|武漢|新冠|covid|口罩|方艙|隔離|確診|疫情|病毒|譚德賽`
wenyi 11:48:28
`grep -iE "肺炎|武漢|新冠|covid|口罩|方艙|隔離|確 診|who|譚德賽" publications/*.jsonl > coronavirus.jsonl`
chihao 11:48:56
感覺需要一個資料集列表 XD Google sheet 如何
Stimim 11:49:05
要不要放在 gDoc 裡?生出資料的 command
chihao 11:49:18
嗯,類似這樣的紀錄
wuulong 11:50:46
請問如果將 dataset json download 後,會建議怎麼搜尋?
wuulong 11:51:08
用 jq?
chihao 11:51:41
嗯,這是剛 @pm5 的建議
wuulong 11:52:07
所以 jq 也方便自動化?
chihao 11:53:10
我自己是還沒用過 😆
chihao 11:55:04
@death1048576 今天想做什麼嗎?
抱歉,我現在跑去 cofact 那邊看 issue 了