disinfo

Month: 2020-03

2020-03-01

mrorz 18:33:48
雪花新聞
flakenews
chihao 18:42:44
The Onion?
cai 21:06:53
@iacmai has joined the channel
tnstiger 21:12:41
@tnstiger has joined the channel
zoe.lee 23:55:38
@zoe.lee has joined the channel

2020-03-02

chihao 09:29:40
@ayw255 有時間一起來處理 repo 改名、開源嗎?
wenyi 10:26:02
ok~~
chihao 10:27:25
今晚會後如何?
wenyi 10:29:49
我10:00~10:20左右需要離開一下,之後可以
👍 1
pm5 20:00:19
I'll be late for ~10 mins to the meeting, sorry
1
kay830123 20:44:53
@kay830123 has joined the channel
chihao 21:55:08
@pm5 @fockerlee @ayw255 About FbScraper… https://g0v.hackmd.io/0MGGecVSSkunT5DWAHFC9Q

g0v.hackmd.io

FbScraper - HackMD

🙌 1
wenyi 22:26:19
@chihao ZeroScraper開源了 🤸‍♂️
🙌 1 🤸‍♀️ 1
tnstiger 22:29:48
那 airtable content 要開嗎?
https://airtable.com/tbl3DrYs5mXgl0EV9/viw2cuXweY8OxNkX6?blocks=hide

Airtable

Airtable: Organize anything you can imagine

Airtable works like a spreadsheet but gives you the power of a database to organize anything. Sign up for free.

chihao 23:39:04
@tnstiger 請參考 HackMD book 哦 https://g0v.hackmd.io/@chihao/0archive/

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [Announcements](<https://driv>

cool 你們已經做那麼久了

2020-03-03

chihao 08:54:23
@ayw255 @pm5 datasets 也開源了;ZeroScraper 和 datasets 兩個 repo 都補上 MIT LICENSE `Copyright (c) 2020 0archive Project` cc @fockerlee @isabelhou 🙂
🙌 1 1
chihao 09:22:16
顯圖也加上去了 😆
wenyi 10:22:22
@fockerlee @pm5 @chihao 拍謝想問一下大家禮拜三早上的meeting可不可以改成10-12am,我忘記我有事了QQQ
先看看 pm5 和 bruce 的時間好了
我可以
謝謝!@chihao
我 10 點開始有一個閉門會議要參加 QQ
這次就請 @ayw255 @pm5 @fockerlee 同步對 FbScraper 的想法和預期,看看能不能達成架構上的共識。如果可以的話就進一步訂出 FbScraper 後續協作的具體計畫
👌 1
pm5 12:12:04
@chihao 我們的 license 是
The MIT License (MIT)
Copyright © 2020 0archive contributors
這樣嗎?
chihao 12:12:58
```MIT License
Copyright (c) 2020 0archive Project```
chihao 12:13:18
我是直接用 GitHub 的 choose a license template 😛
pm5 12:19:32
@chihao ArticleParser 也設成公開了
🙌 1

2020-03-04

Yiling 06:27:53
@yiling.cheng010 has joined the channel
wenyi 10:01:02
@fockerlee @pm5 google invitatation沒有hangout link, 直接用dev meeting的?
🖖 1
bruce 10:02:37
chihao 10:16:30
啊 my bad 🤦‍♂️🏻
pm5 12:16:41
@chihao 今天決定要改的東西在此。我們各自認領簽名。 https://g0v.hackmd.io/0MGGecVSSkunT5DWAHFC9Q?view#%E7%A8%8B%E5%BC%8F%E7%A2%BC%E6%9E%B6%E6%A7%8B

g0v.hackmd.io

On FbScraper... - HackMD

@pm5 @ayw255 @fockerlee ++ 文件中 `待議` 的那一點,我也是覺得可以不用一定要用 `article`
🙌 2
fly 17:05:17
https://taiwan.googleblog.com/2020/03/detectingfakeimergy.html

Google台灣 - 官方部落格

事實查核新工具:協助亞洲各地區新聞編輯室偵測假圖片

面對快速散播的不實資訊,如何從中去蕪存菁、辨別正確內容,儼然成為新聞記者和事實查核人員的巨大挑戰。可怕的是,不實資訊無所不在,文字還只是其中一部分, 那些像病毒般流傳的圖片 及 網路爆紅梗圖 ,也大量充斥在我們的動態消息和即時通訊,而這些內容往往都有斷章取義或造假的可能性。在...

2020-03-05

pm5 13:26:51
@fockerlee 你用的編輯器是哪一個?可以設定讓它不要產生 trailing spaces 嗎?
還有 `middle2/master` 又 diverge 了,可以處理一下嗎?
FbScraping 後續會改用 master 當 middle2 上跑的 branch 嗎? cc @ayw255 @fockerlee
應該 要吧?
想問現在deploy到middle2的是哪一個branch @fockerlee
正在處理 middle2/master 的 diverge,但剛剛 push 上彰化後 db 進不去,已經請問 ronny 了
vscode ,好的,我找一下設定
pm5 13:46:40
@chihao FbScraping 是不是也該開源了?
chihao 13:48:19
是的,是不是等架構修整完畢就可以開源了?另外改名 `FbScraper` 😛
pm5 13:48:37
不用等修整完畢吧?有什麼需要嗎?
ichieh 17:01:32
嗨我是揪松團的以婕,g0v 三月大松改為線上參與,因為知道專案們當天可能會揪實體小松,開了一個共筆彙整資料,歡迎大家持續補上自己專案的資訊和地點 😆:https://g0v.hackmd.io/@jothon/SktGdVAVU

2020-03-06

chihao 14:32:45
@pm5 那改名 `FbScraper` 之後就開源吧 \o/ cc @ayw255 @fockerlee
我不是FbScraper的Collaborator的樣子,看不到“Settings”,要麻煩 @fockerlee 處理改名,或是加我為Collaborator
@ayw255 我更新了 org member privileges
@chihao ok!
🙌 2
kiang 14:34:55
會不會立馬遭到 FB 封鎖 XD
Hsin 16:42:47
@yunghsin.hu has joined the channel
chihao 17:52:51
關於 PTT 資料的許願池 🙏💭✨ https://g0v.hackmd.io/HQrz2wS1R8Cen5NHZh7tKg?both @pm5 @ayw255

g0v.hackmd.io

On PTT data... - HackMD

👍 1
wenyi 20:01:49
@chihao @fockerlee @pm5 一樣在週一的dev meeting hangout?
wenyi 21:07:48
@chihao FbScraper 開了
wenyi 21:48:29
@pm5 @fockerlee, 用了python logging 後 basicConfig裡面已經有timestamp,原先log訊息裡面的timestamp就拿掉囉?e.g. https://github.com/disinfoRG/FbScraper/blob/master/fbscraper/actions/discover/discover_pipeline.py#L10

GitHub

disinfoRG/FbScraper

Contribute to disinfoRG/FbScraper development by creating an account on GitHub.

🖖 2

2020-03-07

bruce 10:49:50
🖖 1

2020-03-09

wenyi 12:43:20
@chihao @fockerlee @pm5 FbScraper 補上MIT License 囉 (直接複製ZeroScraper的)
🖖 2 🙌 1

2020-03-11

chihao 01:15:14
via @kiang `第一次看到臉書這個功能`

👍 1
pm5 10:42:07
@fockerlee 我想這樣做不太好 https://github.com/disinfoRG/FbScraper/pull/35 因為

1. 這樣看起來 site update 如果要 update N 篇文章,browser 就會開啟關閉 N 次
2. 看 `fb_site.py` 的程式的人,會看不懂 `fb_post.main` 這個 function 在做什麼,為什麼要這樣傳參數給它

GitHub

Support update article urls of a given site id by dieface · Pull Request #35 · disinfoRG/FbScraper

Tested with script below: $ python3 fb-site.py 20 --update --headful $ python3 fb-site.py 20 --update $ python3 fb-site.py 90 $ python3 fb-post.py 2400

bruce 14:37:50
好,那我來修改
julialiu 20:54:20
覺得這篇很適合查一下誰是源頭的喔!摘要:獨家:第三方事實查核機構? 台灣事實查核中心遭爆半數委員兼任官媒董事,眾報!
感覺起來就是台灣版本 conservative news。
這些 conservative 會強調言論自由與各種自由(美國的狀況是會用宗教自由來對抗跨性別議題等等),調性滿像 fox news 或一些美國保守派宗教媒體。
有看到那篇,但覺得眾報幕後是誰很值得查
歡迎向台灣事實查核中心據報(?)

2020-03-12

pm5 12:44:23
@fockerlee 我想問一下,現在爬蟲遇到 FB security check 的作法就是關掉 browser 不再抓,那這個 FB 帳號要等多久以後才能繼續抓?

2020-03-13

bruce 11:36:37
之前爬下來的經驗,大概要等6~8小時以後
有沒有找到其它方法可以繞過這個檢查?
目前沒有,推測要換 ip 才有機會
🖖 1
risingmoon 17:19:47
@justindavidlee88 has joined the channel
Heidi Lin 22:18:13
@chiehan.linn has joined the channel

2020-03-14

chihao 01:43:19
深夜投影片 :laughing:
3
wuulong 05:44:25
@wuulong has joined the channel
wuulong 08:30:32
COVID-19(武漢肺炎)全國指定社區採檢院所及重度收治醫院https://drive.google.com/open?id=15PvwjIUuHg-vUXuWeVUNmwCvRvqTcuRKz1b3jdiVgmU
wuulong 08:31:31
白忙卻是一種福氣!
疾管署地圖: https://antiflu.cdc.gov.tw/?selectFluObjs=1#
Stimim 08:54:30
@death1048576 has joined the channel
kiko555 09:32:46
@kiko555 has joined the channel
Ella 09:55:56
@dhjk65493 has joined the channel
stella 09:56:17
@stella has joined the channel
nonumpa 09:57:04
@acerxp511 has joined the channel
chihao 10:12:57
@a-chioh 今天要來玩資料嗎 😆
Kobe 10:14:27
@briandodo has joined the channel
a-chioh 10:16:22
@chihao 也可以! 不過最近比較忙做阿美語TTS XD
chihao 10:16:49
TTS 是啥?好啊 \o/ 都好 - 在家超 chill
a-chioh 10:16:49
這幾個禮拜都沒有注意你們的進步
a-chioh 10:16:54
對不起orz
chihao 10:19:39
沒關係啦幹嘛道歉 😄
yuanz 10:35:01
@fivil52 has joined the channel
chihao 10:36:54
我先做了一個簡單的 counter https://github.com/chihaoyo/disinfo-playground

GitHub

chihaoyo/disinfo-playground

Contribute to chihaoyo/disinfo-playground development by creating an account on GitHub.

chihao 10:37:24
在提案裡面算 `武漢` 的程式 😆
mglee 10:48:57
今天都還是程式坑嗎~?
wuulong 10:52:45
打個招呼,我是哈爸
TsungLinYeh 10:57:54
@nightcrow33 has joined the channel
wenyi 11:03:40
呼叫其他三位坑主@chihao @pm5 @fockerlee: https://meet.jit.si/g0v3803

meet.jit.si

Jitsi Meet

Join a WebRTC video conference powered by the Jitsi Videobridge

chihao 11:05:01
我在公車上喔耶
wenyi 11:05:42
\chihao/ 拍謝我現在不太方便講話
wenyi 11:07:30
想問一下今天資料分析用這份嗎?https://github.com/disinfoRG/datasets/tree/master/publications

GitHub

disinfoRG/datasets

Public datasets of 0archive data by 0archive. Contribute to disinfoRG/datasets development by creating an account on GitHub.

pm5 11:13:30
我等一下有事 😬
✈️ 1
wenyi 11:14:48
新共識:xn--jit-lp6em85ue3a.si 筆記在slack
wuulong 11:15:22
這是我今天的筆記
https://hackmd.io/@Hqy9p1_8RVS1JskGli0bBQ/HyvUiutS8
[COVID-19(武漢肺炎)全國指定社區採檢院所及重度收治醫院](
https://drive.google.com/open?id=15PvwjIUuHg-vUXuWeVUNmwCvRvqTcuRKz1b3jdiVgmU
)

HackMD

學習筆記 - 在家黑客松 - HackMD

# 學習筆記 - 在家黑客松 ## 基本資料 [官網](<https://jothon.g0v.tw/>) [本期共筆](<https://g0v.hackmd.io/@jothon/g0v-hackath>

wuulong 11:15:41
[資料分析的小技巧分享](
https://www.facebook.com/groups/LASSnet/permalink/2531513430432585/
)

facebook.com

Wuulong Hsu

資料分析的小技巧分享 這個世界真是進步得太快了。最近學到這些,真是太令人感動了,忍不住得分享。 最近剛學著分析政府的開放資料,也順便歸零學習新東西,提醒以下分享可能是野人獻曝,客官請隨喜。 開放資料是個寶庫,但要你找得到,用得上 XD 學到這兩天有突破性的發展,用幾張圖示意一下,請大家參考...

wenyi 11:17:14
we need a dataset for 肺炎 first QQ
chihao 11:19:51
@ayw255 我是先自己在本機用關鍵字過濾
wenyi 11:20:55
摁摁我想試著把跟肺炎相關的json包成一個jsonlines
pm5 11:23:41
因為 public datasets 沒有全文,所以這樣找可能會漏掉一些:
`grep '肺炎' publications/*.jsonl > coronavirus.jsonl`
👍 1
wenyi 11:24:42
除了 `肺炎` , `武漢`, `新冠` 還要有哪些關鍵字
pm5 11:28:55
可能再加一些 `grep -iE "肺炎|武漢|新冠|covid|口罩|方艙|隔離|確診" publications/*.jsonl > coronavirus.jsonl`
chihao 11:29:44
shell script \o/
chihao 11:30:36
@mglee 有什麼對資料的想法嗎?要不要來 cowork 😛
pm5 11:31:27
可以用 jq 查詢 json https://stedolan.github.io/jq/
littlefish0331 11:31:38
@littlefish0331 has joined the channel
Stimim 11:34:08
請問大家現在在做什麼?有什麼可以幫忙的嗎?會議室裡面好像沒人在?
pm5 11:35:50
是不是因為大家靜音呀?講講話看看?
wenyi 11:37:34
`'肺炎|武漢|新冠|covid|口罩|方艙|隔離|確診|疫情|病毒|譚德賽'`
wenyi 11:37:57
檔案太大要怎麼推上github or 分享 @pm5 (311.98 MB)
wenyi 11:40:16
病毒keyword找到一堆非洲豬瘟,拿掉再找一次
pm5 11:40:50
可以試試 GitHub LFS https://github.blog/2015-04-08-announcing-git-large-file-storage-lfs/ 雖然這樣就沒有分行的 version control

The GitHub Blog

Announcing Git Large File Storage (LFS) - The GitHub Blog

Distributed version control systems like Git have enabled new and powerful workflows, but they haven’t always been practical for versioning large files. We’re excited to announce Git Large File Storage (LFS) as an improved way

pm5 11:41:06
不然就要用 Google Drive
AndyLeu 11:41:22
@andyleu1028tw has joined the channel
wenyi 11:41:24
先用google drive好了
pm5 11:41:25
我們還是需要一個網站 or landing page 可以放這些匯出的檔案耶
chihao 11:42:45
@death1048576 有在這裡嗎?
Stimim 11:43:29
hi
chihao 11:43:48
Hi hi \o/
chihao 11:48:09
filter 是這個嗎? `肺炎|武漢|新冠|covid|口罩|方艙|隔離|確診|疫情|病毒|譚德賽`
wenyi 11:48:28
`grep -iE "肺炎|武漢|新冠|covid|口罩|方艙|隔離|確 診|who|譚德賽" publications/*.jsonl > coronavirus.jsonl`
chihao 11:48:56
感覺需要一個資料集列表 XD Google sheet 如何
Stimim 11:49:05
要不要放在 gDoc 裡?生出資料的 command
chihao 11:49:18
嗯,類似這樣的紀錄
wuulong 11:50:46
請問如果將 dataset json download 後,會建議怎麼搜尋?
wuulong 11:51:08
用 jq?
chihao 11:51:41
嗯,這是剛 @pm5 的建議
wuulong 11:52:07
所以 jq 也方便自動化?
chihao 11:53:10
我自己是還沒用過 😆
chihao 11:55:04
@death1048576 今天想做什麼嗎?
抱歉,我現在跑去 cofact 那邊看 issue 了
\o/
cai 11:55:08
hi?
chihao 11:55:16
cai hi 👋
cai 11:56:33
之前只有參加過整理武漢肺炎的文宣資料,不知道在這邊能幫上什麼
chihao 11:59:48
哦哦~是什麼樣的文宣資料呢?
https://hackmd.io/8mcxozG1T3K2w3Ave9IgCA
以官方為主的文宣整理吧? 比較偏重在口罩那邊
圖片為主、影音用連結
酷 \o/
那今天有想做什麼嗎?
還沒想到XD
XDDD
chihao 12:00:12
這裡是武漢肺炎相關網路文章的資料搜集和分析
wenyi 12:04:03
上傳了新一版的coronavirus.jsonl,之前的那一版含有filename
wenyi 12:04:13
用python讀jsonlines @wuulong
wenyi 12:04:21
```import jsonlines
with jsonlines.open('coronavirus.jsonl') as reader:
for obj in reader:
print(obj)
break```
chihao 12:04:33
Google Drive 好像會直接蓋過去對吧,同樣檔名的檔案如果上傳新的版本
wenyi 12:04:40
對~新版本
wenyi 12:04:51
大家再下載一次
chihao 12:04:57
好啊 \o/
wenyi 12:06:14
第一則是無關肺炎的口罩弟XD
chihao 12:06:25
那是誰 XD
wenyi 12:08:00
```'台北市長柯文哲從去年10月開始天天搭公車上班,3個月下來幾乎每天同個時間搭同一班車,柯市長笑稱是「永春高中專車」,也因此認識不少學生。而當初第一次坐在柯市長旁邊的高中生,從「害羞弟」變成「口罩弟」,柯市長除了跟「口罩弟」閒聊,也關心何時考大學。'```
wuulong 12:10:42
json 內是哪個 code page?
wenyi 12:11:08
什麼意思?
wuulong 12:11:54
在 mac console jq 出來是亂碼,所以在想是不是 big5 or utf-8 的問題
chihao 12:13:21
hey yo hey yo @littlefish0331
littlefish0331 12:14:40
thanks!!
ronnywang 12:15:46
本來有些朋友用 https://intro.g0v.ronny.tw/meet/channel/g0v-hackath38n/10 有問題不能用而改用 meet.jit.si 的,可以幫我再改回去原來 intro.g0v.ronny.tw 看看有沒有問題嗎
ronnywang 12:16:01
剛剛可能修掉了平行宇宙 bug
chihao 12:16:14
終於⋯ 簡單的說明文件可以看這裡 @littlefish0331
chihao 12:16:26
@ronnywang ++ \o/
wenyi 12:16:28
@wuulong 我也沒用過jq,你有重新下載一次coronavirus.jsonl嗎?剛剛有上傳新版
ronnywang 12:16:37
不過如果覺得 intro 還是有很不順或是有 bug 的,再幫我講一下,然後再改回用 meet.jit.si
wuulong 12:16:42
搞定了,要用 utf-8
1
wuulong 12:16:50
jq 很強大!
🚀 1
wuulong 12:17:10
所以今天的共筆在?
littlefish0331 12:29:06
新人發問個><
我剛剛看了一下資料集~好酷!!
想問一下 github上面,disinfoRG/producers.json就是追蹤列表對吧?
然後 publication/裡面是追中列表每天的新聞嗎?

最後就是今天的目標,是想要 針對filter出來的 coronavirus.json 做一些有趣的事,對吧><
對!!
💯 1
wuulong 12:29:25
cat 2020-03-*.jsonl | ./jq ‘. | { producer_id }' | sort | uniq
 “producer_id”: 100
 “producer_id”: 102
 “producer_id”: 104
 “producer_id”: 106
 “producer_id”: 108
 “producer_id”: 11237
 “producer_id”: 115
 “producer_id”: 116
 “producer_id”: 119
 “producer_id”: 1666
 “producer_id”: 1667
 “producer_id”: 751
 “producer_id”: 789
 “producer_id”: 98
 “producer_id”: 99
🚀 1
wuulong 12:29:47
現學,jq 真是強大
chihao 12:30:12
@littlefish0331 正解 \o/
chihao 12:33:42
@littlefish0331 如果做出什麼有趣的結果,就可以來做一些資訊視覺化,這裡有一些之前做過的 https://docs.google.com/presentation/d/168scCxrEhyTg99zhKvdiXTLXwUAJcUx6caM2dP-jsq8/edit#slide=id.g715c1c08ac_0_335
littlefish0331 12:34:21
XDD我覺得我功力還太淺~連jq這工具也沒用過
我先觀摩練個功!!XDD~
chihao 12:34:48
沒問題,開始做就對了 👍👍
wuulong 12:35:28
哈,我也是剛知道 jq 30 分鐘而已
🚀 1
littlefish0331 12:35:55
但我確實是對這波的疫情公開資料,很有興趣XDD
有可能今天沒辦法完整參與唷~~(還想到處看看+下午還有事><)
但如果以後有利用資料做出什麼,我會上來分享!!
littlefish0331 12:36:01
有有~~我在看唐鳳大大
wuulong 12:50:04
所以今天是要吃 pizza?
chihao 12:51:38
自己 pizza 自己訂 XDD
wuulong 12:55:10
當然!
chihao 13:01:14
餓了可惡
wuulong 13:01:42
確實餓了
wuulong 13:02:24
或許可以寫一篇資料怎麼查詢與應用
chihao 13:02:34
好主意耶⋯
wuulong 13:03:34
外部的人,可能會是從應用這邊切入,然後才有興趣貢獻
a-chioh 13:03:39
太早,我不餓
a-chioh 13:03:52
來看看你們這邊在幹嘛
wuulong 13:04:22
jq 真的滿好用的,透過這個工具寫些應用上的範例
wuulong 13:04:58
json 如果導入 pandas dataframe 還可以用 SQL 查詢
➕ 3
chihao 13:25:51
整理好 Google Drive 了 orz 一直亂糟糟
chihao 13:31:25
也整理了 HackMD Book…
wuulong 13:51:19
Image from iOS
2
wenyi 14:04:14
現在的Archive被雪花佔據@@ 如果要分析,專注在ptt的文章應該會比較完整,感覺新聞網站應該不是很完整! 例如直接google 標題發現雪花常常引用ETtoday,但publications裡好像沒看到幾則ETtoday啊…
這句話接在鐵板燒後面,我一時不察看成「現在的 archive 被油花佔據」😅
wenyi 14:06:41
before 分析,資料探索工具看起來是比較理想的下一步
上次 chihao 在 disinf1thon 也有提類似的案
```提案人:chihao
提案簡介:我想用 0archive 目前爬到的一些資料,用 vue.js / nuxt.js 寫一個簡單的 web-based 資料探索介面。```
wuulong 14:22:05
將 json 轉成 db like, 用 sql 查詢如何?
🙌 2
chihao 14:28:07
等一下,雪花是什麼 XD
chihao 14:28:41
@wuulong 也好啊,感覺各種順手的方式都可以嘗試(是不是太佛系了一點)
wenyi 14:29:29
都試都試
wenyi 14:29:51
雪花新聞 https://www.xuehua.tw/

xuehua.tw

雪花台灣

台湾频道_雪花新闻为全球中文用户全天候提供及时的资讯,开设社会、科技、娱乐、体育、财经等50多个内容频道.

chihao 14:51:33
所以分布很不均勻的意思嗎 Q_Q
wuulong 14:56:50
我來試個範例
wuulong 14:58:14
還有做過哪些視覺化?哪樣的資料分析大家有興趣?
gugod 15:01:20
人名 與 其他種類名詞 的交集狀況
🙌 2
cai 15:13:58
類似標籤雲那種吧
2
AndyLeu 15:30:41
Hi 大家好,我對於這坑有興趣,但目前人在外面,晚上會回來追文件與進度,希望能貢獻一點自己的心力,謝謝
2
chihao 15:31:38
\ AndyLeu /
wuulong 15:40:10
目前json欄位中,有作者?
wuulong 15:51:46
image.png
wuulong 15:52:01
請問這個架構圖是用什麼東西畫的?
chihao 15:52:14
Google Slides 😆
wuulong 15:52:27
真漂亮
wuulong 15:53:17
資料分析的小技巧分享
https://www.facebook.com/groups/LASSnet/permalink/2531513430432585/

facebook.com

Wuulong Hsu

資料分析的小技巧分享 這個世界真是進步得太快了。最近學到這些,真是太令人感動了,忍不住得分享。 最近剛學著分析政府的開放資料,也順便歸零學習新東西,提醒以下分享可能是野人獻曝,客官請隨喜。 開放資料是個寶庫,但要你找得到,用得上 XD 學到這兩天有突破性的發展,用幾張圖示意一下,請大家參考...

wuulong 15:53:51
我最近在玩這個,在想說是不是把 json -> dataframe, 可以用 SQL 查,再來歸納與畫圖
wuulong 16:00:56
啥,五點就報告了 XD
chihao 16:03:10
對耶,要不要開始在共筆上整理一下今天的一些小成果,一些分享也可以哦 \o/
ichieh 16:10:09
成果報告要準備收單~~~ 坑主快填單~

HackMD

hackath38n - 第參拾捌次在家黑客松 - HackMD

g0v 首次線上百人黑客松,運用 youtube+meetjitsi+slack+hackMD+github,讓 g0v 協作工具,效用發揮到極致,讓您在家也能參加黑客松。

wuulong 16:11:59
所以目前的 author 從來沒有值
wuulong 16:12:02
chihao 16:12:07
嗯,沒錯
chihao 16:12:13
因為其實許多文章是沒有作者的哦
chihao 16:12:18
尤其是內容農場
wuulong 16:12:24
以後還會有 Producer ?
wuulong 16:12:39
目前的資料是不是只有 Publication?
chihao 16:12:53
不過我們也正在重跑 parser,會慢慢吐出更多關於 author / commentor 的資訊
chihao 16:12:58
producer 有啊
wuulong 16:13:19
一個 jsonl 檔案內有哪種資料?
chihao 16:13:19
https://github.com/disinfoRG/datasets/blob/master/producers.jsonl

GitHub

disinfoRG/datasets

Public datasets of 0archive data by 0archive. Contribute to disinfoRG/datasets development by creating an account on GitHub.

wuulong 16:14:57
有 Producer,Publication 兩個 class.
wuulong 16:15:09
目前的資料是這兩種都有?
chihao 16:22:56
沒錯
chihao 16:23:18
啊,4pm 是成果報告登記截止,5pm 才是成果報告
chihao 16:23:36
@wuulong 要來分享一下今天跳坑的心得嗎 😄
wuulong 16:23:59
啥都還沒做,拿啥分享啊
chihao 16:24:38
就聊聊今天參與的心得也行
wuulong 16:24:48
image.png
wuulong 16:24:53
五點前都可以登記
wuulong 16:25:28
弱弱的問一下
def load_json(filename):
with open(filename, ‘r’) as json_file:
data = json.load(json_file,encoding=‘utf-8’)
wuulong 16:25:56
raise JSONDecodeError(“Extra data”, s, end)

JSONDecodeError: Extra data
wuulong 17:40:25
呵呵,我們在報告了
chihao 17:42:30
講得還可以嗎? @wuulong XDD
wuulong 17:42:39
強大
chihao 17:42:50
下次換你報告?XD
wuulong 17:42:56
呵呵
chihao 17:43:00
呵呵
wuulong 17:45:10
https://github.com/Linked-Open-Data-LOD-Taiwan/ontologies

GitHub

Linked-Open-Data-LOD-Taiwan/ontologies

The ontologies designed for integrated would be deployed here. - Linked-Open-Data-LOD-Taiwan/ontologies

🚀 1
wuulong 17:45:17
最近寫的工具是這個
wuulong 17:46:27
文件在這裡
https://paper.dropbox.com/doc/--AwHHI~2xoi8hpWaabhCsNTc_Ag-K4k9kyAieS9KFRATct8tC

Dropbox Paper

水知識圖譜-資料處理腳本

需求 規格 Scripts 中要有使用的工具範例 設計 V0.1 使用與管理本地與自訂 url 資料 支援 Wikidata query service V0.0.

wuulong 18:00:23
標題與內容,或許後面有斷詞等,長出詞頻跟關鍵字
pm5 18:33:13
這句話接在鐵板燒後面,我一時不察看成「現在的 archive 被油花佔據」😅
khlee 20:47:48
@djpcsixth has joined the channel

2020-03-15

wuulong 07:38:36
今早把昨天想到的玩了一下,就是這個意思。
範例 code 已經上傳,用法可參考昨天的黑客松筆記 或是 哈爸學習筆記
https://hackmd.io/@Hqy9p1_8RVS1JskGli0bBQ/HyvUiutS8
image.png
1
wuulong 08:33:53
昨天的學習心得分享
https://www.facebook.com/wuulong.hsu/posts/3309908325692229

facebook.com

Wuulong Hsu

昨天去 G0V-在家黑客松 玩玩,學習學習 參與一個專案,今早做點貢獻,隨手釋出。 亮點: 參與黑客松,還可以陪家人吃鐵板燒 相關文件看筆記: 學習筆記 - 在家黑客松 <https://hackmd.io/@Hqy9p1_8RVS1JskGli0bBQ/HyvUiutS8> 哈爸

💯 7
fsh1425 08:37:11
@fsh1425 has joined the channel
wuulong 15:57:47
試著加入 producer 名稱
image.png
wuulong 16:01:21
看了一下三月份的資料,終於了解昨天提到雪花新聞的意思
image.png
wuulong 16:03:08
想請問每天跑出來的資料跟欄位中 [‘published_at’, ‘first_seen_at’, ‘last_updated_at’] 有啥關係? 還是沒有關聯性,那天跑的就在那天的資料中

2020-03-16

wenyi 03:58:51
@wuulong, `published_at` 是新聞/文章發布的時間,從網頁中parsed出來的; `first_seen_at` 是我們的爬蟲第一次爬到這篇網頁的時間; 每一篇網頁我們都會revisit,`last_updated_at` 是最後一次visit的時間
bruce 20:09:15
想問有人在線上嗎
wenyi 20:09:22
@chihao @pm5 開會~~~
pm5 20:09:26
我在線上耶?
chihao 20:09:34
來了!
wenyi 20:09:48
只看到我跟bruce耶
😅 1 🙇‍♂️ 1

2020-03-17

chihao 00:17:08
心血來潮把 0archive google drive 的檔案組織方法寫成 hackmd 了 😛 https://g0v.hackmd.io/SSLq2Ga2QMyDXI3J-D2Ccg

g0v.hackmd.io

開放協作 Google Drive 設定方法 - HackMD

👍 5 1
wuulong 07:48:06
呵呵,所以是有定期開會?
wuulong 11:04:15
```2020/01 key words = ['焦點', '前線', '快訊', '要聞', '', '台北', '地方', '', 'ETtoday', '關鍵', '', '台灣', '黑鷹', '時尚', '韓國瑜', '宣布', '民眾', '大選', '黑特', '市場', '台南', 'NBA', '鼠年', '中國', '問卦', 'TaroNews', '桃園', '蘋果', '立委', '資訊', '5G', '科技', '產經', '直升', '美國', '綜合', '出爐', '口罩', '投票', '大陸', '選舉', '', '伊朗', '', '電子', '', '選前', '', '旺報', '閱讀', '高雄', '中職', '旅遊', '疫情', '失事', '運動', '新年', '過年', '連任', '柯文哲', '肺炎', '股市', '數位', '各黨', '湖人', '國民黨', '消費', '檢討', '討論', '兩岸', '流行', '日本', '大台北', '體育', '萬象', '新北', '', '', '產業', '武漢', '防疫', '', '反滲', '', '我們', '', 'Re', '']
2020/02 key words = ['焦點', '湖北', 'WHO', '要聞', '快訊', '', '病例', '包機', '', 'ETtoday', '社區', '陸委會', '衝擊', '醫院', '聞網', '台灣', '時尚', '外交部', '新增', '返台', '韓國瑜', '出現', '民眾', '宣布', '黑特', 'NBA', '患者', '台商', '中國', '爆卦', '問卦', 'TaroNews', '首例', '鑽石', '資訊', '新冠', '美國', '居家', 'SETN', '口罩', '影響', '大陸', '', '檢疫', '', '病毒', '電子', '現在', '', '', '旺報', '還是', '旅遊', '疫情', '隔離', '運動', '入境', '確診', '是不是', '柯文哲', '肺炎', '政府', '', '抗疫', '國民黨', '武汉', 'COM', '感染', '确诊', '討論', '如何', '情人', '兩岸', '日本', '北市', '公主', '指揮', '', '死亡', '', '武漢', '防控', '防疫', '', '', '我們', '', 'Re', '']
2020/03 key words = ['湖北', '快訊', '', '病例', '', 'ETtoday', '社區', '', '醫院', '聞網', '台灣', '星座', '南韓', '新增', '返台', '出院', '為何', '出現', 'NBA', '患者', '原創', '中國', '韓國', '爆卦', '問卦', 'TaroNews', '首例', '新冠', '美國', '助力', 'SETN', '口罩', '影響', '企業', '', '伊朗', '', '病毒', '電子', '', '累計', '', '利物浦', '還是', '', '旅遊', '疫情', '隔離', '孩子', '確診', '柯文哲', '肺炎', '新天地', '女人', '湖人', '抗疫', '武汉', '', '', 'COM', '第一', '感染', '這些', '确诊', '原创', '討論', '如何', '日本', '北市', '复工', '公主', '', '手機', '英超', '复产', '例新冠', '', '死亡', '武漢', '防控', '防疫', '', '', '我們', '', 'Re', '']```
wuulong 11:05:01
玩了一下,jieba 斷詞與關鍵字。範例 code 有更新共筆
👍 1
wuulong 11:06:01
看來關鍵字要弄得好,功夫還很深。隨便探探而已
kiang 11:13:38
也可以試試 https://github.com/ckiplab/ckiptagger/

GitHub

ckiplab/ckiptagger

CKIP Neural Chinese Word Segmentation, POS Tagging, and NER - ckiplab/ckiptagger

wuulong 11:15:12
好的,謝了
gugod 11:28:41
https://github.com/ckiplab/ckiptagger/wiki/POS-Tags

這個裡面的詞性分很細。需要了解一下...

GitHub

ckiplab/ckiptagger

CKIP Neural Chinese Word Segmentation, POS Tagging, and NER - ckiplab/ckiptagger

gugod 11:30:08
而且沒有「主詞」這種資訊度超高的標註... 看來找主詞很困難
kiang 11:30:33
我之前只有拿來抓文章裡面的金額,抓人名準確度就低很多了
wuulong 12:54:15
理解
wuulong 12:54:51
我目前只是發想一下,在這裡的用途跟可能性。真的要用時,得花一些功夫了

2020-03-18

pm5 13:46:43
之前 `ns discover` 與 `ns update` 會沒有徵兆停止的問題,這禮拜又都沒有發生了。奇怪。
chihao 18:16:10
吉日?

2020-03-19

Han 01:45:34
@525hanlee has joined the channel
ael 10:42:05
https://teamt5.org/newsroom/blog/2020/03/18/teamt5-information-operation-white-paper-observations-on-2020-taiwanese-general-elections.html

teamt5.org

TeamT5 - Persistent Cyber Threat Hunters

TeamT5 is a group of hackers dedicated on cyber threat research. The team started with their outstanding research and has been delivering their cyber threat intelligence (CTI) for more than 5 years.

bafu 23:48:00
@bafu has joined the channel

2020-03-20

Tammy 00:43:22
@tammy079 has joined the channel

2020-03-21

kiang 14:16:23
所以威尼斯看不到魚
https://www.nationalgeographic.com/animals/2020/03/coronavirus-pandemic-fake-animal-viral-social-media-posts/

Animals

Fake animal news abounds on social media as coronavirus upends life

Bogus stories of wild animals flourishing in quarantined cities gives false hope—and viral fame.

2020-03-22

a-chioh 20:51:55
hi
a-chioh 20:52:10
你們明天開會嗎?
幾點?可以來旁聽嗎?
台北時間 8pm

2020-03-23

nondayo 00:35:34
@nondayo has joined the channel
wenyi 03:13:17
update停了很多天了耶!(從3/19就沒有update了) 有人知道為什麼嗎?middle2的cronjob沒有disable哇
pm5 08:18:34
我看一下
chihao 20:05:21
@ayw255 @pm5 @fockerlee 在線上嗎?
wenyi 20:05:32
我在線上誒
wenyi 20:05:37
但我只有看到我一個人
chihao 20:05:54
欸?是用哪個連結呢
chihao 21:56:00
@ayw255 需要幫忙開 hackmd 嗎?
這樣是ok的嘛@@ 還是要開在@chihao 下面
okok 當然不用開在 `@chihao` 下面 XDD
xdd 好!
btw 你可以去設定你 hackmd account handle 哦 🙂
喔!怎麼設定啊
account profile 之類的?
找不到XD 再慢慢研究好了
chihao 22:09:31
@ayw255 Linode 開 Ubuntu 好嗎?
wenyi 22:09:40
ok~~
chihao 22:10:15
想要哪一版?
chihao 22:11:26
18.04 LTS
wenyi 22:13:07
好呀
mrorz 22:15:36
(然後下個月出 20.04)
😡 1

2020-03-25

wenyi 05:12:36
突然發現ptt的文章url裡面藏有發文時間 in unix timestamp
https://www.ptt.cc/bbs/Gossiping/M.1585073281.A.4D7.html -> 1585073281 -> 2020/3/25 2:08 TW time
說的也是 XD 古老 Maple 系統的存檔邏輯
3
wenyi 06:02:12
appledaily的登入 spider 已經開好了(PR#95),目前login url是寫死在runner的script裡,我在思考要不要加進Airtable的site config,但現在只有appledaily要登入的話,感覺為了他要修好多東西 (包括updateSites spider),不知道大家有沒有想法?

GitHub

create new spiders for appledaily by andrea-w-wang · Pull Request #95 · disinfoRG/ZeroScraper

wenyi 06:05:16
還有一個在我們的list上面要登入的網站是端傳媒,但我從network看不太出來要怎麼複製他的 login request,沒有看到login credential藏在哪個form data裡面,seeking help!

theinitium.com

端傳媒 Initium Media

端傳媒是一家總部位於香港的新聞機構。我們以原創調查報導和數據新聞為特色,致力於以新聞專業的立場,深度解析大中華地區及國際事務,為全球華人提供中立自由的專業新聞。

開個 issue 先?
pm5 13:26:13
@chihao @ayw255 data loss 我昨天跑了一下資料 https://github.com/disinfoRG/ZeroScraper/issues/94

GitHub

recover from data loss · Issue #94 · disinfoRG/ZeroScraper

The main reasons that we want to recover article snapshot data are: Some snapshots are not parsed yet before the data loss incident. Some snapshots are parsed before the incident and were saved in ...

因為幾個 qiqi 都關站了,要重跑它們的 raw data 的話還是要用備份下來的資料,所以我今天想把 backup db 裡的 `ArticleSnapshot` table 複製到 production db 的 `ArticleSnapshot202002` table
這樣等於是如果我們有做 snapshot table rotate 在 2/21 進行一次 rotate 的情況。2/21-28 的 data loss 還沒有處理到。之後我們可以把 `ArticleSnapshot202002` 這個 table 整個檔案備份下來再砍掉
🤔 也可以叫 `ArticleSnapshot1582851815` 用 `MAX(snapshot_at)` 命名
太晚回覆,不過支持用好理解的方式來命名,最多就是多一個 internal document 來紀錄每個 ArticleSnapshot table 是哪來的
之前討論好像是要用article_ID切換table,這樣命名是否跟article_id 相關會比較好?現在production db 最小的article_id是43370,backup db 可以叫ArticleSnapshot43369?
article_id 會有一些分佈比較難掌握。backup db 最大的 article_id 是 1241575,就大於 43370。另外只要 table rotate 之後我們再用 cli 抓一個 snapshot,就有可能在新的 production snapshot table 裡增加一筆 article_id 更小的資料
摁…想問一下我們現在討論的是table rotate的實作還是只是針對backup db的暫時處理?
我是想說如果table rotate的實作是針對snapshot_at來分table,同一篇article可能會有snapshot分佈在不同的snapshot table中,同時在article table中沒有紀錄同一個article每一個snapshot的時間,日後會很難找到snapshots。但如果是用article_id的話在insert的時候就可以決定要insert到哪個table,日後找也方便
可是這樣舊的 ArticleSnapshot table 也都要留下來,讓將來需要重抓某些舊的 article 的 snapshot 的時候可以用?
如果 backup db 可以當成 table rotate 的情況處理,那就一起處理。如果不行,那就不一起處理(好像廢話)。
用 snapshot_at 來 rotate table 的話,之後找 snapshot 就是要從 first_snapshot_at 到 last_snapshot_at 中間的 snapshot table 都要找
🤔 有道理,被說服了XDD
😂 table rotate 應該會用 partitioning 來做,有點複雜,我先寫到技術文件裡好了
tyl 23:10:07
@taiyinglee has joined the channel

2020-03-26

pm5 11:30:04
寫了一下舊 snapshot 移除的作法 https://g0v.hackmd.io/@chihao/0archive/%2FlMQO37z6SbWNWo3R4-X_EA

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [行事曆 Calendar](<https://docs>.

chihao 12:30:26
在開全文資料集 google drive 資料夾的時候想到:Site 的名字好像應該加上英文
chihao 12:31:31
看了一下 Airtable 現在所有列出來的 Site,覺得還是算了 😆
chihao 12:34:53
目前資料夾名稱的 pattern 是 `[site_id] - [name]`
chihao 12:45:53
@ayw255 ptt 2019/11/11 前的文章正在處理嗎?
對~正在抓
從2019/11/11開始,現在備份到2019/10/22

2020-03-28

chihao 14:03:22
這篇文章建議 macOS user 用 homebrew 安裝 pyenv,再用 pyenv 來管理 python 版本,忽略系統的 default python。不知道這裡的 python 大大們覺得如何? https://opensource.com/article/19/5/python-3-default-mac (2019/5/1 寫的應該還算新?)

Opensource.com

The right and wrong way to set Python 3 as default on a Mac

There are several ways to get started with Python 3 on MacOS, but one way is better than the others.

請教這裡的 python 大大們

2020-03-29

pm5 17:44:27
以前是琦琦看新聞的這個站又活過來了 https://www.qiqi.world/

qiqi.world

大马新闻

大马新闻,分享马来西亚新闻,美食,政治,娱乐,好康资讯。

👻 1
pm5 17:44:39
我們好像一直沒有抓這個站
chihao 18:05:10
今天加了很多 YouTube 頻道
pm5 19:00:57
又一新站 https://allqiqi.com/

allqiqi.com

琦琦看新聞

琦琦根本殭屍大軍欸
chihao 21:45:23
我寫了第一版本的 `YtScraper`
🚀 2
chihao 22:10:07
目前的組合是超級奇怪的 `node.js` & `Google Cloud SQL` & `launchd` 😆

2020-03-30

chihao 16:15:29
然後 `launchd` 真是摸不透啊⋯