disinfo

Month: 2020-05

2020-05-03

gugod 18:40:53
沒有什麼意外的話… 我應該也可以參與。(早上下午都可以)

2020-05-04

chihao 22:07:02
@pm5 @ayw255 disconnected...
wenyi 22:07:25
switch to google meet?
chihao 22:14:48
\o/
chihao 22:17:40
@a-chioh @gugod @tkirby @nondayo 0archive team 想揪個松前哈拉(?),先來哈拉一下看看資料,想 5/13(三)or 5/15(五)選一天晚上 8pm,要來嗎?prefer 那一天呢?:smile: 其他有興趣的人也很歡迎加入哦 :slightly_smiling_face:
nondayo 21:41:09
我兩個時段都可以喔!
chihao 20:46:04
@nondayo 好 \o/ 我再問一個人,然後就可以決定是週三 or 週五 stay tuned \o/
chihao 21:30:54
@nondayo 週三晚上 ok 嗎?
nondayo 21:35:31
OK

2020-05-06

allenlinli 11:45:27
@allenlinli has left the channel

2020-05-09

pm5 11:56:07
chromedriver 在 middle2 上還是會有 zombie process 的問題。也許接下來可以移到 browserless https://hub.docker.com/r/browserless/chrome/ 改用 selenium remote driver https://docs.browserless.io/docs/python.html (不再用 m2-script 安裝 chromedriver 了)

docs.browserless.io

Python (Selenium) · browserless docs

You can use your existing python infrastructure today with browserless by using the selenium webdriver library.

2020-05-11

pm5 22:38:44
XD
chihao 22:43:31
5/13(三)8pm 松前哈拉共筆 https://g0v.hackmd.io/@chihao/0archive/%2FgaWYtBecSeWB2RMg4OJg9A 大家請自由編輯 \o/ @nondayo @pm5 @ayw255

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [行事曆 Calendar](<https://docs>.

chihao 22:44:07
再加 tag @ronnywang 好了 XD

2020-05-12

pm5 17:22:50
試了一些 google drive download 工具,看來 google 現在對 app 使用 oauth2 的管理比較嚴,幾個 open source 的工具都沒有通過審核
pm5 17:24:38
這樣使用者就需要自己開 oauth or service account credential 才能用這些工具。我們自己寫的話,可能也差不多這個情況
pm5 17:28:48
但我發現目前的公開資料集,整理選起來下載,也才 700 多 MB,好像可接受
chihao 18:33:32
原來如此
chihao 18:34:09
「必須等待雲端壓縮」這件事覺得是不會造成太大困擾的嗎?
pm5 19:03:09
時好時壞 :joy:
chihao 19:27:00
XDD black box... AI!
chihao 18:34:31
目前的公開資料集是 4 月的?
pm5 19:03:33
3 月以前的資料還在跑,因為中間格式改了不少

2020-05-13

chihao 10:46:22
跑跑跑
chihao 10:54:58
:sparkles: 今天晚上 8pm 是第貳次不實資訊松的松前哈拉,0archive 會跟大家介紹目前的公開資料集,歡迎大家一起來聊聊,看看 0archive 目前完成什麼,還缺什麼,想用 0archive 做什麼 :slightly_smiling_face: 共筆 :point_right: https://g0v.hackmd.io/@chihao/0archive/%2FgaWYtBecSeWB2RMg4OJg9A|松前哈拉

:sparkles: 這週六就是第貳次不實資訊松啦,一樣線上參與,預計 1030 開始,中間午餐,邊吃邊 hack 到 1700 要來的人喊聲嘿 \o/ 共筆 :point_right: https://g0v.hackmd.io/@chihao/0archive/%2FJceq1PgbQ9SEH5V_nwnoxA|第貳次不實資訊松
chihao 22:14:04
@nondayo Ptt 政黑版 2020/1-2020/5 一個月一個 json https://drive.google.com/drive/folders/1TBN0YT8o4xOi8iOHvhwx9HhzF8uaqXjr|在這 :slightly_smiling_face:

2020-05-14

pm5 11:04:15
確實生一個小資料集看起來會比較不嚇人(看著政黑板從 2006 年開始的 archive)
chihao 18:36:53
小資料集感覺可愛
chihao 18:37:15
我把 0archive 列入下週大松的提案囉 :slightly_smiling_face:

2020-05-15

wenyi 04:31:54
在整理資料的時候發現現在的jsonl中有duplicate id & version的情況,例如八卦版的2020-04-30.jsonl中這篇文章的有兩個json但是內容完全一樣啊(汗)
Screen Shot 2020-05-14 at 4.30.53 PM.png
wenyi 07:51:20
開了一個 https://drive.google.com/drive/folders/1zUqfFE9I_WPd9rK453iPUut4J-oH5j3y|公開資料集-json 把每個月的文章變成 json,目前有2019-12 ~ 2020-05,@chihao 之前做的ptt 政黑版也放進來了。這個json有deduplicate by id,如果原本文章有不同版本,只留最大version的。另外開了一個md https://g0v.hackmd.io/MuBbS3NkSXa7pNTFdX4MKw#%E5%85%AC%E9%96%8B%E8%B3%87%E6%96%99%E9%9B%860|公開資料集檢索 統整一下目前資料集狀態,如果之後有google drive有上傳新的形式 (e.g. csv) 也一起放進來好了,希望可以幫助降低參與門檻
chihao 11:16:20
@ayw255 ++ 關於檢索的 md,目前有https://docs.google.com/document/d/1Yy-TkMkUu967tcgbdLO0eX7wG2WeJYn_fhtrBv6x6kg/edit|這份文件也是公開資料的說明,要不要想個方法併在一起?
wenyi 11:23:04
有喔!目前有把說明貼過去,data standard也有在檢索裡面,剩下的部分還沒整理, 如果有想加什麼可以直接加~這份檢索的連結目前先貼在第貳次不實訊息松的共筆中
chihao 12:04:47
那會覺得要用 hackmd 取代 google doc 嗎?各自的用途是?
chihao 11:17:29
明天的不實資訊松,要不要來跟 jothon 的https://g0v.hackmd.io/kmcWmTbeQ-OZSiZouuFZcw|南庄桐花松併松呢?XD 感覺至少可以一起自我介紹、一起提案?@pm5 @ayw255
wenyi 11:23:38
聽起來不錯
pm5 11:32:03
++
chihao 12:20:21
我修改了明天小松的共筆,目前覺得
1. 時間同步
2. 一起參與南庄桐花松的新手教學、自我介紹、提案、成果發表
3. 在農業相關提案後追加不實資訊相關提案
4. 好像可以跟南庄桐花松使用同一個線上聊天室,但我也在小松共筆裡保留了 google meet 連結備用
chihao 12:26:47
也在https://g0v.hackmd.io/kmcWmTbeQ-OZSiZouuFZcw?both|這裡加入了 `不實訊息相關提案` 一區,把 0archive 資料分析寫進去了

g0v.hackmd.io

南庄桐花松 - HackMD

jojomango 12:47:39
@jojomango has joined the channel
Trie 15:34:04
@trie55432 has joined the channel

2020-05-16

Yenting 20:07:28
@yenting.chang has joined the channel

2020-05-18

pofeng (ocf) 10:34:10
@pofeng240 has joined the channel
lisa 22:01:15
@lisasu0816 has joined the channel

2020-05-19

pm5 12:23:14
之前偷懶全部用 [dateparser](https://pypi.org/project/dateparser/) 處理日期,今天跑了一下 profile 發現它有點慢。改成先 try `datetime.fromisoformat`,把 dateparser 當成 fall back,大概測一下 parsing 速度可以 x4

PyPI

dateparser

Date parsing library designed to parse dates from HTML pages

2020-05-20

wenyi 00:10:30
發現有同一篇article出現兩個不一樣publication_id的情形:thinking_face:,例如
```942cd941-8254-11ea-8627-f23c92e71bad
942ce3cd-8254-11ea-8627-f23c92e71bad```
同樣都是中時的這一篇文章
```https://www.chinatimes.com/realtimenews/20200307001125-260408```
pm5 00:21:29
:thinking_face: mapping 裡沒有 942ce3cd-8254-11ea-8627-f23c92e71bad 這個 id 但 publication 裡有。明天來查一下這個問題
annc 21:52:43
@annhhchen has joined the channel

2020-05-21

Feng 12:42:29
@samtsai15 has joined the channel

2020-05-22

chihao 16:34:26
還是要乖乖做文獻回顧?
chihao 16:34:28
:stuck_out_tongue:
chihao 16:36:15
另外,這個對照表好有趣

文總有<http://data.chinese-linguipedia.org/content/application/datapedia/metadata/guest-cntgrp-browse.php?vars=7f8ee7ff939cad426ba349a01baca2558c7994fa695901a9abb224200a9512605f7d78d17888a05bdef52f317be69f4d5c773e3f713367a5665ee1aa724e1f5e|兩岸用語差異的開放資料>耶,用政府資料開放平臺資料使用規範釋出。 好像可以用在最近 Google Translate 被發現的事情上 (?)

2020-05-23

Ben 01:46:22
@benwlynch has joined the channel
Phoebe 菲比 10:41:54
@phoebe has joined the channel
lulucheng 11:41:29
@yilu1113 has joined the channel
pm5 11:57:10
有人對資料視覺化有興趣嗎?做了一個 PTT 來源 IP 分析,資料跑出來了但缺少視覺化 https://g0v.hackmd.io/yMcLa2oxSJyCGLegxTzbfQ|https://g0v.hackmd.io/yMcLa2oxSJyCGLegxTzbfQ
pm5 11:59:00
是仿照 i'analyseur 抓分身帳號的功能,用新的資料做的 https://www.ianalyseur.org/user/nawabonga/|https://www.ianalyseur.org/user/nawabonga/
lulucheng 11:59:55
:woman-raising-hand::skin-tone-2:有興趣
lulucheng 12:00:03
但不會coding是可以的嗎
lulucheng 12:00:25
可以做UI
chihao 12:04:42
哈囉哈囉 @yilu1113
sean076 12:04:58
@sean076 has joined the channel
chihao 12:05:05
不過我們目前好像還沒想到 UI 可以做什麼,要幫忙改網站嗎?XD https://0archive.tw
lulucheng 12:06:26
XDD 好哇
chihao 12:06:39
:raised_hands:
chihao 12:07:01
目前真的是有點 sad 就是一個按鈕哈哈哈
chihao 12:07:15
我們一直想把一些重要連結直接放到首頁上
chihao 12:07:51
不過目前都是用這個 https://g0v.hackmd.io/@chihao/0archive 來擋著用

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [行事曆 Calendar](<https://docs>.

chihao 12:08:02
這個介面可能有點難懂?你覺得呢 XD
lulucheng 12:10:08
可以來討論一下首頁想放什麼
lulucheng 12:10:51
網站是用什麼架的呀~
chihao 12:11:00
GitHub Pages
chihao 12:11:05
目前是靜態頁面
lulucheng 12:14:36
好多問題想發問,打字溝通有點模糊,方便語音討論嗎XD
chihao 12:17:12
要不要先開共筆? XD
chihao 12:17:24
這樣可以整理一下想討論的事情
lulucheng 12:17:36
好的
chihao 12:18:05
我們通常都用 hackmd
a-chioh 12:18:56
嗨!
lulucheng 12:19:16
開一個新的頁面for網站ui嗎?
chihao 12:19:18
@a-chioh :wave:
chihao 12:19:32
@yilu1113 對啊,你覺得如何?
lulucheng 12:19:42
第一次參加不太清楚細節QQ
lulucheng 12:19:45
好的
chihao 12:19:48
哦哦哦
chihao 12:20:01
初次跳坑嗎 XD 你好你好
a-chioh 12:20:13
:)加油!
chihao 12:20:34
你會先需要一個帳號
chihao 12:21:05
也可以用現有的社交媒體帳號登入
chihao 12:21:17
然後就可以開新的共筆了
lulucheng 12:22:35
了解
lulucheng 12:23:00
如何開在disinfo底下?
lulucheng 12:23:26
新開一個,共享給你就好(?
chihao 12:23:31
hackmd 可以加 tag 分類
chihao 12:23:46
所有新開的共筆都是預設大家可以編輯
chihao 12:24:15
可以把連結貼在這
chihao 12:24:33
或者你就開始編輯,我也會在 hackmd 首頁上看到
chihao 12:24:49
會不會有點複雜?XD
lulucheng 12:24:50
了解 感謝><
chihao 12:24:59
no mind no mind
chihao 12:25:38
我看到你開的共筆啦 XDD
lulucheng 13:17:51
我把目前想到的問題列出來哩~
chihao 13:58:46
喔耶 \o/
lulucheng 14:01:37
感覺官網應該目的是向大眾宣傳正在做的事?會寫程式的人,做一個加入行列的CTA直接導向到 HackMD? 工程師可能看得比較習慣(?
lulucheng 14:02:30
有什麼重要連結或資訊是想露出的?
chihao 14:03:11
CTA = call to action 嗎
lulucheng 14:03:26
對低
lulucheng 14:03:50
可能一個按鈕或幾句號招的話(?
lulucheng 14:18:52
@chihao 請問有哪些連結是想放在網站的~?
lulucheng 15:07:36
大概規劃了一下,不知道這樣需要的資訊有沒有正確?
chihao 15:37:34
@yilu1113 太酷了 \o/ 好厲害 XDD
chihao 15:37:43
sorry 我剛剛被拉進另一個討論
chihao 15:39:00
而且你有看到我們之前的 fb po 文太感動了 QQ
chihao 15:40:41
這樣看起來,「研究要資料」、「資料須開源」、「開源真有力」會各有一張圖嗎?XDD
lulucheng 15:41:10
對的,想說可以做個icon
chihao 15:41:19
帥 \o/
chihao 15:41:49
目前這個坑只有 logo 一張圖,蠻孤單的
lulucheng 15:42:06
XD
chihao 15:42:10
也是我稍微想了一下就先畫了,因為實際的需求 XDD
lulucheng 15:42:59
太強惹 怎麼現在好多工程師都會畫畫XD
lulucheng 15:45:30
有什麼資訊要討論或修改的嗎~
chihao 15:50:54
不會不會,大家都來跳坑拜託 XDD
chihao 15:52:24
想分享一下 -「資料須開源、開源真有力」這個 slogan 是從蔣渭水的「同胞須團結、團結真有力」
chihao 15:52:56
也許可以對 icon 設計有幫助? :stuck_out_tongue:
lulucheng 15:53:18
哈哈原來,來想一下
chihao 15:53:33
我喜歡每個數據下面有一個按鈕的設計!
chihao 15:54:33
怒吼那個甜甜圈圖,其實是 1 of 2 use cases
chihao 15:55:06
然後參與者那個,其實我們辦蠻多活動的,不過後來都線上,然後因為門檻有點高,所以都沒什麼人 XDD
lulucheng 15:55:53
有那個甜甜圈的製作原檔案嗎?還有另一個case的資訊
chihao 15:56:00
figma 好用嗎?現在他支援同時編輯了嗎?
lulucheng 15:56:34
覺得比sketch方便,可以線上共同編輯和管理版本
lulucheng 15:57:01
也可以直接看到前端要的資訊
lulucheng 16:00:27
簡報剛剛寄了一個編輯權限的請求,裡面的圖檔案文字是可以複製的嗎?
chihao 16:08:50
我權限設定錯了,應該是大家都可以編輯才對,現在應該可以囉
chihao 16:09:00
複製沒問題
lulucheng 16:09:04
ok thanks
chihao 16:09:12
專案創意產出都是 cc by
chihao 16:09:37
這個也要問你,你的設計稿等等願不願意開源釋出?:slightly_smiling_face:
lulucheng 16:11:28
可以呀 釋出figma檔案嗎?
chihao 16:19:01
是啊,應該就是在共筆裡加上檔案連結、授權條款這樣
lulucheng 16:20:49
第一次參與QQ 檔案通常都會放哪?授權條款有範例嗎
chihao 16:47:44
啊,我想想哦,Google Drive 你有在用嗎?如果需要協助的話也可以把檔案給我我來傳 :slightly_smiling_face:
chihao 16:47:54
授權條款推薦 CC BY 4.0
lulucheng 16:50:50
好的感謝~ 等等做一段落傳上去
lulucheng 17:54:08
20200523
lulucheng 17:56:40
想發問:沒完成的部分是隨時有空繼續弄嗎(? 通常大家是怎麼做
chihao 18:12:11
++ \o/
chihao 18:12:38
對啊
chihao 18:12:57
就大家有空繼續做
chihao 18:13:46
也可以隔一陣子揪個小松,方便 cowork
Han 22:14:48
嗨~有興趣可以加入嗎?會一些前端
lulucheng 00:14:17
歡迎歡迎:boogie-penguin:
chihao 12:36:15
via @shunling https://www.centerforsecuritypolicy.org/wuhan-virus/

Center for Security Policy

Wuhan Virus - Center for Security Policy

China’s propaganda pandemic in an expanding timeline, November 2019-April 2020 Click here for Part Two of the timeline starting May 2020 Latest update: May 11, 2020, 23:43 Washington DC time. Click HERE to support the Center for Security Policy’s vital work to keep our nation safe.   All official Chinese government propaganda is the official voice of the …

shunling 12:36:23
@shunling has joined the channel
Feng 13:44:36
HIHI 這邊是`後端`+`維運`
不太清楚目前可以怎麼幫專案推動~
chihao 13:52:19
@samtsai15 嗨嗨!這個坑有資料庫、有工作排程、爬蟲、parser 應該有很多可以做的事 XD
Feng 13:56:11
對,因為我自己看了一下蠻多可以做的
反而不知道可以往哪邊塞~
chihao 13:57:30
讓我也來 tag @pm5 XDD
chihao 13:58:14
目前 0archive 大部分的後端都在 g0v 社群的雲端服務 middle2 上面