disinfo

Month: 2020-05

2020-05-03

gugod 18:40:53
沒有什麼意外的話… 我應該也可以參與。(早上下午都可以)

2020-05-04

chihao 22:07:02
@pm5 @ayw255 disconnected...
wenyi 22:07:25
switch to google meet?
chihao 22:14:48
\o/
chihao 22:17:40
@a-chioh @gugod @tkirby @nondayo 0archive team 想揪個松前哈拉(?),先來哈拉一下看看資料,想 5/13(三)or 5/15(五)選一天晚上 8pm,要來嗎?prefer 那一天呢?😄 其他有興趣的人也很歡迎加入哦 🙂
我兩個時段都可以喔!
@nondayo 好 \o/ 我再問一個人,然後就可以決定是週三 or 週五 stay tuned \o/
@nondayo 週三晚上 ok 嗎?
OK

2020-05-06

allenlinli 11:45:27
@allenlinli has left the channel

2020-05-09

pm5 11:56:07
chromedriver 在 middle2 上還是會有 zombie process 的問題。也許接下來可以移到 browserless https://hub.docker.com/r/browserless/chrome/ 改用 selenium remote driver https://docs.browserless.io/docs/python.html (不再用 m2-script 安裝 chromedriver 了)

docs.browserless.io

Python (Selenium) · browserless docs

You can use your existing python infrastructure today with browserless by using the selenium webdriver library.

👍 1

2020-05-11

pm5 22:38:44
XD
chihao 22:43:31
5/13(三)8pm 松前哈拉共筆 https://g0v.hackmd.io/@chihao/0archive/%2FgaWYtBecSeWB2RMg4OJg9A 大家請自由編輯 \o/ @nondayo @pm5 @ayw255

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [行事曆 Calendar](<https://docs>.

再加 tag @ronnywang 好了 XD

2020-05-12

pm5 17:22:50
試了一些 google drive download 工具,看來 google 現在對 app 使用 oauth2 的管理比較嚴,幾個 open source 的工具都沒有通過審核
pm5 17:24:38
這樣使用者就需要自己開 oauth or service account credential 才能用這些工具。我們自己寫的話,可能也差不多這個情況
pm5 17:28:48
但我發現目前的公開資料集,整理選起來下載,也才 700 多 MB,好像可接受
chihao 18:33:32
原來如此
chihao 18:34:09
「必須等待雲端壓縮」這件事覺得是不會造成太大困擾的嗎?
時好時壞 😂
XDD black box... AI!
chihao 18:34:31
目前的公開資料集是 4 月的?
pm5 19:03:33
3 月以前的資料還在跑,因為中間格式改了不少
🙌 1

2020-05-13

chihao 10:46:22
跑跑跑
chihao 10:54:58
✨ 今天晚上 8pm 是第貳次不實資訊松的松前哈拉,0archive 會跟大家介紹目前的公開資料集,歡迎大家一起來聊聊,看看 0archive 目前完成什麼,還缺什麼,想用 0archive 做什麼 🙂 共筆 👉 松前哈拉

:sparkles: 這週六就是第貳次不實資訊松啦,一樣線上參與,預計 1030 開始,中間午餐,邊吃邊 hack 到 1700 要來的人喊聲嘿 \o/ 共筆 :point_right: 第貳次不實資訊松
🚀 3
chihao 22:14:04
@nondayo Ptt 政黑版 2020/1-2020/5 一個月一個 json 在這 :slightly_smiling_face:
2 2

2020-05-14

pm5 11:04:15
確實生一個小資料集看起來會比較不嚇人(看著政黑板從 2006 年開始的 archive)
1
chihao 18:36:53
小資料集感覺可愛
chihao 18:37:15
我把 0archive 列入下週大松的提案囉 🙂

2020-05-15

wenyi 04:31:54
在整理資料的時候發現現在的jsonl中有duplicate id & version的情況,例如八卦版的2020-04-30.jsonl中這篇文章的有兩個json但是內容完全一樣啊(汗)
Screen Shot 2020-05-14 at 4.30.53 PM.png
😅 2
wenyi 07:51:20
開了一個 公開資料集-json 把每個月的文章變成 json,目前有2019-12 ~ 2020-05,@chihao 之前做的ptt 政黑版也放進來了。這個json有deduplicate by id,如果原本文章有不同版本,只留最大version的。另外開了一個md 公開資料集檢索 統整一下目前資料集狀態,如果之後有google drive有上傳新的形式 (e.g. csv) 也一起放進來好了,希望可以幫助降低參與門檻
chihao 11:16:20
@ayw255 ++ 關於檢索的 md,目前有這份文件也是公開資料的說明,要不要想個方法併在一起?
有喔!目前有把說明貼過去,data standard也有在檢索裡面,剩下的部分還沒整理, 如果有想加什麼可以直接加~這份檢索的連結目前先貼在第貳次不實訊息松的共筆中
那會覺得要用 hackmd 取代 google doc 嗎?各自的用途是?
chihao 11:17:29
明天的不實資訊松,要不要來跟 jothon 的南庄桐花松併松呢?XD 感覺至少可以一起自我介紹、一起提案?@pm5 @ayw255
聽起來不錯
1
chihao 12:20:21
我修改了明天小松的共筆,目前覺得
1. 時間同步
2. 一起參與南庄桐花松的新手教學、自我介紹、提案、成果發表
3. 在農業相關提案後追加不實資訊相關提案
4. 好像可以跟南庄桐花松使用同一個線上聊天室,但我也在小松共筆裡保留了 google meet 連結備用
chihao 12:26:47
也在這裡加入了 `不實訊息相關提案` 一區,把 0archive 資料分析寫進去了

g0v.hackmd.io

南庄桐花松 - HackMD

jojomango 12:47:39
@jojomango has joined the channel
Trie 15:34:04
@trie55432 has joined the channel

2020-05-16

Yenting 20:07:28
@yenting.chang has joined the channel

2020-05-18

pofeng (ocf) 10:34:10
@pofeng240 has joined the channel
lisa 22:01:15
@lisasu0816 has joined the channel

2020-05-19

pm5 12:23:14
之前偷懶全部用 [dateparser](https://pypi.org/project/dateparser/) 處理日期,今天跑了一下 profile 發現它有點慢。改成先 try `datetime.fromisoformat`,把 dateparser 當成 fall back,大概測一下 parsing 速度可以 x4

PyPI

dateparser

Date parsing library designed to parse dates from HTML pages

😮 1

2020-05-20

wenyi 00:10:30
發現有同一篇article出現兩個不一樣publication_id的情形🤔,例如
```942cd941-8254-11ea-8627-f23c92e71bad
942ce3cd-8254-11ea-8627-f23c92e71bad```
同樣都是中時的這一篇文章
```https://www.chinatimes.com/realtimenews/20200307001125-260408```
🤔 mapping 裡沒有 942ce3cd-8254-11ea-8627-f23c92e71bad 這個 id 但 publication 裡有。明天來查一下這個問題
annc 21:52:43
@annhhchen has joined the channel

2020-05-21

Feng 12:42:29
@samtsai15 has joined the channel

2020-05-22

chihao 16:34:26
還是要乖乖做文獻回顧?
chihao 16:34:28
😛
chihao 16:36:15
另外,這個對照表好有趣

文總有<http://data.chinese-linguipedia.org/content/application/datapedia/metadata/guest-cntgrp-browse.php?vars=7f8ee7ff939cad426ba349a01baca2558c7994fa695901a9abb224200a9512605f7d78d17888a05bdef52f317be69f4d5c773e3f713367a5665ee1aa724e1f5e|兩岸用語差異的開放資料>耶,用政府資料開放平臺資料使用規範釋出。 好像可以用在最近 Google Translate 被發現的事情上 (?)

2020-05-23

Ben 01:46:22
@benwlynch has joined the channel
Phoebe 菲比 10:41:54
@phoebe has joined the channel
lulucheng 11:41:29
@yilu1113 has joined the channel
pm5 11:49:42
想玩玩看資料的話,有一份資料分析教學 https://g0v.hackmd.io/yMcLa2oxSJyCGLegxTzbfQ

g0v.hackmd.io

0archive 資料分析教學 - HackMD

pm5 11:57:10
有人對資料視覺化有興趣嗎?做了一個 PTT 來源 IP 分析,資料跑出來了但缺少視覺化 https://g0v.hackmd.io/yMcLa2oxSJyCGLegxTzbfQ
🙌 3
pm5 11:59:00
是仿照 i'analyseur 抓分身帳號的功能,用新的資料做的 https://www.ianalyseur.org/user/nawabonga/
lulucheng 11:59:55
🙋‍♀️🏻有興趣
lulucheng 12:00:03
但不會coding是可以的嗎
lulucheng 12:00:25
可以做UI
chihao 12:04:42
哈囉哈囉 @yilu1113
sean076 12:04:58
@sean076 has joined the channel
chihao 12:05:05
不過我們目前好像還沒想到 UI 可以做什麼,要幫忙改網站嗎?XD https://0archive.tw
lulucheng 12:06:26
XDD 好哇
chihao 12:06:39
🙌
chihao 12:07:01
目前真的是有點 sad 就是一個按鈕哈哈哈
chihao 12:07:15
我們一直想把一些重要連結直接放到首頁上
chihao 12:07:51
不過目前都是用這個 https://g0v.hackmd.io/@chihao/0archive 來擋著用

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南 Intro](/cdctnMJWQpKWQYhSxB8sCw) - [行事曆 Calendar](<https://docs>.

chihao 12:08:02
這個介面可能有點難懂?你覺得呢 XD
lulucheng 12:10:08
可以來討論一下首頁想放什麼
lulucheng 12:10:51
網站是用什麼架的呀~
chihao 12:11:00
GitHub Pages
chihao 12:11:05
目前是靜態頁面
lulucheng 12:14:36
好多問題想發問,打字溝通有點模糊,方便語音討論嗎XD
chihao 12:17:12
要不要先開共筆? XD
chihao 12:17:24
這樣可以整理一下想討論的事情
lulucheng 12:17:36
好的
chihao 12:18:05
我們通常都用 hackmd
a-chioh 12:18:56
嗨!
🙌 3
lulucheng 12:19:16
開一個新的頁面for網站ui嗎?
chihao 12:19:18
@a-chioh 👋
chihao 12:19:32
@yilu1113 對啊,你覺得如何?
lulucheng 12:19:42
第一次參加不太清楚細節QQ
lulucheng 12:19:45
好的
chihao 12:19:48
哦哦哦
chihao 12:20:01
初次跳坑嗎 XD 你好你好
a-chioh 12:20:13
:)加油!
chihao 12:20:25
那,先到 g0v.hackmd.io
chihao 12:20:34
你會先需要一個帳號
chihao 12:21:05
也可以用現有的社交媒體帳號登入
chihao 12:21:17
然後就可以開新的共筆了
lulucheng 12:22:35
了解
lulucheng 12:23:00
如何開在disinfo底下?
lulucheng 12:23:26
新開一個,共享給你就好(?
chihao 12:23:31
hackmd 可以加 tag 分類
chihao 12:23:46
所有新開的共筆都是預設大家可以編輯
chihao 12:24:15
可以把連結貼在這
chihao 12:24:33
或者你就開始編輯,我也會在 hackmd 首頁上看到
chihao 12:24:49
會不會有點複雜?XD
lulucheng 12:24:50
了解 感謝><
chihao 12:24:59
no mind no mind
chihao 12:25:38
我看到你開的共筆啦 XDD
我把目前想到的問題列出來哩~
喔耶 \o/
感覺官網應該目的是向大眾宣傳正在做的事?會寫程式的人,做一個加入行列的CTA直接導向到 HackMD? 工程師可能看得比較習慣(?
有什麼重要連結或資訊是想露出的?
CTA = call to action 嗎
對低
可能一個按鈕或幾句號招的話(?
@chihao 請問有哪些連結是想放在網站的~?
大概規劃了一下,不知道這樣需要的資訊有沒有正確?
@yilu1113 太酷了 \o/ 好厲害 XDD
sorry 我剛剛被拉進另一個討論
而且你有看到我們之前的 fb po 文太感動了 QQ
這樣看起來,「研究要資料」、「資料須開源」、「開源真有力」會各有一張圖嗎?XDD
對的,想說可以做個icon
帥 \o/
目前這個坑只有 logo 一張圖,蠻孤單的
XD
也是我稍微想了一下就先畫了,因為實際的需求 XDD
太強惹 怎麼現在好多工程師都會畫畫XD
有什麼資訊要討論或修改的嗎~
不會不會,大家都來跳坑拜託 XDD
想分享一下 -「資料須開源、開源真有力」這個 slogan 是從蔣渭水的「同胞須團結、團結真有力」
也許可以對 icon 設計有幫助? 😛
哈哈原來,來想一下
我喜歡每個數據下面有一個按鈕的設計!
怒吼那個甜甜圈圖,其實是 1 of 2 use cases
然後參與者那個,其實我們辦蠻多活動的,不過後來都線上,然後因為門檻有點高,所以都沒什麼人 XDD
有那個甜甜圈的製作原檔案嗎?還有另一個case的資訊
figma 好用嗎?現在他支援同時編輯了嗎?
覺得比sketch方便,可以線上共同編輯和管理版本
也可以直接看到前端要的資訊
簡報剛剛寄了一個編輯權限的請求,裡面的圖檔案文字是可以複製的嗎?
我權限設定錯了,應該是大家都可以編輯才對,現在應該可以囉
複製沒問題
ok thanks
專案創意產出都是 cc by
這個也要問你,你的設計稿等等願不願意開源釋出?🙂
可以呀 釋出figma檔案嗎?
是啊,應該就是在共筆裡加上檔案連結、授權條款這樣
第一次參與QQ 檔案通常都會放哪?授權條款有範例嗎
啊,我想想哦,Google Drive 你有在用嗎?如果需要協助的話也可以把檔案給我我來傳 🙂
授權條款推薦 CC BY 4.0
好的感謝~ 等等做一段落傳上去
20200523
想發問:沒完成的部分是隨時有空繼續弄嗎(? 通常大家是怎麼做
++ \o/
對啊
就大家有空繼續做
也可以隔一陣子揪個小松,方便 cowork
嗨~有興趣可以加入嗎?會一些前端
歡迎歡迎
😆 1
chihao 12:36:15
via @shunling https://www.centerforsecuritypolicy.org/wuhan-virus/

Center for Security Policy

Wuhan Virus - Center for Security Policy

China’s propaganda pandemic in an expanding timeline, November 2019-April 2020 Click here for Part Two of the timeline starting May 2020 Latest update: May 11, 2020, 23:43 Washington DC time. Click HERE to support the Center for Security Policy’s vital work to keep our nation safe.   All official Chinese government propaganda is the official voice of the …

shunling 12:36:23
@shunling has joined the channel
Feng 13:44:36
HIHI 這邊是`後端`+`維運`
不太清楚目前可以怎麼幫專案推動~
chihao 13:52:19
@samtsai15 嗨嗨!這個坑有資料庫、有工作排程、爬蟲、parser 應該有很多可以做的事 XD
Feng 13:56:11
對,因為我自己看了一下蠻多可以做的
反而不知道可以往哪邊塞~
chihao 13:57:30
讓我也來 tag @pm5 XDD
chihao 13:58:14
目前 0archive 大部分的後端都在 g0v 社群的雲端服務 middle2 上面
Feng 14:04:11
我知道 middle2 但沒實際玩過
但 PaaS 應該都大同小異XD
pm5 14:06:10
cofacts 的 youtube scraping 經驗 https://g0v.hackmd.io/6f87Zwo7QAOGx7rYK-QRfw

g0v.hackmd.io

Youtube scrapping alternatives - HackMD

youtube 也是蠻鳥的....
1
pm5 15:36:08
Hihi @samtsai15 現在後端的瓶頸應該是主機資源吃的差不多了,需要分一台去跑 chromedriver 不知道你有沒有興趣
Feng 15:37:55
好的,這邊我可以幫忙
pm5 15:42:07
那情況大概是:我們機器都在 linode;跑 chromedriver 的機器不用 middle2(不是 PaaS),一般的 Linux 上能夠跑 chromedriver 就可以了,讓 middle2 上的爬蟲程式用 remote driver 去使用這個服務
pm5 15:43:20
但我還沒研究 Linux 上跑 chromedriver 怎麼樣比較方便讓別台機器的程式取用,還有安全性這些問題
pm5 15:44:41
看你有沒有想法?
Feng 15:52:54
可以用
• puppeteer https://github.com/puppeteer/puppeteer
• selenium-webdriver https://www.npmjs.com/package/selenium-webdriver
用程式的方式去操控 chromedriver,也剛好都是 nodejs 套件, 自然也可以開 API 接口讓外部去存取

puppeteer/puppeteer

Headless Chrome Node.js API

npm

selenium-webdriver

The official WebDriver JavaScript bindings from the Selenium project

Feng 15:54:49
也要看 chromedriver 使用的規模,chrome 蠻吃資源的
pm5 15:56:32
獨立一台就比較好調整它的資源
Feng 15:58:45
沒關係,規模是不是要做成彈性可以之後來再來調整
但目前比較重要的就是讓外部程式可以呼叫吧?
pm5 15:58:50
那就…來開一台 linode 交給你?😆
Feng 16:05:03
好的,我這邊先弄一下,有什麼狀況我會寫在 hackMD 上
Feng 16:05:41
需要 public key?
chihao 16:05:50
@samtsai15 我剛開了一台 linode,我把 credentials 私訊給你
完成囉 🙂
已收到~成功登入
成功收到可疑登入的帳號安全警告!?
咦XD
👌 1
pm5 16:07:47
我們現在控制 selenium 的邏輯寫在這裡 https://github.com/disinfoRG/ZeroScraper/blob/master/newsSpiders/middlewares.py#L67 給你參考

newsSpiders/middlewares.py:67

``` class SeleniumDownloaderMiddleware(object): ```

收到
chihao 16:55:27
目前準備成果報告中 \o/ @yilu1113 @samtsai15 不知道會不會想要來寫一下今天做了什麼 🙂 https://g0v.hackmd.io/_gf28MqmRIefF-Sg01QaLQ

g0v.hackmd.io

0archive - g0v-hackath39n - HackMD

chihao 16:55:41
沒有也 no mind,我會寫一些 XD
😌 1
chihao 17:50:29
今天特別謝謝 @yilu1113 @samtsai15 @sean076 @muyueh \o/
啊~我沒做什麼啦
muyueh 17:50:31
@muyueh has joined the channel
sean076 17:51:20
我R語言load jsonl的部分有寫進hackMD了~~
🙌 2
lulucheng 17:51:21
謝謝大家~~好玩
2
Feng 22:15:09
下午被 Gank 沒參與完 QQ
謝謝大家~

2020-05-24

a-chioh 15:41:55
Hi there
a-chioh 15:43:25
did you consider including messages from chinese ambassy around the world ? (website + twitter), they've be a bit crazy lately and creating obvious misinformation
a-chioh 15:43:46
at least and for sure the one in France is doing so in plain sight
a-chioh 15:49:37
after reading this I scraped the collection to get aligned texts in French and propaganda-Chinese, but it may also be interesting for you, at least the chinese version
a-chioh 15:49:54
but I'm not sure if it's in your scope
1 1 1

2020-05-25

pm5 12:46:16
0archive 的專案簡介說要「用開源鄉民的力量,蒐集資料,協力研究台灣資訊空間」。我在想我們是不是可以開始擴展到香港。
短期內除了 raw data 不知道可以產出什麼。但隨著最近的情勢,中國官方的網路資訊攻勢力道也愈來愈強的樣子,蒐集資料這件事有些急迫性

2020-05-29

wenyi 04:20:57
用四月份有關於『敦睦艦隊』的文章,用文章內容直接比較,做了一個互相引用的圖
https://observablehq.com/@andrea-w-wang/arc-diagram

observablehq.com

Arc Diagram

An Observable notebook by andrea-w-wang.

1 1

2020-05-31

pm5 10:53:03
最近陸續有人來問備份 FB 與 Telegram group 的事情