disinfo

Month: 2019-10

2019-10-11

chihao 20:25:36
@chihao has joined the channel
pm5 20:26:33
@pm5 has joined the channel
pm5 20:26:42
yo
🖖 2
chihao 20:30:03
peace
1

2019-10-12

ronnywang 14:49:27
@ronnywang has joined the channel
isabelhou 14:49:31
@isabelhou has joined the channel
mrorz 18:17:43
@mrorz has joined the channel
bil 18:17:43
@bil has joined the channel
ipa 18:18:37
@ipa has joined the channel
clkao 18:18:37
@clkao has joined the channel

2019-10-13

isabelhou 09:40:59
愛傳媒...

2019-10-15

ronnywang 13:42:09
彭文正的
chihao 14:22:32
這個坑需要一個名字 😆
mrorz 15:03:25
~g0v真理部~
😱 1 🐳 1 👮‍♂️ 1 👏 1
mrorz 15:03:53
media framing research club (?)
🙌 1
isabelhou 15:08:19
@mrorz 周三晚好幾個小松同時進行,線上討論沒辦法約那個時間。
mrorz 15:08:33
QQ
isabelhou 15:09:17
想到什麼就先寫hackmd上?
mrorz 15:16:46
okok
mrorz 15:24:17
還有(亂畫的) theory of change
theory of change 是個神秘的東西
chihao 15:24:54
週三晚上已經有固定的 vtaiwan & cofacts 該不會還有
Disfactory
違章工廠?
Yes
來辦:週三晚間 g0v 小松嘉年華
提供:週三晚間 g0v 小松地圖
小週末的小松寶寶們❤️
cofacts 有固定地點嗎?
固定在科技大樓wokis 2年多了唷!
Disfactory 應該都會在地球公民基金會辦公室。這樣真的有地圖耶
g0vmap.live
結合 calendar 讓你輕鬆找到小松(?)
變成基礎松的坑了
chihao 15:27:20
零食傳媒
🍗 1
chihao 15:27:43
零食圖書館 — 因為是在做備份
bil 15:31:43
零實布
p0limedia
🏴 1
chihao 15:33:04
g0v media archive
chihao 15:33:29
不確定能不能用 g0v 的名字呢
chihao 15:36:16
零食檔案局
chihao 15:36:27
加上「零食」就變得好好笑
chihao 15:39:28
@mrorz so… a crowd-sourced ai-assisted rapid response system against disinfo?

AI assisted 在主題分類,編輯可以(RSS)訂閱特定主題分類,有新的訊息被 AI 分到該分類之後,就會收到 feed update
另外,編輯可以也可以增減 tag
作為 AI 分類的 feedback、改進 classifier 準度

2019-10-18

pm5 18:33:26
忘年會來短講一下吧!
pm5 18:33:37
對找人有幫助
chihao 23:16:00
好!如果沒有其他人的話,我可以講 g0v-intl 要來的坑!(還沒取名字!)
ronnywang 23:37:35
叫開山里好了,象徵跟台灣有關的新聞和消息都在這邊~
😆 1

2019-10-19

chihao 09:15:02
這個梗連得起來嗎 😆

2019-10-20

tkirby 12:59:59
@tkirby has joined the channel
tkirby 13:00:10
yo ~
chihao 13:00:36
唷唷唷

2019-10-21

ronnywang 10:41:56
我把爬蟲抓取的資料庫的一些想法流程資料庫設計寫在這邊
chihao 14:21:06
@ronnywang 排程、啟動 crawler 的程式跑在 middle2 上如何?
ronnywang 14:21:25
可以啊,目前 newsdiff 也是跑在 middle2
❤️ 1
ronnywang 14:21:51
不過 fb 的部份建議要另外加一個機動 proxy ,以免被擋 IP
1 1 1 1 1
ronnywang 14:22:49
newsdiff 目前是沒有被擋過 IP 過,十分鐘看一次列表頁以及一小時檢查一次單一文章有沒有更新,這個量對一天幾百萬點閱的新聞網站來說無感
1
chihao 14:25:51
我覺得我需要 middle2 教學
ronnywang 14:29:14
本來有個 try.middle2.com 可以測試,不過因為查台硬碟只有 10G 已經爆了 XD 我應該把他搬出去
ronnywang 14:29:40
今晚我把他搬到其他地方好了,這樣就可以試用了
chihao 14:31:07
阿嗚
chihao 14:31:38
如果用 elasticsearch 的那一台跑排程?
chihao 14:31:52
還是分開
ronnywang 14:32:20
middle2 目前排程跟 db 主機都是分開的
👍 1
chihao 14:32:23
@chihao set the channel topic: Disinfo Research Group https://g0v.hackmd.io/6ZbDhEwbR1mclAh-ws1B9A?both
chihao 14:34:40
所以聽起來,需要先強化 middle2,才能開 instances 來跑 prototype?強化 middle2 的部分有什麼可以幫忙的嗎?捐錢付雲端服務的費用?😆
ronnywang 14:36:11
middle2 有本站和測試站,本站在 https://middle2.com/ 測試站在 https://try.middle2.com/
ronnywang 14:36:37
我目前都是先開測試站試用,可以讓人在上面亂玩亂測試,確定 middle2 符合需求,再開正式站帳號
ronnywang 14:36:57
因為正式站會有 health check 機制,我會確保他服務穩定
ronnywang 14:37:09
而測試站則是被亂搞搞爛也沒關係
ronnywang 14:37:53
現在主要問題是測試站硬碟滿了(放在 GCE 最小台機器)
ronnywang 14:38:21
我今晚把他搬到 Linode 去好了,GCE 最小台機器還比 Linode 貴…
chihao 14:38:32
所以,先前麻煩你開的 elasticsearch 其實是在正式站嗎
ronnywang 14:39:25
yes
chihao 14:39:35
I see
chihao 14:39:47
尊榮不凡(?)
chihao 14:40:49
那我現在 local 測試排程
chihao 14:41:03
middle2 的調教(?)再麻煩你了
wenyi 21:17:40
@ayw255 has joined the channel
chihao 21:18:48
大家好這是 wenyi 😆
wenyi 21:18:51
hello!!
wenyi 21:19:01
請大家多多指教~~
wenyi 21:22:16
@chihao 你可以再把structure的那個hackmd文件傳給我嗎,關聊天室前忘記存了
wenyi 21:23:06
💯
chihao 21:33:28
我跟 wenyi 從十月初開始 cowork,他已經開發了一些 python crawler/parser
chihao 21:36:33
因為想把目前為止的成果貢獻到 0archive,後續以開源為基礎協作,所以我請 wenyi 也加入這個頻道
chihao 21:41:59
到週四之前,我請 wenyi 先讀目前有的兩份 hackmd 文件,在這裡跟大家一起討論囉
isabelhou 22:11:35
Hi Wenyi, welcome join.
2
ronnywang 22:17:29
@chihao gugod 之前做的「政府新聞RSS」 https://g0v-tw.slack.com/archives/C02G2SXKX/p1569459392080000

我幫「政府新聞轉貼」機器人又弄了個 atom/rss/json feed [1,2,3]。雖然基本上內容與 mastodon[4] 版相同、沒有太多內文資訊,主要是提供直接連結到原文去的新聞網址。看有沒有人要用。 1: <https://gugod.org/feed/A74800B8-DF8C-11E9-880A-D445B3D54D67.atom> 2. <https://gugod.org/feed/A74800B8-DF8C-11E9-880A-D445B3D54D67.rss> 3. <https://gugod.org/feed/A74800B8-DF8C-11E9-880A-D445B3D54D67.json> 4. <https://g0v.social/@tw_gov_news>

❤️ 1 👍 1
chihao 22:18:02
`看有沒有人要用。` 有有有!(?)
ronnywang 22:19:26
https://g0v.social/@tw_gov_news

g0v.social

TW Gov News Bot (@tw_gov_news@g0v.social)

36.8 千 嘟文, 2 正在關注, 19 關注者 · 政府新聞轉發(非官方) 新聞稿來源: <https://www.gov.tw/> Plurk 版: <https://www.plurk.com/tw_gov_news> Telegram 版: <https://t.me/tw_gov_news>

ronnywang 22:19:37
印象中之前他有把一級部會都做完
我等一下把這個機器人有去爬的網站列一下….
ronnywang 22:20:14
不過 gugod 人在日本,如果要拉入坑深入參與的話,只能遠端 XD
ronnywang 22:20:26
上次面海松他有來
chihao 22:30:04
嘿啊我記得 😆
chihao 22:30:24
至少日本在隔壁時區而已 😄

2019-10-22

gugod 10:59:23
@gugod has joined the channel
gugod 13:26:46
如果所有人都來福岡的話,我就變成本地端了 (呃
3
chihao 13:27:37
disinfo 小松 @ 福岡?@isabelhou
isabelhou 13:27:54
sure
😱 1
isabelhou 13:28:20
I will be in Fukuoka on 11/20 for 大相撲
👍 1 😆 1
isabelhou 13:28:40
go to Fukuoka then to
isabelhou 13:28:52
Seoul, that's my plan XD
chihao 13:29:08
omg
怕了吧
who scares who
那走吧
冷靜
福岡飛首爾,台幣一千元出頭耶。
1
ddio 18:51:59
@ddio has joined the channel
ronnywang 18:53:40
我把 @ddio 拉進來,因為 ddio 最近在 #rentea 專案有用到 Python 的 Scrapy
ronnywang 18:54:18
可以來交流一下 python 爬蟲 XD
ddio 18:54:42
hihi~~
chihao 19:09:50
ddio hihi 👋
ronnywang 19:17:03
剛剛跟 ddio 聊才知道,scrapy 已經有內建從一個網址進去後,從那個網址出發往外爬連的到的頁面的功能,這樣就不需要像我一樣土法煉鋼自己寫遞迴了 XD
😆 1
chihao 19:17:33
土炮遞迴 bye 👋
chihao 19:18:07
讓我們站在 scrapy 的肩膀上
👍 1
ronnywang 19:18:20
我寫爬蟲超土砲的,用 curl 去執行 http protocol, 用 DOMParser 去解 HTML
🙌 1
ronnywang 19:20:21
https://github.com/mozilla/readability 另外這個好像可以猜測 HTML 的 title, body 等資訊

GitHub

mozilla/readability

A standalone version of the readability lib. Contribute to mozilla/readability development by creating an account on GitHub.

ddio 19:28:23
後來 591 crawler 寫一寫,發現可以直接包成一隻 scrapy spider 給其他 scrapy spider 用 XD
https://pypi.org/project/scrapy-tw-rental-house/

PyPI

scrapy-tw-rental-house

Scrapy spider for TW Rental House

mrorz 19:28:58
https://github.com/cofacts/url-resolver
Cofacts 的抓網頁服務也是用 readability.js + puppeteer。

GitHub

cofacts/url-resolver

Automatically resolves the given URL into useful data - cofacts/url-resolver

不過現在 master branch 把 graphql 換成 GRPC 了,README 還沒改 XDD
chihao 20:06:02
@ddio @mrorz 週四 9am 要一起來線上 meetup 嗎?😆
我 9:15 am 可以,是討論專案本人嗎?
@ddio yes 零時檔案局/檔案系統/0archive 本人
我前面有打工的 meeting ,通常 9:15 結束,結束後可以參加~
要不要給我 email 我把你加進 google cal event?
9am 好早 XDDDD 我以為 9pm
ddio at ddio.io, thank!
@mrorz 因為有美國東岸的 collaborator XD
okok
那應該也要 include 美東 @bil
好啊好啊 😆
mrorz 的頭像好可愛喔
Hi 請問今天有 meeting 嗎
@mrorz 剛寄 gcal 邀請 XD
thanks
gugod 22:55:27
https://github.com/hasname/feedgen 這裡也有一組 crawler 。
我個人覺得這種把輸出做成 atom feed / rss feed 的 crawler service 做法很不賴。

GitHub

hasname/feedgen

Generate Atom feeds from sites which do not support feeds. - hasname/feedgen

🙌 1
gugod 22:55:43
作者 @gslin 😛
ronnywang 22:56:32
hasname XDDDD 這好像是 10 年前在痞客邦內的 project name 了
chihao 22:56:42
哦哦哦如果把所有的 sources 都做成一個一個野生的 rss feed…
ronnywang 22:57:07
當初 project name 取叫 hasname 是因為當時痞客邦最大對手叫無名 XD
㊙️ 4
gugod 22:57:52
這算是得到官方認可的豆知識嗎 😛
ronnywang 22:58:02
不過原來 dk 後來還有持續在更新喔 XD

2019-10-23

ronnywang 11:30:24
ㄟ,好像記錯了,剛看了 hasname.com 是 2005 年註冊的,所以這個應該不是發生在痞客邦時期,而是發生在交大時期 XD
ronnywang 11:30:33
昨天不小心傳了 disinfo
chihao 11:32:05
🤭
chihao 11:32:24
幸好是在 #disinfo 頻道?
pm5 12:52:57
https://twitter.com/zhusee2/status/1186807884769677313
關於這個 app 我的看法:

在把「澄清目標」與「澄清文」連在一起這件事情上,其實跟我想做的事情很像 XD
比較不一樣的是,他看起來是有文膽在幫寫文案,Cofacts 則是大家一起寫這樣。

那個「澄清去」滿厲害的,基本上比我愛家我聯絡( https://ly.answerfamily.org/ )更猛一些,結合了文案與傳送門 ( 如平權聲音讚出來 https://ly.answerfamily.org/#/like )。這類專案其實執行的重要性大於製作,不過我猜 app 都搞得出來了,1/11 前要把搜集資料、文膽、與上稿的人等資源找齊來好好執行,對有資源的人來說應該並不困難;但對於沒有資源如我,平權聲音讚出來需要人工判讀爬蟲爬到的臉書回應資料,其實非常累人,我自己做個一兩週就做不下去了。幸好最後748法有通過 ❤️

不過,這種 campaign app 當然不是韓國瑜獨有。跟很多台灣的東西一樣,這樣的玩意美國人早就玩過了:
https://ourdataourselves.tacticaltech.org/posts/campaign-apps

上面這篇文有提到川普在 2016 年的 app——其實希拉蕊也有唷: https://medium.com/@okdan/the-hillary-clinton-app-is-one-of-the-best-digital-organizing-tools-ever-made-39628cd7ab91

競選用 app 大家都愛用,強一點還可以做等級制度,甚至蔡英文的 LINE@ 也是一種 campaign app 。
ronnywang 20:51:37
今天 vtaiwan 小聚在討論外送問題,剛好發現桃園市勞檢處之前有發一個公告認定 foodpanda 是雇傭而罰錢的公告,剛剛打開來發現桃園刪掉了

2019-10-24

mrorz 01:39:53
關於這個 app 我的看法:

在把「澄清目標」與「澄清文」連在一起這件事情上,其實跟我想做的事情很像 XD
比較不一樣的是,他看起來是有文膽在幫寫文案,Cofacts 則是大家一起寫這樣。

那個「澄清去」滿厲害的,基本上比我愛家我聯絡( https://ly.answerfamily.org/ )更猛一些,結合了文案與傳送門 ( 如平權聲音讚出來 https://ly.answerfamily.org/#/like )。這類專案其實執行的重要性大於製作,不過我猜 app 都搞得出來了,1/11 前要把搜集資料、文膽、與上稿的人等資源找齊來好好執行,對有資源的人來說應該並不困難;但對於沒有資源如我,平權聲音讚出來需要人工判讀爬蟲爬到的臉書回應資料,其實非常累人,我自己做個一兩週就做不下去了。幸好最後748法有通過 ❤️

不過,這種 campaign app 當然不是韓國瑜獨有。跟很多台灣的東西一樣,這樣的玩意美國人早就玩過了:
https://ourdataourselves.tacticaltech.org/posts/campaign-apps

上面這篇文有提到川普在 2016 年的 app——其實希拉蕊也有唷: https://medium.com/@okdan/the-hillary-clinton-app-is-one-of-the-best-digital-organizing-tools-ever-made-39628cd7ab91

競選用 app 大家都愛用,強一點還可以做等級制度,甚至蔡英文的 LINE@ 也是一種 campaign app 。

Medium

The Hillary Clinton app is one of the best digital organizing tools ever made

I’m not going to bury the lede: the Hillary Clinton app is one of, if not the best digital organizing tool that’s ever been made. Not ever…

mrorz 09:00:15
Hi 請問今天有 meeting 嗎
ronnywang 09:43:23
https://github.com/ronnywang/fb-post-crawler

GitHub

ronnywang/fb-post-crawler

Contribute to ronnywang/fb-post-crawler development by creating an account on GitHub.

ronnywang 09:43:29
fanpage 爬蟲
ronnywang 09:54:03
有政大研究生用 newsdiff 資料做分析寫論文
chihao 10:17:37
今天的會議(線上小松?)結束了,大家 ++
isabelhou 10:20:11
@chihao ++, 大家++, g0v ++。
pm5 10:42:59
寫了一下資料交換格式的想法 https://g0v.hackmd.io/0Mt45bP_TQ2g0jRFP0tfTA?edit

g0v.hackmd.io

假訊息傳播資料交換標準 - HackMD

爬蟲爬下來的資料的 format - WARC
https://en.wikipedia.org/wiki/Web_ARChive

schema.org 除了 Website 其實還有一個專門放 fact-check 的 ClaimReview
https://developers.google.com/search/docs/data-types/factcheck
ronnywang 10:43:56
名稱要叫「假訊息傳播」嗎?因為我們目前對象有包含新聞、智庫、粉專,好像直接標假訊息不太好XD
誒是。雖然我們專案叫 disinfo XD
chihao 10:44:28
g0v 生日快樂!這不是假訊息!
ronnywang 10:44:33
另外交換標準能不能從 RSS 來改?
ronnywang 10:44:57
感覺 RSS 那邊有很多可以借用的東西
pm5 10:48:15
那個 airtable 是可以公開的嗎?
chihao 10:49:07
我覺得可以
chihao 10:49:10
https://airtable.com/shrKvjXMO7GaUg1vd

Airtable

零時檔案局 0archive - Airtable

Explore the "零時檔案局 0archive" base on Airtable.

🖖 1
pm5 10:53:11
RSS or JSON Feed 我想一下。從我們外部抓資料的眼光來看,可能跟這些從作者自己的角度來看的分類不大一樣
pm5 10:53:47
內容農場可能不會把自己標籤成內容農場,這樣的情況
pm5 10:57:13
對了,之前做過一個內容農場 -> 臉書專頁的傳播資料分析 https://github.com/pm5/tracenews/blob/master/raw.png

GitHub

pm5/tracenews

Contribute to pm5/tracenews development by creating an account on GitHub.

chihao 10:58:56
這不是超級相關的嗎 😆
剛才不知道為什麼忘記了😅
大氣
7pupu
😆 2
mrorz 11:50:10
爬蟲爬下來的資料的 format - WARC
https://en.wikipedia.org/wiki/Web_ARChive

schema.org 除了 Website 其實還有一個專門放 fact-check 的 ClaimReview
https://developers.google.com/search/docs/data-types/factcheck
2
mrorz 12:01:58
原來 data archive 也可以是門生意 XD

> Archive-It is a subscription service provided by Internet Archive that allows you to run your own crawling projects without any technical expertise. Tell us what to crawl and how often to crawl it, and we execute the crawl and put the results in the Wayback Machine.
> Archive-It is a paid subscription service with technical and web archivist support. This option is most appropriate for organizations that have a mandate to save certain types or categories of web content on a regular basis
https://archive-it.org/
進階付費版就可以幫你上鏈了?

2019-10-25

gugod 20:16:21
https://www.economist.com/science-and-technology/2019/10/24/lithuanians-are-using-software-to-fight-back-against-fake-news

The Economist

Lithuanians are using software to fight back against fake news

The country is besieged by Russian propaganda

> Demaskuok is also supported by more than 4,000 volunteers known as “elves”. About 50 of them scroll through Demaskuok’s feed of suspected disinformation, selecting items to be verified. These are sent to the other elves for fact checking.
4000 人的部隊啊

2019-10-28

chihao 12:21:11
寫了 project proposal 草稿,大家有空幫忙 review 嗎? https://docs.google.com/document/d/1g4Tf2q6lMX8-DelxRhhR6pBNGk42Jae76AjMMvbiZQk/edit#
chihao 12:29:03
不確定 project description 有沒有把我們要做什麼講清楚 😆

2019-10-29

NM 02:11:13
@nick.monaco has joined the channel
Nick Monaco 02:31:58
@5sgzryrq372r has joined the channel

2019-10-30

chihao 00:21:11
@pm5 re: data standard https://frictionlessdata.io/

frictionlessdata.io

The Frictionless Data Field Guide

A guide that provides step-by-step instructions for improving your data publishing workflow using Frictionless Data software

Peace 21:54:58
@achemistd has joined the channel
chihao 22:58:08
自動化的資料搜集機制 via ronny
chihao 23:03:15
明天 9am 線上小松(?)隨意 tag 一些人 @ronnywang @isabelhou @ayw255 @ddio 本週 @pm5 休假 😎
👍 1

2019-10-31

chihao 09:28:38
@ronnywang 加你囉
ronnywang 09:29:19
好喔
ronnywang 11:20:17
https://github.com/FalseChord/fbcrawl

GitHub

FalseChord/fbcrawl

A Facebook crawler. Contribute to FalseChord/fbcrawl development by creating an account on GitHub.