disinfo

Month: 2020-01

2020-01-01

pm5 11:19:41
這啥⋯⋯
chihao 11:25:20
中時怎麼了
pm5 11:48:00
推特盛傳這是反滲透法的威力 :woman-shrugging::skin-tone-6:
chihao 11:49:09
我以為《反滲透法》對衍明無效 :redghost:
wenyi 17:41:58
kknews & 壹讀 可以順利在middle2透過proxy用selenium抓了:rocket:
isabelhou 19:00:21
不是說中天中時要停播停刊

2020-01-02

chihao 09:23:12
假新聞、假訊息,到底長什麼樣子?從哪裡來?要回答這個問題,首先,要有資料。

由 g0v 社群參與者發起,《零時檔案局》要用開源鄉民的力量,備份台灣資訊空間。目前,《零時檔案局》已經備份了 274,501 篇來自一般新聞網站、可疑內容農場的文章,不一起來研究一下嗎?

這週六,2020 年 1 月 4 日,第零次不實資訊松,一起來玩資料、挖掘不實訊息的面貌吧 :woman-raising-hand::man-raising-hand: 已經報名的朋友,今、明兩天請密切注意通知地點的 email :sunglasses:

報名由此去 → https://forms.gle/kqffyonCYWTdeUgk8
更多資訊 → https://g0v.hackmd.io/@chihao/0archive/
2020-01-02-articles.png
mrorz 10:52:33
是說我跟比鄰會去君竹開的 workshop,時間有所衝突,我應該會下午才到唷
chihao 10:53:13
哦哦哦,有活動資訊嗎?
a-chioh 18:59:34
請問,不在台灣的人可以線上參加嗎?
a-chioh 19:03:40
(資料在哪裡?)
a-chioh 20:46:20
(the links from 12/21 seem to be dead)
chihao 09:29:18
也把週六小松的資訊貼到後勤中心了 :fist:
a-chioh 18:57:50
@a-chioh has joined the channel

2020-01-03

shuchen 05:40:37
@linshuchen922 has joined the channel
yitzu 10:49:05
@yitzu7 has joined the channel
yitzu 10:57:14
我錯過報名時間了(跪!) 請問現在還有救嗎?
chihao 11:32:43
:smirk:
bil 12:27:41
用我的名額用我的名額,我一早要去當君竹的冗員助教不在> <
Hung-Yi Wu 12:37:44
@hywu0110 has joined the channel
pm5 18:48:51
@ronnywang 如果你有空的話,我需要你幫忙砍掉 NewsScraper tainan-sun-500796 的 Python process XD 它們卡住 db migration 了。然後想問一下為什麼 run_discover.sh 的 cronjob log 都沒有出現呀?
ronnywang 22:17:35
哈哈,看到累積好多.. 目前 middle2 的寫法 cron 要跑完 cronjob log 才會寫入
ronnywang 22:17:42
但是因為卡住了所以就沒寫入了
ronnywang 22:19:03
我把超過一小時的都砍掉了
pm5 23:47:17
orz

2020-01-04

pm5 00:40:01
看來還是有點問題,那我先把 hourly discover cronjob 關掉
pm5 01:25:42
上次把 middle2 搞到用完記憶體的 memory leak 問題,我把 parser 改成每次最多只跑 20000 筆資料就結束,經過測試應該都可以在 1 小時內跑完,這樣子地暫時解決了
pm5 11:56:04
https://theinitium.com/project/20200102-taiwan-temple-map/

theinitium.com

神明不投票 宮廟影響選舉嗎?

宮廟的「公共」與「政治」性格,使其在地方選舉中佔有一席之地。數年一次的地方選舉,讓各地方的政治勢力與廟宇互動密切,成為社會關係確認、交換與展演的場所。但宮廟是否確實影響選舉?透過互動地圖,我們帶你一次看懂。

pm5 11:56:17
https://theinitium.com/article/20200103-taiwan-temple-mainland/

端傳媒 Initium Media

神明不投票:台灣宮廟到對岸交流,他們被滲透、統戰了嗎?|端傳媒 Initium Media

近年來,不少媽祖廟都有赴陸交流的經驗,誰去得最多?他們為何想去?去了就等於「被滲透」嗎?

ronnywang 12:50:58
more like this 發現到怒吼跟芋傳媒轉同一篇新聞 XD
https://taronews.tw/2019/10/04/485580/
https://nooho.net/2019/10/DPPfraud26257/

芋傳媒 TaroNews

陳菊哪裡為非作歹 柯文哲跳針扯高雄敗選 | 芋傳媒 TaroNews

台北市長柯文哲指總統府祕書長陳菊「不是妳上半生坐過牢,下半生就可以為非作歹」,他今天表示,民進黨要誠實面對高雄執政失敗而選輸的事實,對於被要求道歉則說「管他的」。

nooho.net

稱陳菊為非作歹被要求道歉 柯文哲︰管他的

柯文哲昨天稱陳菊「為非作歹」,

pm5 14:41:43
chihao 13:16:18
那個,小松現在午休中,大家吃飯後會回歸(吧?)
ronnywang 14:11:11
@pm5 好像有些內容有 parsing 錯誤?像是 46449, 47303, 47330, 46914 的 publication_text 都一樣,但是跟標題不合
pm5 14:12:04
先記下有錯誤的 id,我們有時間的話看看吧
tumi 14:19:15
@tumi729 has joined the channel
ronnywang 15:59:15
我今天的初步成果
https://gist.githubusercontent.com/ronnywang/7ae62eb2691e570bf7a56328ca77c4fb/raw/43561878a38140511725f4c5d4603938330f9a7e/text-result.txt
ronnywang 16:00:26
用 Elasticsearch 的 morelikethis 找出哪些文章相似度是 > 2.0 (分數是直接拿 elasticsearch 算的,所以不知道 2.0 的標準是什麼,只是感覺 2.0 這個數字好像抓出來的效果還不錯)
mrorz 23:43:56
`_score` 是各 query term 的 weighted tf-idf 和唷。tf-idf 是 (normalized) term frequency 與 inverse document frequency 的積。

如果是 request body search,可以打開 `explain:true` 請它列出計算公式與各項 (https://www.elastic.co/guide/en/elasticsearch/reference/current/search-request-body.html#request-body-search-explain

另外也有 explain API,explain 結果像這樣:
https://www.elastic.co/guide/en/elasticsearch/reference/current/search-explain.html

所以大致上是
1. query 越長、字越多,「各 query term 的 tf-idf 和」會越大。因此,*tf-idf 對不同 query 來說沒有可比性,只能用來比較同一個 search query 底下不同 document 的 relevance score。因為 query length、query 用的字是否有鑑別力,都會影響 _score 的大小*。
2. 單一 term 出現在越多文件(越沒辨別力),該 term 的 tf-idf 會變小,導致整體「tf-idf 和」變少。
3. 單一 term 出現在被打分數的這篇文章越多次,tf-idf 會變大,導致整體「tf-idf 和」變大。
mrorz 23:48:32
Cofacts chatbot 後來其實是
用 elasticsearch 的 more-like-this 抓出前幾名 document 當成 search hit,
然後再另外用其他 string similarity (https://github.com/aceakash/string-similarity)來算 0~1 的相似度。
tumi 16:57:48
剛剛去密訊 (http://www.pplomo.com/) 隨便逛逛結果看到這個警告,我是要點哪一個(汗)
image.png
pm5 17:39:53
我先走囉,今天謝謝大家參與
chihao 17:40:39
\pm5/
kwangyin.liu 17:44:33
@kwangyin.liu has joined the channel
julialiu 20:21:29
@julialiu2223 has joined the channel
Richard 22:20:01
@hlshao2 has joined the channel

2020-01-05

tumi 14:08:25
FYI https://www.bnext.com.tw/article/56100/islander

數位時代

到底誰在帶風向?「島民衛星」趕在大選前上線,用AI打資訊戰|數位時代

有感於媒體因立場取向而經常產出偏頗新聞,台大資工系助理教授陳縕儂用AI架設媒體與時事分析網站「島民衛星」,深度剖析時事新聞,找出不同媒體操作議題手法。

2020-01-06

chihao 01:07:22
2019/12 月報草稿 & 0archive logo 設計草稿 :smile:
Screen Shot 2020-01-06 at 1.06.22 AM.png
chihao 01:07:57
對於配色還不是很確定 ._.
fly 18:32:28
https://www.youtube.com/watch?v=m3gLNa-fx_w

YouTube

假新聞出沒! 破解 #媒體與牠們的產地 ft.劣質媒體黑名單【記者真心話】Vol.4|懶人包|媒體識讀

gugod 19:16:44
看來可以直接引用這影片裡提到的「生產標籤」來幫「新聞品質」的下定義了。
fly 21:54:45
新聞與牠們的產地!
pm5 20:06:18
@chihao 開會喔
chihao 20:07:23
來了 \o/

2020-01-07

a-chioh 14:42:15
Hi there
a-chioh 14:44:15
我開始試試看一些Topic Modeling的實驗
chihao 14:46:07
a-chioh++
a-chioh 14:48:03
就會有很多問題^^
a-chioh 14:54:28
not sure about data cleaning/normalizing, and also about proper visualisation for your needs
a-chioh 14:56:01
我在設計一種一天又一天的model
a-chioh 15:12:48
也許我們應該在hackmd開一頁一起寫stop words list
a-chioh 15:17:18
first try, on 12/8, 30 topics the 7 most probable terms for each topic :
```0 0,02689 美國 報導 總統 表示 綜合 政府 川普
1 0,02362 民黨 選人 韓國瑜 總統 國民 國瑜 國民黨
2 0,00844 民眾 表示 提供 提醒 歲以 衛生 呼籲
3 0,08461 沒有 就是 自己 一個 很多 因為 我們
4 0,01998 看新 看新聞 APP 現在用 點我下載 保證天 按我
5 0,01271 外交 民黨 國民 外交部 交部 立委 國民黨
6 0,02905 國家 中國 政府 表示 民主 社會 台灣
7 0,0073 氣溫 中央 天氣 冷氣團 低溫 氣象 氣象局
8 0,00427 其中 作品 下午 表示 當時 為了 真相
9 0,00407 日本 富汗 阿富 阿富汗 人士 政府 表示
10 0,01088 醫療 醫師 醫院 服務 衛福部 衛福 政府
11 0,03221 可能 因此 研究 影響 沒有 指出 需要
12 0,01445 中国 12 国家 2019 发展 可以 工作
13 0,01102 進行 報導 新聞 指出 相關 持續 對於
14 0,02246 中央社 中央 日電 央社 中央社記 中央社記者 新聞資料來源
15 0,04157 表示 活動 舉辦 提供 今年 希望 分享
16 0,01646 版權 版權所有 版權所 社群網 新聞 社群網站 專供
17 0,01027 遊行 香港 分享 聯合 國際 民陣 媒體
18 0,02419 立委 民進黨 民進 支持 進黨 總統 選人
19 0,01516 表示 报道 原标题 12 原标 一个 已经
20 0,02478 自己 演出 粉絲 演唱 台北 演唱會 音樂
21 0,02383 警方 發生 記者 男子 表示 一名 附近
22 0,03561 今年 經濟 市場 表示 成長 明年 目前
23 0,00533 以及 台股 12 指數 市場 美國 分享
24 0,0101 分享 表示 提供 台灣 進行 未來 一個
25 0,00758 表示 台灣 相關 台北 安全 目前 處理
26 0,01733 判決 姓男 萬元 男子 法院 法官 認定
27 0,03029 提供 推出 分享 搭配 使用 記者 設計
28 0,02311 網友 綜合報 綜合報導 綜合 翻攝 翻攝自 臉書
29 0,0179 球隊 比賽 球員 教練 12 記者 分享 ```
chihao 15:17:20
哦可以啊,你要不要就直接開始?:stuck_out_tongue:
chihao 15:18:13
```8461 沒有 就是 自己 一個 很多 因為 我們```
a-chioh 15:18:19
yep
chihao 15:18:23
這個 :laughing:
a-chioh 15:18:30
^^
chihao 15:19:04
a-chioh 之前有跳過其他 g0v 的坑嗎?
a-chioh 15:19:32
我也發現,沒有stopwords 就會出現一個stopword的topic
a-chioh 15:19:36
a-chioh 15:19:43
M0E
chihao 15:20:00
難怪覺得 id 有點眼熟但想不太起來 XD
a-chioh 15:20:03
大部分都是萌典松
a-chioh 15:20:51
可是回去法國之後(三年前)就比較忙別的
a-chioh 15:21:07
所以很久沒有在這裡出現
a-chioh 15:21:28
想念^^
tkirby 15:21:30
a-chioh!
chihao 15:22:55
我想起來在哪裡看過你的 id 了,2015 年為了某藝術節做展覽的時候有整理過一份貢獻者 id 列表,因為你的 id 是 `a-` 開頭所以排在很前面(第一個?):laughing:
a-chioh 15:23:45
哈哈哈
tkirby 15:24:30
是說 disinfo 有前端網頁的需求嗎
chihao 15:25:01
@tkirby 目前只有這樣 https://0archive.tw/ :laughing:
tkirby 15:25:33
@a-chioh 有要再來台灣嗎 ( 還是已經在台灣了!? )
tkirby 15:25:42
喔喔 有 logo!
chihao 15:26:00
我有開始(用比較小的 dataset)試寫一些玩資料的 web 介面,但還沒寫出什麼,所以也還沒 push
a-chioh 15:27:54
我上個月有回來,在台南辦hackathon那天就得回去了......
tkirby 15:28:19
阿阿~ 太可惜~
chihao 15:28:39
好可惜 QQ
a-chioh 15:50:50
我也覺得 T.T
a-chioh 15:51:33
這個不是很有用的vis但是可以看model有什麼問題
hkazami 16:06:42
Fyi https://www.twreporter.org/a/information-warfare-business-weapons|https://www.twreporter.org/a/information-warfare-business-weapons

twreporter.org

寫手帶風向不稀奇:AI產文、侵入私人LINE群,輿論軍火商已全面升級 - 報導者 The Reporter

炒輿論、帶風向已非新鮮事,但背後是誰源源不絕提供武器?「輿論軍火商」又如何讓各種難核實的訊息送進封閉的人際網絡內?

bruce 17:09:09
想問有人看過這個心理測驗遊戲嗎?最近看到朋友玩,感覺這很像是來偷資料的遊戲
Image from iOS
bruce 17:14:51
https://www.facebook.com/WOW-Quiz-1086758181502446/
我看他粉絲頁描述自己成立於2012年,而我看粉絲頁卻是成立於2018/12/6,同時管理員6人,有4人來自中國,2人未知
tumi 12:22:44
我臉書版面上三不五時可看到(我都忍住不點因為想到劍橋分析)

2020-01-08

pm5 11:39:27
@fockerlee @ayw255 I left some notes about FB and PTT crawler https://g0v.hackmd.io/@chihao/0archive/https%3A%2F%2Fg0v.hackmd.io%2FlMQO37z6SbWNWo3R4-X_EA

HackMD

0archive 零時檔案局 :closed_book: - HackMD

# 0archive 零時檔案局 :closed_book: ## 想跳坑嗎 - [跳坑指南](<https://g0v.hackmd.io/cdctnMJWQpKWQYhSxB8sCw>) - [Roadmap](/L1

pm5 11:39:46
You might want to check them when you have some time.
bruce 12:08:46
是關於用url去爬post和comment的時候,會是在同一台機器或不同機器嗎?目前設計我是想同時爬多個post跟comment的url,然後用同一個fb帳號在同一台機器去爬(但直覺好像很容易被fb擋)但還沒想到是否需要用在不同台機器
pm5 12:10:50
是關於 url crawler 跟 post/comment content crawler 是同一支程式,還是不同程式
pm5 12:15:23
我可能需要知道 url crawler 與 content crawler 它們啟動與結束邏輯的 pseudocode,例如 url crawler 爬到什麼程度時會停下來,而沒爬完的部份以後怎麼辦;content crawler 每次啟動的時候都去 db 找出還沒爬過的 url 來爬,都爬完了就結束,那 content crawler 要多久重新啟動一次?
bruce 12:18:57
我有在想針對第一次抓的 content(post和comment)是不是改抓 page 的 raw html,然後post 和 comment 直接去解析,而不是再去爬(因為原本是用page 返回的網址清單再去爬 post 和 comment,但實際上返回清單的同時 page 也可以抓到 post 和 comment 的 raw html 了

第二次之後的 content ,就是透過 url 去更新
bruce 12:19:57
我想一下,我再針對我上面的想法更新一下 pseudo code
bruce 18:27:32
@pm5 想問兩個問題:
1. 目前 snapshot 的概念,每次都另存一份新的嗎?還是覆蓋舊的?
2. 目前臉書方面,是不是可以先只抓新的 post 和 comment,而之前抓過的 post 或 comment 就不會再去重抓來更新(但抓過的 post 有新的 comment 還是會抓),因為感覺 po 出來的內容好像很少變動
pm5 22:54:07
snapshot 是每次都存一份新的;我想可以先不抓已經抓過的 post &amp; comment 的內文更新
chihao 13:42:51
@pm5 @ayw255 @fockerlee 我已經在 g0v #sns 編輯台寫好 0archive 2019/12 工作月報了,希望明天可以從 g0v 粉專發文,請幫忙看看 :smile: 內容有用到 pm5 做的兩個初步分析,那個怒吼的 publish time 是不是需要再確認,我們抓到的時間跟他網站上顯示的時間不一樣(mouse hover 日期之後會顯示時間)
chihao 13:46:42
上週 disinf0thon 的參與者也有出現在月報文案裡哦 :laughing:
chihao 13:46:54
```2020 年的第一個週六,0archive 專案成員在台北舉辦第零次「不實資訊松」,不同的專業的參與者,包括軟體開發者、行銷、律師、事實查核員、社群經營、記者、寫 NLP 的人、AI(?)、跑者(?),以「g0v 小黑客松」的形式自由提案、展開討論、現場實作,感謝 15 位參與者的熱情參與和貢獻。```
pm5 18:02:13
關於爬蟲的架構,我們也可以在 middle2 上跑 scrapyd 來管理 scraper process,好處是會有些現成的 API 可以監看爬蟲的動態,壞處是我們的臉書爬蟲也要改成 scrapy spider 才能用上這套工具,不然就要維護兩套爬蟲的架構(跟現在的情況差不多啦) https://scrapyd.readthedocs.io/en/stable/
chihao 21:14:53
一國兩制(怕)

2020-01-09

pm5 11:31:28
看 log 最近幾個小時好像都沒有抓到東西...
chihao 11:31:53
。w。
chihao 11:32:44
幫 tag @ayw255 @fockerlee
bruce 11:41:48
我還沒放上去,所以不會有log
wenyi 12:16:42
咦我看看
wenyi 12:38:02
Error
wenyi 12:41:44
看起來是跟Multiprocess有關
https://stackoverflow.com/questions/31087268/multiprocessing-of-scrapy-spiders-in-parallel-processes

Stack Overflow

Multiprocessing of Scrapy Spiders in Parallel Processes

There as several similar questions that I have already read on Stack Overflow. Unfortunately, I lost links of all of them, because my browsing history got deleted unexpectedly. All of the above

pm5 13:19:10
看來我們還是改用 Twisted 做多工比較不會有問題 :thinking_face:
pm5 13:22:52
Scrapy 可以在一個 crawler process 裡跑多個 spider https://docs.scrapy.org/en/1.8/topics/practices.html#running-multiple-spiders-in-the-same-process,我們可能可以改成開很多 spider 放進同一個 CrawlerRunner 裡去跑,Twisted 應該會處理多工
pm5 13:31:17
之前我想說多跑幾個 process 應該也可以,沒想到會這樣。上面的錯誤訊息看起來可能是多個 subprocess 在搶同一個 port。
chun 21:31:49
@yuchunlin33 has joined the channel

2020-01-10

moneycat2128 22:49:44
@moneycat2128 has joined the channel

2020-01-12

pm5 11:59:07
I stopped automatic article discovery two days ago to manually test the new parallel crawler with twisted. The parallel crawling part works fine, but there seems to be some smaller problems with the crawler itself.
pm5 12:03:25
2) Somehow the crawler went back a lot further than it did before, in some cases retrieved articles on for example China Times as far back as 2017, which ... isn't really a bad thing. But it just took too long and we can't do this again in the next run.
pm5 12:04:39
The code is in `new_discover.py` in the master branch.
wenyi 10:16:07
@pm5 I had the spider to “follow” links on the article pages on the PTT branch that merged last Thursday (and set default depth to 5 to complement), the previous spider does not follow article pages but only category tabs or “next pages”; I think this is the reason why the crawler went a lot further
wenyi 10:16:41
should we set it back then?
pm5 11:16:30
It may be that, but I think the main reason is a bug I introduced, so that the spiders disregard the default depth. I am testing a fix now.

2020-01-13

julian07027 09:25:28
@julian07027 has joined the channel
pm5 11:28:48
發現我們會抓自由時報的 print 版
wenyi 11:52:35
喔喔!我來改一下article的pattern
wenyi 11:59:22
改好airtable &amp; 更新到db了,應該不會再抓到/print
wenyi 12:00:09
話說proxy ip 好像 (暫時?) 被kknews擋了,可能剛剛一次抓太多,晚上再來試試是不是一樣被擋

2020-01-14

pm5 08:09:30
@ronnywang 最近又抓了不少文章,先問一下硬碟空間還有多少?爬蟲有些問題要再修一下,之後應該可以砍掉一些不需要抓的東西
pm5 08:15:25
@chihao @ayw255 @fockerlee 昨天沒有排這禮拜的工作。大家記得自己到 meeting notes 寫自己這禮拜要做什麼,還有看一下這個月的計劃要不要修改喔。
bruce 08:55:09
chihao 09:18:27
好 \o/
wenyi