#cofacts

2021-11-01
nonumpa 18:03:43
@iacmai 是廣告偵測機器人嗎 XD
cai 18:06:43
`等你來答`浮出來的XD
cai 18:08:30
剛看到3Q那邊有澄清想說要不要把昨天寫的回應改掉,順便看一下`等你來答` 就發現了
mrorz 18:55:34
有人按讚超煩
2021-11-02
lucien 03:31:09
你是說從 A 文的回報者,找他所有回報文章嗎
lucien 03:32:51
如果是從回報補充說明的頭像點過去,到此回報者的文章列表這樣設計應該是可以的
lucien 03:33:21
問題可能是同回報者的文章列表,有沒有現成 UI componet 直接兜一下
mrorz 13:01:17
已經把這些補充欄的作者補進 spreadsheet 了
感謝回報 m(_ _)m
https://docs.google.com/spreadsheets/d/1Ytd69YU6z7Fgra81_79XrsPwQYV1Clh0yp5OZlk5Psg/edit#gid=0
cai 13:09:22
又有新的
https://cofacts.tw/article/35s3oqkdq8qys
https://cofacts.tw/article/1cxozq9qv0419
https://cofacts.tw/article/2oohq47wv9043



https://cofacts.tw/article/5480703300823-rumor
變體來了,丟連結然後叫人連結文章的留言區,結果又跟之前一樣加賴 😆
丟帳號google得到一個律師名字跟律師證號,網頁點進去查無資料
再丟去律師查詢系統 名字查無資料,證號根本不同人

這堆要人加*賴*
cai 13:32:01
又有新的,都同一位,太多篇懶得翻了
https://cofacts.tw/article/35s3oqkdq8qys
https://cofacts.tw/article/1cxozq9qv0419
https://cofacts.tw/article/2oohq47wv9043
https://cofacts.tw/article/5drsegt3owa8
https://cofacts.tw/article/1nlqbb03g7pit


變體
https://cofacts.tw/article/5480703300823-rumor
丟連結然後叫人連結文章的留言區,結果又跟之前一樣加賴 😆
丟帳號google得到一個律師名字跟律師證號
https://i.imgur.com/W45mZAK.png
https://www.law110.com.tw/forum_content.aspx?pid=1364230 點個人進去查無資料
再丟去律師查詢系統 名字查無資料,證號根本不同人
mrorz 14:25:33
spreadsheet 又有新人進帳了~
這些廣告真的很詭異囧
2021-11-03
2021-11-04
Galaxian85 15:46:45
@gasbomb_tw has joined the channel
2021-11-05
cai 21:41:48
新人~~ 一樣是舊串浮出發現
https://cofacts.tw/article/3ojnst2jfbbgi

可以推測是 https://cofacts.tw/search?type=messages&q=詐騙 去每篇留
看到就倒讚方便辨認新人
2021-11-06
cai 17:28:36
https://cofacts.tw/article/AV__-TGbyCdS-nWhuj2z
又一個新的,好像可以開個專文來研究😆
cai 18:42:14
確定是用`詐騙` 當關鍵字去搜尋的
1. 這篇不是詐騙也留 :laughing:
2. 搜尋結果第一篇 幾乎每天有新人
2021-11-07
cai 22:21:17
這種出現奇怪文字的,是因為簡繁轉換問題?
https://cofacts.tw/article/1xz3asol7tt1x
https://cofacts.tw/article/8q5q2dqzs1eo
image.png
image.png
第二個我猜是 LINE 的 OCR,辨識不出來就會亂碼,有些字則是很明顯辨識成長得很像的

查了一下文字來源應該是 Facebook 的爆料公社,使用情境應該是某些版本的 Facebook 文章不能複製,截圖用 OCR 吧
2021-11-08
nonumpa 09:00:51
第二個我猜是 LINE 的 OCR,辨識不出來就會亂碼,有些字則是很明顯辨識成長得很像的

查了一下文字來源應該是 Facebook 的爆料公社,使用情境應該是某些版本的 Facebook 文章不能複製,截圖用 OCR 吧
2021-11-09
antonio.argote 23:43:42
@antonio.argote has joined the channel
2021-11-10
mrorz 11:12:49
今日會議紀錄
今天稍微晚一點點,21:00 開始唷
https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FhEaUz91PR0mFftzDfydg8A
HackMD
# Cofacts 會議記錄 ## 2021 - [20211110 會議記錄](/hEaUz91PR0mFftzDfydg8A) - [20211103 會議記錄](/1WADYBY0TH27
Mamie_c4jpn 11:48:43
@mami.takesada has joined the channel
github2 20:20:12
Update test/rumors-db after rumors-db's release <https://github.com/cofacts/rumors-db/releases/tag/release%2F20211105|https://github.com/cofacts/rumors-db/releases/tag/release%2F20211105> Will merge after build pass.
:white_check_mark: All checks have passed
github2 20:27:18
<https://coveralls.io/builds/44160070|Coverage Status> Coverage decreased (-0.1%) to 86.193% when pulling *<https://github.com/cofacts/rumors-api/commit/c7aa10fbf133a55899faf8cdcc9363a1d3ba8a37|c7aa10f> on update-rumors-db* into *<https://github.com/cofacts/rumors-api/commit/a01c249da506bef52cb909d24759918b9a01ebfe|a01c249> on master*.
2021-11-11
github2 00:25:18
<https://g0v.hackmd.io/hEaUz91PR0mFftzDfydg8A#Spammers|https://g0v.hackmd.io/hEaUz91PR0mFftzDfydg8A#Spammers>
mrorz 08:35:20
Replied to a thread: 2021-10-31 19:54:42
那個搜尋結果第一篇非常驚人!
現在我們的列表裡面有三位「建志」、兩位「郭子源」惹
https://docs.google.com/spreadsheets/d/1Ytd69YU6z7Fgra81_79XrsPwQYV1Clh0yp5OZlk5Psg/edit#gid=0
mrorz 08:36:50
Ohhh 那個郭子源就是之前 @iacmai google 到的「律師」耶
cai 10:40:28
因為部長唱歌影片這串一個晚上變形太多,筆記部長影片這串`謠言變形` 😅
昨天晚上就有澄清新聞,但詳細版的大概今天才有
minexo79 19:28:23
@minexo79 has left the channel
2021-11-12
cai 11:46:39
還有加別的事件的變形
https://cofacts.tw/article/1kogt7pdl6ri4
2021-11-14
kidstarkenny 10:17:24
Image from iOS
  • 👍2
kidstarkenny 10:17:40
賴上我看不懂的文字
  • 3
2021-11-15
mrorz 02:17:14
Oh 你加到泰國 OpenDream 開發的泰文版分支了 XD
  • 1
mrorz 02:17:38
@kidstarkenny 請加「Cofacts 真的假的 | 轉傳查證」唷
mrorz 16:09:09
今天 API 比較常出現 timeout 的問題,LINE bot 與網站都慢慢的
我發現
1. 過去 averag 700~900 request/min 的 API server 現在是 1.1K request/min, peak 是 1.7k,所以 API 變忙了
2. 有 252.7 requests/min 是浪費在 `IntrospectionQuery` ,且其與 GraphQL operation `getArticles` 的 rpm 相同,看起來像是有人寫了 `getArticles` query 但卻每次都打 `IntrospectionQuery`
3. 其他 highest request rate 的 operation 看起來都是 rumors-site 的 request 較多
image.png
  • 🤔1
如果這個狀況持續的話,我會考慮升級 linode 成 160USD/mo,32GB RAM 的版本(Shared CPU PLans)
https://www.linode.com/pricing/
跟 6 月相比,現在的 loading 屬於正常

6 月時截圖
https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FMhHehw-oQ2OqTVWFUxNRfA
看起來都很正常,不知道為啥會這麼慢
SSH 進去 restart API --> 跑 GetArticle,需要 5s
restart DB --> 跑 GetArticle,好像有變快?
API 與 DB 的 Log 都沒發現有啥異狀⋯⋯
kelvinho84 2021-11-15 17:13:41
disable the introspection ?
我也在想要不要 disable
雖然其實我自己也很常用 GraphQL playground,一 disable introspection 就會變很難用(掩面)
mrorz 16:18:07
如果這個狀況持續的話,我會考慮升級 linode 成 160USD/mo,32GB RAM 的版本(Shared CPU PLans)
https://www.linode.com/pricing/
mrorz 16:46:48
跟 6 月相比,現在的 loading 屬於正常

6 月時截圖
https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FMhHehw-oQ2OqTVWFUxNRfA
mrorz 16:49:18
看起來都很正常,不知道為啥會這麼慢
mrorz 16:52:17
SSH 進去 restart API --> 跑 GetArticle,需要 5s
restart DB --> 跑 GetArticle,好像有變快?
mrorz 16:54:24
API 與 DB 的 Log 都沒發現有啥異狀⋯⋯
kelvinho84 17:13:41
disable the introspection ?
mrorz 19:42:22
我也在想要不要 disable
雖然其實我自己也很常用 GraphQL playground,一 disable introspection 就會變很難用(掩面)
2021-11-16
mrorz 13:04:07
【AI category classifier 訓練資料生成討論】cc/ @ggm @darkbtf @gary96302000.eecs96

隨著公投接近,我想要宣傳讓大家用「主題」+ RSS 訂閱追蹤特定主題。但在這之前,我想要先把之前沒有建立的、使用者對 category 的 feedback 更新 AI model 這件事情做好。

過去 2 週開會時與 @ggm 討論過後,我想要 propose 下面這個機制,用來 review 餵給 rumors-ai-bert 的 ground truth:
https://g0v.hackmd.io/EcrdwfZrQOSTGX7yK6nn4w?view

整個機制流程是:
1. 執行 Script 1,給定一個時間點,把該時間點之後符合規則的 article category 產出 xlsx 讓我們手動上傳到 google sheet 進行人工 review(例檔
2. 人工 review:在 sheet 上決定是否要 adopt 該 article category
3. 執行 Script 2,給定此 google sheet,產出要餵給 AI 的 JSON 檔案(格式見 design doc)
想請大家看看這個流程有沒有漏掉什麼~
  • 🤔1
我覺得需要 review 的有幾點:

1. Ground truth 的基準 = 該 article-category 連結的評價,正面大於負面
2. 我們進行的人工 Review 與網友在 cofacts 網站上面對 article-category 的評價權重相同(都是 +1 或 -1)
3. 對 AI 標記與人工標記的差別待遇(AI 標記要先有網友給予正評,才會納入 review;人工標記會直接納入 review)
另外需要 @ggm 提供若水的 ground truth,我們應該會需要另外一個 script 把若水的 label 寫成 article-category 並且自動給予正評
https://github.com/cofacts/ground-truth 我先開了一個放這裡,之後可能可以一批一批的整理過來?這個 repo 裡面的 `20200324_14908.zip` 就是之前若水標的那批
mrorz 13:38:59
我覺得需要 review 的有幾點:

1. Ground truth 的基準 = 該 article-category 連結的評價,正面大於負面
2. 我們進行的人工 Review 與網友在 cofacts 網站上面對 article-category 的評價權重相同(都是 +1 或 -1)
3. 對 AI 標記與人工標記的差別待遇(AI 標記要先有網友給予正評,才會納入 review;人工標記會直接納入 review)
mrorz 13:39:45
另外需要 @ggm 提供若水的 ground truth,我們應該會需要另外一個 script 把若水的 label 寫成 article-category 並且自動給予正評
Denny George 14:46:58
@denny.george90 has joined the channel
2021-11-17
mrorz 13:49:25
今日議程: https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FlYTN-n1xQyqlHB9oeaPvuQ
會同時在 Workis 與 Gather 進行ㄛ
現場參加者會有伴手禮可以吃 XD
cai 19:42:11
已被刪除的回應(例如:廣告留言)在`使用現有回應`功能時會出現,之後實作廣告留言時可能要注意這點
https://cofacts.tw/article/2xlk65b6939gu
Screenshot 2021-11-17 at 19-37-05 詐騙集團 打疫苗請按1 Cofacts 真的假的.png
  • 👍1
我也有一樣的困擾 QQ
想了一下應該是可以在網站上做 filter,所以開票紀錄囉
https://github.com/cofacts/rumors-site/issues/456
cai 19:56:50
規則好像有變,用詐騙搜尋第一則這兩週看會不准
似乎改找搜尋結果在N個月內的回應?[ 待確認 ]
github2 20:56:34
Discussion in slack: <https://user-images.githubusercontent.com/108608/142204449-94fbb4c1-cd72-4a79-8546-66f4a5c80351.png|圖片> "Use existing reply" will now list out deleted replies. Although we cannot filter out replies from API (because `articleReplies` are not stored in reply), we can remove replies with no normal article replies when listing them out in UI.
mrorz 20:57:12
我也有一樣的困擾 QQ
想了一下應該是可以在網站上做 filter,所以開票紀錄囉
https://github.com/cofacts/rumors-site/issues/456
2021-11-19
Yenlee 09:36:09
@yenlee789 has joined the channel
mrorz 12:59:42
Cofacts 現在負載不正常
image.png
我開啟了 cloudflare under attack 模式
發現 under attack 會讓 API 壞掉⋯⋯只好重新打開
看來是想要 injection 呢
Request 數量也不少
168.158.119.0/24, 103.22.201.0/24 先擋掉如何
這是 nginx log, 前面是 cloudflare
那兩個 IP 是 cloudflare ㄅ
load 回升到 10 哎
開啟 I’m under attack mode 並且針對 api.cofacts.tw 設定 page rule 排除囉

剛才測用 curl 打 api.cofacts.tw 會通
在 cloudflare 上 block `116.204.211.21` 之後 API 的 spam 也消失了

看起來是來自單一主機的攻擊
kelvinho84 2021-11-19 14:16:37
can ur nginx set rate limit to block it?
剛才不小心把 chatbot 也擋住 x_x
Cloudflare 顯示對方最後一次 request 在 14:42:19 看起來是停下來了
cai 13:17:32
我在想是不是跟廣告留言有關,剛看了一下又有一堆新的。他們是怎樣做到短時間留多篇,爬蟲嗎?
請問是哪一篇呢
他這篇留不同的留言
https://cofacts.tw/article/2iapjcy4kn8dj

其他都是相同內容等下再補,現在很卡
感謝感謝
我晚點看看有沒有新的帳號要水桶
https://www.twreporter.org/a/online-scams-fraud-tool-insiders 所以這種到公開管道拉人到私密群組行騙的,是「引流」產業的人
感謝 @iacmai ,以上文章內的所有 reply request 的 user id 都收錄到這裡囉!

https://docs.google.com/spreadsheets/d/1Ytd69YU6z7Fgra81_79XrsPwQYV1Clh0yp5OZlk5Psg/edit#gid=0

幾個觀察
• 22 個 spammer 裡面,cai 回報中常出現的約為 5 人左右,會一直重複使用現有帳號,未來封鎖是有效益的(對我們來說僅是一次性的公告與刪除,但卻可以 cancel 未來該 spammer 所有的 effort)。
• 現有 spammer 會更換廣告字詞與所廣告的 LINE ID。網站目前不會顯示 comment 的 user name 所以會讓人誤以為有新人,但其實是同一個 Cofacts user 所為。
mrorz 13:24:03
我開啟了 cloudflare under attack 模式
mrorz 13:25:59
發現 under attack 會讓 API 壞掉⋯⋯只好重新打開
mrorz 13:27:10
請問是哪一篇呢
cai 13:32:16
他這篇留不同的留言
https://cofacts.tw/article/2iapjcy4kn8dj

其他都是相同內容等下再補,現在很卡
lucien 13:33:53
看來是想要 injection 呢
mrorz 13:35:14
Request 數量也不少
lucien 13:36:12
168.158.119.0/24, 103.22.201.0/24 先擋掉如何
mrorz 13:41:03
這是 nginx log, 前面是 cloudflare
那兩個 IP 是 cloudflare ㄅ
cai 13:42:20
我有用 cofacts.tw/search?type=messages&q=詐騙&start=now-1M%2Fd 去查,就沒有每篇都有
mrorz 13:47:09
load 回升到 10 哎
mrorz 13:54:50
Replied to a thread: 2021-11-19 12:59:42
開啟 I’m under attack mode 並且針對 api.cofacts.tw 設定 page rule 排除囉

剛才測用 curl 打 api.cofacts.tw 會通
mrorz 14:13:27
Replied to a thread: 2021-11-19 12:59:42
在 cloudflare 上 block `116.204.211.21` 之後 API 的 spam 也消失了

看起來是來自單一主機的攻擊
kelvinho84 14:16:37
can ur nginx set rate limit to block it?
mrorz 14:17:55
剛才不小心把 chatbot 也擋住 x_x
mrorz 14:20:52
感謝感謝
我晚點看看有沒有新的帳號要水桶
mrorz 14:50:17
Cloudflare 顯示對方最後一次 request 在 14:42:19 看起來是停下來了
mrorz 21:22:59
https://www.twreporter.org/a/online-scams-fraud-tool-insiders 所以這種到公開管道拉人到私密群組行騙的,是「引流」產業的人
2021-11-20
2021-11-21
ggm 16:13:06
Replied to a thread: 2021-11-16 13:04:07
https://github.com/cofacts/ground-truth 我先開了一個放這裡,之後可能可以一批一批的整理過來?這個 repo 裡面的 `20200324_14908.zip` 就是之前若水標的那批
  • 🙏1
2021-11-22
cai 19:45:04
為什麼一篇VPN廣告文出現各種奇怪回答😆
https://cofacts.tw/article/h094j93pmsgy
  • 😆2
2021-11-23
cai 19:36:22
https://cofacts.tw/article/1ambr7sq4vkge 這篇是詐騙但是有個資怎麼辦 🤔
https://youtu.be/EiVWlzHJYVY 直接把流程都丟出來了XD
可以隱去個資唷
個資好像是名字的部分,代換成空白應該 OK?
還有身分證字號、地址
cai 19:37:33
https://youtu.be/EiVWlzHJYVY 直接把流程都丟出來了XD
2021-11-24
bil 00:19:38
可以隱去個資唷
mrorz 10:55:47
個資好像是名字的部分,代換成空白應該 OK?
cai 11:29:45
還有身分證字號、地址
mrorz 17:33:34
HackMD
# Cofacts 會議記錄 ## 2021 - [20211124 會議記錄](/YaQbzua8SWmkm2DNSGD-eQ) - [20211117 會議記錄](/lYTN-n1xQyql
我們先吃飯唷
大概晚 10 分鐘
mrorz 19:54:57
我們先吃飯唷
大概晚 10 分鐘
2021-11-25
mrorz 13:34:13
Replied to a thread: 2021-11-19 13:17:32
感謝 @iacmai ,以上文章內的所有 reply request 的 user id 都收錄到這裡囉!

https://docs.google.com/spreadsheets/d/1Ytd69YU6z7Fgra81_79XrsPwQYV1Clh0yp5OZlk5Psg/edit#gid=0

幾個觀察
• 22 個 spammer 裡面,cai 回報中常出現的約為 5 人左右,會一直重複使用現有帳號,未來封鎖是有效益的(對我們來說僅是一次性的公告與刪除,但卻可以 cancel 未來該 spammer 所有的 effort)。
• 現有 spammer 會更換廣告字詞與所廣告的 LINE ID。網站目前不會顯示 comment 的 user name 所以會讓人誤以為有新人,但其實是同一個 Cofacts user 所為。
github2 14:07:21
今天我們更新了詐騙使用者的 ID 列表以及其行騙內文,也準備了執行隱藏作業的公告,請大家過目看看有沒有問題唷!

https://github.com/cofacts/takedowns/pull/24/files?short_path=40fc26f#diff-40fc26ff668aecd960f64a62fb77138112fe8b17ade8fde941f1884681f15e39

沒有問題的話,明日凌晨就可以把這些使用者標記成 spammer。雖然「隱藏」的部分還沒實作完成,但有了標記之後,這些 spammer 貼新的 comment 就不會增加回報次數、也不會把舊文章頂到文章列表的前面來唷。
沒有問題的話可以 approve PR 的人也請幫忙 approve 那則公告,這樣我凌晨處理的時候才有 public URL 可以填 🙏
mrorz 14:10:27
Replied to a thread: 2021-11-25 14:07:21
今天我們更新了詐騙使用者的 ID 列表以及其行騙內文,也準備了執行隱藏作業的公告,請大家過目看看有沒有問題唷!

https://github.com/cofacts/takedowns/pull/24/files?short_path=40fc26f#diff-40fc26ff668aecd960f64a62fb77138112fe8b17ade8fde941f1884681f15e39

沒有問題的話,明日凌晨就可以把這些使用者標記成 spammer。雖然「隱藏」的部分還沒實作完成,但有了標記之後,這些 spammer 貼新的 comment 就不會增加回報次數、也不會把舊文章頂到文章列表的前面來唷。
mrorz 15:12:40
沒有問題的話可以 approve PR 的人也請幫忙 approve 那則公告,這樣我凌晨處理的時候才有 public URL 可以填 🙏
cai 17:57:56
昨天講的刷tag 問題,稍微觀察後發現不只`中國影響力` 其他tag也有標錯問題。
推測是新手編輯的原因是本週才頻繁出現。
可能要在分類描述上寫更具體,或者另外寫教學文

舉例: https://cofacts.tw/article/2pqwcnpap35z7
被多列了`免費訊息詐騙`、`連署`、`中國影響力`
(先放著沒按反對)
  • 👍1
啊手癢按了一個反對 XD
mrorz 18:14:40
啊手癢按了一個反對 XD
mrorz 23:08:18
舊的文字換新的影片亂傳,然後被抓到 XD
https://news.pts.org.tw/article/555737

之前相同文字配的影片:https://www.mygopen.com/2021/11/Weiwuying.html
  • 👀1
2021-11-26
github2 01:40:46
已經把公告過的使用者標記為 blocked 了
希望未來這幾天文章列表會暫時不會被這些廣告戳上來 XD
mrorz 01:53:39
Replied to a thread: 2021-11-26 01:40:46
已經把公告過的使用者標記為 blocked 了
希望未來這幾天文章列表會暫時不會被這些廣告戳上來 XD
  • 🌸1
  • 1
2021-11-27
2021-11-28
2021-11-29
Sunny Fang 12:02:40
@yusfan21 has joined the channel
Tarunima P 12:53:37
@tarunima has joined the channel
github2 13:58:07
Corresponds to <https://g0v.hackmd.io/rf0A7MRfTOC613QZmFehQA#2nd-milestone-blocking-mechanism|2nd milestone> in user blocking mechanism • Adds `blockedReason` field to `User` object type • Necessary for website to determine if we should block an user • `ListBlockedUsers` API • So that we can list all blocked user &amp; their blocked contents in milestone 3
:white_check_mark: All checks have passed
github2 14:00:26
<https://coveralls.io/builds/44589306|Coverage Status> Coverage increased (+0.06%) to 86.19% when pulling *<https://github.com/cofacts/rumors-api/commit/6a82a9d4329d38de2ba89782d274016d9ea12b34|6a82a9d> on blocked-user* into *<https://github.com/cofacts/rumors-api/commit/4719a8afebe0b846876b8deabe44dd50916f8afa|4719a8a> on master*.
mrorz 14:57:44
外送茶掰掰
2021-11-30
mrorz 00:26:45
看起來應該不會有人傳訊息進來 match 到這篇 XD
希望不會影響問其他訊息的人
cai 00:30:22
地址都有,可以丟給台中市警察局了(誤)
github2 00:39:55
This is part of <https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2Frf0A7MRfTOC613QZmFehQA|the 2nd milestone> of user blocking mechanism. • Loads `blockedReason` in `AppLayout` and set cookie `isUserBlocked` if blockedReason persists • Once the cookie is set, there is no way to clear the cookie, unless they use devtools. • `useIsUserBlocked()` hook can read if the current browser is owned by blocked user both on browser &amp; during server-side render • Logging out does not clear `isUserBlocked` cookie, thus the value is persisted
:white_check_mark: All checks have passed
github2 00:42:41
<https://coveralls.io/builds/44605203|Coverage Status> Coverage remained the same at 75.363% when pulling *<https://github.com/cofacts/rumors-site/commit/abba9a8d1d01099c6c2ed604acf2e6f0c3f68a6e|abba9a8> on block-user-cookie* into *<https://github.com/cofacts/rumors-site/commit/9a68c273d1fa0199fc8c39f6426117b3ad3fce2e|9a68c27> on master*.