cofacts

Month: 2021-11

2021-11-01

2021-11-02

2021-11-03

2021-11-04

Galaxian85 15:46:45
@gasbomb_tw has joined the channel

2021-11-05

2021-11-06

2021-11-07

cai 22:21:17
這種出現奇怪文字的,是因為簡繁轉換問題?
https://cofacts.tw/article/1xz3asol7tt1x
https://cofacts.tw/article/8q5q2dqzs1eo
image.png
image.png
第二個我猜是 LINE 的 OCR,辨識不出來就會亂碼,有些字則是很明顯辨識成長得很像的

查了一下文字來源應該是 Facebook 的爆料公社,使用情境應該是某些版本的 Facebook 文章不能複製,截圖用 OCR 吧

2021-11-08

2021-11-09

antonio.argote 23:43:42
@antonio.argote has joined the channel

2021-11-10

mrorz 11:12:49
今日會議紀錄
今天稍微晚一點點,21:00 開始唷
https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FhEaUz91PR0mFftzDfydg8A

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 ## 2021 - [20211110 會議記錄](/hEaUz91PR0mFftzDfydg8A) - [20211103 會議記錄](/1WADYBY0TH27

Miley_c4jpn 11:48:43
@mami.takesada has joined the channel
github2 20:20:12

<https://github.com/cofacts/rumors-api/pull/266|#266 Update rumors-db version>

Update test/rumors-db after rumors-db's release <https://github.com/cofacts/rumors-db/releases/tag/release%2F20211105|https://github.com/cofacts/rumors-db/releases/tag/release%2F20211105> Will merge after build pass.

:white_check_mark: All checks have passed

github2 20:27:18

<https://github.com/cofacts/rumors-api/pull/266#issuecomment-965084050|Comment on #266 Update rumors-db version>

<https://coveralls.io/builds/44160070|Coverage Status> Coverage decreased (-0.1%) to 86.193% when pulling *<https://github.com/cofacts/rumors-api/commit/c7aa10fbf133a55899faf8cdcc9363a1d3ba8a37|c7aa10f> on update-rumors-db* into *<https://github.com/cofacts/rumors-api/commit/a01c249da506bef52cb909d24759918b9a01ebfe|a01c249> on master*.

2021-11-11

github2 00:25:18

<https://github.com/cofacts/takedowns/pull/22|#22 Add people to spammer list>

<https://g0v.hackmd.io/hEaUz91PR0mFftzDfydg8A#Spammers|https://g0v.hackmd.io/hEaUz91PR0mFftzDfydg8A#Spammers>

mrorz 08:35:20
那個搜尋結果第一篇非常驚人!
現在我們的列表裡面有三位「建志」、兩位「郭子源」惹
https://docs.google.com/spreadsheets/d/1Ytd69YU6z7Fgra81_79XrsPwQYV1Clh0yp5OZlk5Psg/edit#gid=0
cai 10:40:28
因為部長唱歌影片這串一個晚上變形太多,筆記部長影片這串`謠言變形` 😅
昨天晚上就有澄清新聞,但詳細版的大概今天才有
minexo79 19:28:23
@minexo79 has left the channel

2021-11-12

2021-11-14

kidstarkenny 10:17:24
Image from iOS
👍 2
kidstarkenny 10:17:40
賴上我看不懂的文字
3

2021-11-15

mrorz 02:17:14
Oh 你加到泰國 OpenDream 開發的泰文版分支了 XD
1
mrorz 02:17:38
@kidstarkenny 請加「Cofacts 真的假的 | 轉傳查證」唷
mrorz 16:09:09
今天 API 比較常出現 timeout 的問題,LINE bot 與網站都慢慢的
我發現
1. 過去 averag 700~900 request/min 的 API server 現在是 1.1K request/min, peak 是 1.7k,所以 API 變忙了
2. 有 252.7 requests/min 是浪費在 `IntrospectionQuery` ,且其與 GraphQL operation `getArticles` 的 rpm 相同,看起來像是有人寫了 `getArticles` query 但卻每次都打 `IntrospectionQuery`
3. 其他 highest request rate 的 operation 看起來都是 rumors-site 的 request 較多
image.png
如果這個狀況持續的話,我會考慮升級 linode 成 160USD/mo,32GB RAM 的版本(Shared CPU PLans)
https://www.linode.com/pricing/
跟 6 月相比,現在的 loading 屬於正常

6 月時截圖
https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FMhHehw-oQ2OqTVWFUxNRfA
看起來都很正常,不知道為啥會這麼慢
SSH 進去 restart API --> 跑 GetArticle,需要 5s
restart DB --> 跑 GetArticle,好像有變快?
API 與 DB 的 Log 都沒發現有啥異狀⋯⋯
kelvinho84 2021-11-15 17:13:41
disable the introspection ?
我也在想要不要 disable
雖然其實我自己也很常用 GraphQL playground,一 disable introspection 就會變很難用(掩面)
🤔 1

2021-11-16

mrorz 13:04:07
【AI category classifier 訓練資料生成討論】cc/ @ggm @darkbtf @gary96302000.eecs96

隨著公投接近,我想要宣傳讓大家用「主題」+ RSS 訂閱追蹤特定主題。但在這之前,我想要先把之前沒有建立的、使用者對 category 的 feedback 更新 AI model 這件事情做好。

過去 2 週開會時與 @ggm 討論過後,我想要 propose 下面這個機制,用來 review 餵給 rumors-ai-bert 的 ground truth:
https://g0v.hackmd.io/EcrdwfZrQOSTGX7yK6nn4w?view

整個機制流程是:
1. 執行 Script 1,給定一個時間點,把該時間點之後符合規則的 article category 產出 xlsx 讓我們手動上傳到 google sheet 進行人工 review(例檔
2. 人工 review:在 sheet 上決定是否要 adopt 該 article category
3. 執行 Script 2,給定此 google sheet,產出要餵給 AI 的 JSON 檔案(格式見 design doc)
想請大家看看這個流程有沒有漏掉什麼~

g0v.hackmd.io

Cofacts category review generator design document - HackMD

我覺得需要 review 的有幾點:

1. Ground truth 的基準 = 該 article-category 連結的評價,正面大於負面
2. 我們進行的人工 Review 與網友在 cofacts 網站上面對 article-category 的評價權重相同(都是 +1 或 -1)
3. 對 AI 標記與人工標記的差別待遇(AI 標記要先有網友給予正評,才會納入 review;人工標記會直接納入 review)
另外需要 @ggm 提供若水的 ground truth,我們應該會需要另外一個 script 把若水的 label 寫成 article-category 並且自動給予正評
https://github.com/cofacts/ground-truth 我先開了一個放這裡,之後可能可以一批一批的整理過來?這個 repo 裡面的 `20200324_14908.zip` 就是之前若水標的那批
🤔 1
Denny George 14:46:58
@denny.george90 has joined the channel

2021-11-17

mrorz 13:49:25
今日議程: https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FlYTN-n1xQyqlHB9oeaPvuQ
會同時在 Workis 與 Gather 進行ㄛ
現場參加者會有伴手禮可以吃 XD
cai 19:42:11
已被刪除的回應(例如:廣告留言)在`使用現有回應`功能時會出現,之後實作廣告留言時可能要注意這點
https://cofacts.tw/article/2xlk65b6939gu
Screenshot 2021-11-17 at 19-37-05 詐騙集團 打疫苗請按1 Cofacts 真的假的.png
我也有一樣的困擾 QQ
想了一下應該是可以在網站上做 filter,所以開票紀錄囉
https://github.com/cofacts/rumors-site/issues/456
👍 1
github2 20:56:34

<https://github.com/cofacts/rumors-site/issues/456|#456 Filter out deleted replies (reply with no articleReplies) in existing reply / reply search>

Discussion in slack: <https://user-images.githubusercontent.com/108608/142204449-94fbb4c1-cd72-4a79-8546-66f4a5c80351.png|圖片> "Use existing reply" will now list out deleted replies. Although we cannot filter out replies from API (because `articleReplies` are not stored in reply), we can remove replies with no normal article replies when listing them out in UI.

2021-11-19

Yenlee 09:36:09
@yenlee789 has joined the channel
mrorz 12:59:42
Cofacts 現在負載不正常
image.png
我開啟了 cloudflare under attack 模式
發現 under attack 會讓 API 壞掉⋯⋯只好重新打開
看來是想要 injection 呢
Request 數量也不少
168.158.119.0/24, 103.22.201.0/24 先擋掉如何
這是 nginx log, 前面是 cloudflare
那兩個 IP 是 cloudflare ㄅ
load 回升到 10 哎
開啟 I’m under attack mode 並且針對 api.cofacts.tw 設定 page rule 排除囉

剛才測用 curl 打 api.cofacts.tw 會通
在 cloudflare 上 block `116.204.211.21` 之後 API 的 spam 也消失了

看起來是來自單一主機的攻擊
kelvinho84 2021-11-19 14:16:37
can ur nginx set rate limit to block it?
剛才不小心把 chatbot 也擋住 x_x
Cloudflare 顯示對方最後一次 request 在 14:42:19 看起來是停下來了
cai 13:17:32
我在想是不是跟廣告留言有關,剛看了一下又有一堆新的。他們是怎樣做到短時間留多篇,爬蟲嗎?
請問是哪一篇呢
他這篇留不同的留言
https://cofacts.tw/article/2iapjcy4kn8dj

其他都是相同內容等下再補,現在很卡
感謝感謝
我晚點看看有沒有新的帳號要水桶
https://www.twreporter.org/a/online-scams-fraud-tool-insiders 所以這種到公開管道拉人到私密群組行騙的,是「引流」產業的人
感謝 @iacmai ,以上文章內的所有 reply request 的 user id 都收錄到這裡囉!

https://docs.google.com/spreadsheets/d/1Ytd69YU6z7Fgra81_79XrsPwQYV1Clh0yp5OZlk5Psg/edit#gid=0

幾個觀察
• 22 個 spammer 裡面,cai 回報中常出現的約為 5 人左右,會一直重複使用現有帳號,未來封鎖是有效益的(對我們來說僅是一次性的公告與刪除,但卻可以 cancel 未來該 spammer 所有的 effort)。
• 現有 spammer 會更換廣告字詞與所廣告的 LINE ID。網站目前不會顯示 comment 的 user name 所以會讓人誤以為有新人,但其實是同一個 Cofacts user 所為。
mrorz 13:54:50
開啟 I’m under attack mode 並且針對 api.cofacts.tw 設定 page rule 排除囉

剛才測用 curl 打 api.cofacts.tw 會通
mrorz 14:13:27
在 cloudflare 上 block `116.204.211.21` 之後 API 的 spam 也消失了

看起來是來自單一主機的攻擊

2021-11-20

2021-11-21

ggm 16:13:06
https://github.com/cofacts/ground-truth 我先開了一個放這裡,之後可能可以一批一批的整理過來?這個 repo 裡面的 `20200324_14908.zip` 就是之前若水標的那批

cofacts/ground-truth

🙏 1

2021-11-22

cai 19:45:04
為什麼一篇VPN廣告文出現各種奇怪回答😆
https://cofacts.tw/article/h094j93pmsgy
😆 2

2021-11-23

cai 19:36:22
https://cofacts.tw/article/1ambr7sq4vkge 這篇是詐騙但是有個資怎麼辦 🤔
https://youtu.be/EiVWlzHJYVY 直接把流程都丟出來了XD
可以隱去個資唷
個資好像是名字的部分,代換成空白應該 OK?
還有身分證字號、地址

2021-11-24

mrorz 17:33:34
今日會議記錄
https://g0v.hackmd.io/@mrorz/cofacts-meeting-notes/%2FYaQbzua8SWmkm2DNSGD-eQ

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 ## 2021 - [20211124 會議記錄](/YaQbzua8SWmkm2DNSGD-eQ) - [20211117 會議記錄](/lYTN-n1xQyql

我們先吃飯唷
大概晚 10 分鐘