cofacts

Month: 2024-04

2024-04-01

mrorz 12:28:32
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Fi3DlTDBcRkahYOmTwcQ2hQ

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2024 -

mrorz 15:55:25
那種 tiktok 上講話的影片
要可以用 AI 生了
https://www.arcads.ai/
不過對 cofacts 來說,大概就是逐字稿處理這樣
mrorz 15:55:25
那種 tiktok 上講話的影片
要可以用 AI 生了
https://www.arcads.ai/

arcads.ai

Arcads - Create engaging video ads using AI

Generate high-quality marketing videos quickly with Arcads, an AI-powered app that transforms a basic product link or text into engaging short video ads.

不過對 cofacts 來說,大概就是逐字稿處理這樣
😱 1 👀 1
cai 22:21:51
https://www.cna.com.tw/news/aipl/202403270400.aspx
> 事實查核人員也疲於奔命,例如2016年成立的平台「真的假的」(Cofacts)在台灣2020年大選期間,可在24小時內回覆約80%的查核請求,但在今年的大選日,Cofacts的回覆率僅達15%。
cai 22:21:51
被新聞提到了
https://www.cna.com.tw/news/aipl/202403270400.aspx
> 事實查核人員也疲於奔命,例如2016年成立的平台「真的假的」(Cofacts)在台灣2020年大選期間,可在24小時內回覆約80%的查核請求,但在今年的大選日,Cofacts的回覆率僅達15%。

中央社 CNA

AI及深偽影音威脅激增 專家示警台灣強化應對工具 | 政治 | 中央社 CNA

微軟研究院(Microsoft Research)兩名專家近日應英國「經濟學人」期刊邀請撰文分析人工智慧(AI)、深偽影音等新興科技對民主政治構成的挑戰,提到台灣的政府機構和研究組織缺乏及時應對工具。

👀 3

2024-04-02

mrorz 15:07:07
@acerxp511 有空可以幫查一下這個逐字稿編輯紀錄裡面的 userId
https://cofacts.tw/article/opw6J44BBMtPEaE0GCyM
96TY4n0BnX5-aOa4OpAo
查了一下(截至2024/03/31),他還有在 article `mpw2J44BBMtPEaE09ixl` 編輯逐字稿
感謝感謝
`5JzRIY4BBMtPEaE0BBcn` 這個 article 也被入侵了,不過修改的人我還查不到,好像是今天才創帳號的
mrorz 15:07:07
@acerxp511 有空可以幫查一下這個逐字稿編輯紀錄裡面的 userId,是二次詐騙呢 QQ
https://cofacts.tw/article/opw6J44BBMtPEaE0GCyM
96TY4n0BnX5-aOa4OpAo
查了一下(截至2024/03/31),他還有在 article `mpw2J44BBMtPEaE09ixl` 編輯逐字稿
感謝感謝
`5JzRIY4BBMtPEaE0BBcn` 這個 article 也被入侵了,不過修改的人我還查不到,好像是今天才創帳號的

2024-04-03

@null 09:24:06

Health Check Name: cofacts.tw
Health Check ID: 26c31cd565ee9448e8cff64528205cd3
Time : 2024-04-03 01:23:52 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
@null 09:24:19

Health Check Name: api.cofacts.tw
Health Check ID: 86c058fd4a13c3a35fd33ecb2c6e74cf
Time : 2024-04-03 01:24:08 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
@null 09:24:29

Health Check Name: line-bot.cofacts.tw
Health Check ID: 43bacff73e318b0ee85fdcda1f7d8627
Time : 2024-04-03 01:24:20 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
mrorz 09:26:58
感覺網站有變慢
mrorz 09:26:58
感覺網站有變慢
@null 09:27:57

Health Check Name: api.cofacts.tw
Health Check ID: 86c058fd4a13c3a35fd33ecb2c6e74cf
Time : 2024-04-03 01:27:44 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
@null 09:28:54

Health Check Name: line-bot.cofacts.tw
Health Check ID: 43bacff73e318b0ee85fdcda1f7d8627
Time : 2024-04-03 01:28:43 +0000 UTC
Status: Unhealthy
Failure reason: Response code mismatch error
Expected codes: [200]
Received code: 520
@null 09:31:00

Health Check Name: api.cofacts.tw
Health Check ID: 86c058fd4a13c3a35fd33ecb2c6e74cf
Time : 2024-04-03 01:30:49 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
相同問題
網站不正常
這次試著重開網站吧
重開網站後解除
把網站從每小時重開
調整成每 30 分鐘重開了
@null 09:32:13

Health Check Name: line-bot.cofacts.tw
Health Check ID: 43bacff73e318b0ee85fdcda1f7d8627
Time : 2024-04-03 01:31:59 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
mrorz 09:32:41
相同問題
image.png
image.png
image.png
mrorz 09:35:03
網站不正常
mrorz 09:35:16
這次試著重開網站吧
mrorz 09:41:17
重開網站後解除
cai 09:41:20
地方群組出現一堆影片跟照片了
欸不對,但 creation time 是一起的
那到底為啥沒有記錄到 cooccurrence
cai 09:41:20
地方群組出現一堆影片跟照片了
欸不對,但 creation time 是一起的
那到底為啥沒有記錄到 cooccurrence
mrorz 09:43:01
把網站從每小時重開
調整成每 30 分鐘重開了
mrorz 11:27:31
號稱停班停課的訊息們 cc/ @ted.lu.tw
https://cofacts.tw/article/21exqf7z1bidp
https://cofacts.tw/article/15o4o32dllsco
https://cofacts.tw/article/zBF8oY4B0DEb0v6cvhVq
Ted 顥天 2024-04-03 11:28:52
有些內容貌似指向是東森的鍋,不過稍早新北市好像的確有公佈,但因為來不及做 web archive 且查證時網站 timeout,難以查證該截圖是否為真。
人事行政局的部分
10 點的時候有人存檔
https://web.archive.org/web/20240403021243/https://www.dgpa.gov.tw/
分析看不懂
我看懂了,
網址是 20230803
Google 沒有頁庫存檔、wayback machine 又存不了
真的慘
新北市政府網站的部分先寫了回應

https://cofacts.tw/article/zBF8oY4B0DEb0v6cvhVq
mrorz 11:27:31
號稱停班停課的訊息們 cc/ @ted.lu.tw
https://cofacts.tw/article/21exqf7z1bidp
https://cofacts.tw/article/15o4o32dllsco
https://cofacts.tw/article/8ia4lx1eo6k0
https://cofacts.tw/article/zBF8oY4B0DEb0v6cvhVq
Ted 顥天 2024-04-03 11:28:52
有些內容貌似指向是東森的鍋,不過稍早新北市好像的確有公佈,但因為來不及做 web archive 且查證時網站 timeout,難以查證該截圖是否為真。
人事行政局的部分
10 點的時候有人存檔
https://web.archive.org/web/20240403021243/https://www.dgpa.gov.tw/
分析看不懂
我看懂了,
網址是 20230803
Google 沒有頁庫存檔、wayback machine 又存不了
真的慘
新北市政府網站的部分先寫了回應

https://cofacts.tw/article/zBF8oY4B0DEb0v6cvhVq
cai 13:24:49
最新查核還有外送茶來亂🙄
感謝提醒,已清除
cai 13:24:49
最新查核還有外送茶來亂🙄
感謝提醒,已清除
cai 13:44:40
災損減稅系列
https://cofacts.tw/article/WhGkoY4B0DEb0v6cRhaR
https://cofacts.tw/article/dfiqq9mbrxxa
文章這種寫法,國稅局電話會接不停
> 辦理方式可利用書面、傳真、電話或網路向戶籍地或財產所在地之稽徵機關為之,但有接受保險賠償或救濟金及殘值出售部分則應列為損失之減項。
強調打電話是滿謎的
但最近跟政府交手的經驗也確實是發現,不打電話案件還真的不太會動 XD
cai 13:44:40
災損減稅系列
https://cofacts.tw/article/WhGkoY4B0DEb0v6cRhaR
https://cofacts.tw/article/dfiqq9mbrxxa
文章這種寫法,國稅局電話會接不停
> 辦理方式可利用書面、傳真、電話或網路向戶籍地或財產所在地之稽徵機關為之,但有接受保險賠償或救濟金及殘值出售部分則應列為損失之減項。
強調打電話是滿謎的
但最近跟政府交手的經驗也確實是發現,不打電話案件還真的不太會動 XD
luyunqiao2008.2.16 17:17:57
@luyunqiao2008.2.16 has left the channel
mrorz 18:46:31
Google fact check explorer 現在支援以圖找圖了
https://blog.google/products/search/google-search-fact-checking-resources/
mrorz 18:46:31
Google fact check explorer 現在支援以圖找圖了
https://blog.google/products/search/google-search-fact-checking-resources/

Google

4 ways to use Search to check facts, images and sources online

For International Fact\u002DChecking Day, we’re sharing four Search features to help you evaluate information and get key context online.

mrorz 22:09:23
TFC 把災區照片釘在地圖上了 https://tfc-taiwan.org.tw/articles/10444
cai 22:41:14
AI亂掰版逐字稿:「請不吝點贊訂閱轉發打賞支持明鏡與點點欄目」
https://cofacts.tw/search?type=messages&q=%E8%AB%8B%E4%B8%8D%E5%90%9D%E9%BB%9E%E8%[…]%E6%98%8E%E9%8F%A1%E8%88%87%E9%BB%9E%E9%BB%9E%E6%AC%84%E7%9B%AE
沒聲音就會這樣~
另外應該還有 amara.org 系列
看來他華語訓練資料就是來自這些地方
😆 2
cai 22:41:14
AI亂掰版逐字稿:「請不吝點贊訂閱轉發打賞支持明鏡與點點欄目」
https://cofacts.tw/search?type=messages&q=%E8%AB%8B%E4%B8%8D%E5%90%9D%E9%BB%9E%E8%[…]%E6%98%8E%E9%8F%A1%E8%88%87%E9%BB%9E%E9%BB%9E%E6%AC%84%E7%9B%AE
沒聲音就會這樣~
另外應該還有 amara.org 系列
看來他華語訓練資料就是來自這些地方

2024-04-05

@null 13:17:44
Hello Cofacts 的朋友們要麻煩你們處理一下囉.. https://cofacts.tw/article/ShFHo44B0DEb0v6cohsK
helloworld_bot 13:18:10
File from Robin Lee@mygopen
image
@null 17:03:23
Hello Cofacts 的朋友們要麻煩你們處理一下囉.. 上面有用戶的個資,用戶很著急… [https://cofacts.tw/article/ShFHo44B0DEb0v6cohsK](https://cofacts.tw/article/ShFHo44B0DEb0v6cohsK)
nonumpa 17:27:21
Hi Robin & Rita,單看訊息本身有點難確認對方是 CryptoTops金融客服,還是嚴**,依照過去收到請求下架文章的經驗,對方有可能是詐騙集團的人,因為不想要這些資訊被公開在網路上而來訊。
可以請對方聯絡真的假的的粉絲專頁,或寄信到 cofacts@googlegroups.com,我們會進一步確認後再採取適當的處置,謝謝麻煩了!
感謝感謝
我們來處理
抱歉人不在台北,會慢一點
其實之後可以直接請他聯絡 hi@cofacts 即可唷
這種情緒勞動我們承受就好 QQ
好討厭打電話 orz
已經做成處置公告了,現在正在執行圖片替換作業
https://github.com/cofacts/takedowns/blob/master/2024/0405-privacy-2.md
處理完畢,也感謝 MyGoPen 轉告
抱歉我們家使用者到處亂跑 QQ
nonumpa 17:27:21
Hi Robin & Rita,單看訊息本身有點難確認對方是 CryptoTops金融客服,還是嚴**,依照過去收到請求下架文章的經驗,對方有可能是詐騙集團的人,因為不想要這些資訊被公開在網路上而來訊。
可以請對方聯絡真的假的的粉絲專頁,或寄信到 cofacts@googlegroups.com,我們會進一步確認後再採取適當的處置,謝謝麻煩了!
感謝感謝
我們來處理
抱歉人不在台北,會慢一點
其實之後可以直接請他聯絡 hi@cofacts 即可唷
這種情緒勞動我們承受就好 QQ
好討厭打電話 orz
已經做成處置公告了,現在正在執行圖片替換作業
https://github.com/cofacts/takedowns/blob/master/2024/0405-privacy-2.md
處理完畢,也感謝 MyGoPen 轉告
抱歉我們家使用者到處亂跑 QQ
mrorz 18:34:25
感謝感謝
我們來處理
抱歉人不在台北,會慢一點
mrorz 18:34:53
其實之後可以直接請他聯絡 hi@cofacts 即可唷
這種情緒勞動我們承受就好 QQ
mrorz 18:35:56
好討厭打電話 orz

2024-04-06

cai 13:36:19
看來 line 送進資料庫公開前那段警語要寫得更白話了
cai 13:36:19
看來 line 送進資料庫公開前那段警語要寫得更白話了

2024-04-08

E 00:56:47
裡面有兩個帳號一直亂回覆,洗板很多篇了。

https://cofacts.tw/article/6JxwRY4BBMtPEaE0zai5
E 00:56:47
裡面有兩個帳號一直亂回覆,洗板很多篇了。

https://cofacts.tw/article/6JxwRY4BBMtPEaE0zai5
cai 00:59:32
為什麼最近那麼多外送茶來亂
cai 00:59:32
為什麼最近那麼多外送茶來亂
mrorz 01:29:48
他們該不會發現自己被 ban 了,所以開新帳號?
mrorz 01:29:48
他們該不會發現自己被 ban 了?
mrorz 16:03:26
今日議程
今天不會有實體,全線上唷
https://g0v.hackmd.io/@cofacts/meetings/%2FcyOfGs88TROLTF1bKeAyAg

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2024 -

mrorz 16:03:26
今日議程
今天不會有實體,全線上唷
https://g0v.hackmd.io/@cofacts/meetings/%2FcyOfGs88TROLTF1bKeAyAg
mrorz 18:29:18
https://www.techbang.com/posts/114185-deepmind-has-developed-a-fact-checker-for-ai-chatbots-to-cure

https://arxiv.org/abs/2403.18802

T客邦

停止讓AI再胡說八道,DeepMind 開發了「事實核查器」以糾正Claude、Gemini、GPT、PaLM-2的幻覺

解決 AI 聊天機器人幻覺問題的新方法:Google DeepMind 和史丹佛大學的 SAFE 系統

arXiv.org

Long-form factuality in large language models

Large language models (LLMs) often generate content that contains factual errors when responding to fact-seeking prompts on open-ended topics. To benchmark a model's long-form factuality in open domains, we first use GPT-4 to generate LongFact, a prompt set comprising thousands of questions spanning 38 topics. We then propose that LLM agents can be used as automated evaluators for long-form factuality through a method which we call Search-Augmented Factuality Evaluator (SAFE). SAFE utilizes an LLM to break down a long-form response into a set of individual facts and to evaluate the accuracy of each fact using a multi-step reasoning process comprising sending search queries to Google Search and determining whether a fact is supported by the search results. Furthermore, we propose extending F1 score as an aggregated metric for long-form factuality. To do so, we balance the percentage of supported facts in a response (precision) with the percentage of provided facts relative to a hyperparameter representing a user's preferred response length (recall). Empirically, we demonstrate that LLM agents can outperform crowdsourced human annotators - on a set of ~16k individual facts, SAFE agrees with crowdsourced human annotators 72% of the time, and on a random subset of 100 disagreement cases, SAFE wins 76% of the time. At the same time, SAFE is more than 20 times cheaper than human annotators. We also benchmark thirteen language models on LongFact across four model families (Gemini, GPT, Claude, and PaLM-2), finding that larger language models generally achieve better long-form factuality. LongFact, SAFE, and all experimental code are available at <https://github.com/google-deepmind/long-form-factuality>.

似乎是分成 supported (by world knowledge), not supported, irrelevant
讀 paper 必看的 Figure 1 在 P.1
Prompt 在 P.27
mrorz 18:29:18
https://www.techbang.com/posts/114185-deepmind-has-developed-a-fact-checker-for-ai-chatbots-to-cure

https://arxiv.org/abs/2403.18802
似乎是分成 supported (by world knowledge), not supported, irrelevant
讀 paper 必看的 Figure 1 在 P.1
Prompt 在 P.27
mrorz 21:30:50
RAG 好像可以參考一下這個裡面的細部設計,可能主要是 chunking 的部分
https://medium.com/@infiniflowai/ragflow-customizable-credible-explainable-rag-engine-based-on-document-structure-recognition-6a2a2369bd2a
gary96302000.eecs96 2024-04-08 22:54:04
Cofacts 也有服務要做到 RAG 了嗎
回頭看了一下
https://g0v.hackmd.io/mU8qi721RZeAQ9PDfj7XRA#AI-assisted-reply-authoring

好像確實沒有到說需要 RAG 的地步,Cofacts 資料撈出來都能塞進現在的 window size 中
gary96302000.eecs96 2024-04-09 10:39:33
Rag 其實有蠻多坑的 要採要花不少心力 不只是單純的 chunk 文章 index ,retrieve ,semantic rerank,塞進 context 的內容還要做某種程度的驗證,產出的資訊也要配 chain of thought 那類的提升準確性

每個地方都有不少梗,這是我搞了1年多的血淚經驗 😮‍💨
大感謝 m(_ _)m
我們如果之後要開始做上面這個 AI assisted reply authoring 的時候
再來貼到 channel 一起看看
gary96302000.eecs96 2024-04-09 10:47:02
好歐 沒問題
gary96302000.eecs96 2024-04-09 10:48:06
現在 ai 扮演的角色 是想要讓他把原文作個總結但是不評論真假嗎
已經做的確實是如此
接下來想加的是把 related article 加入 context 一起做總結,例如最近層出不窮的詐騙,希望他可以在讀過 related article 之後, summarize 出類似
「類似的訊息,在 2022 年、2023 年都有被傳進來過,曾被認為是詐騙」之類的回應
如果能把 citation 也補上的話最好
但 citation 看起來超不穩定的,連 OpenAI assistant API 的 annotation 也是要給不給的,可能換成在 UX 上直接揭露「我們給 AI 看了哪些 Cofacts 文章」還比較好
在 Prompt engineering 技巧方面,因為剛好 Cofacts 是 message + reply 的形式,我想說或許直接把 related article + reply 的 few shot example 做成像是 multi-turn conversation 試試效果

例如針對訊息 Q,我們透過 Elasticsearch 比對 article 文字內容找到文章 A1 + 回應 R1、A2+R2,以及沒有回應過的 A3
那 prompt 就可以做成下面這樣,讓 LLM 補 assistant
```User: A1
Assistant: R1 的日期、R1
User: A2
Assistant: R2 的日期、R2
User: A3
Assistant: A3 的日期,還沒有人回應 + A3 當時的 ChatGPT response
User: Q```
mrorz 21:30:50
RAG 好像可以參考一下這個裡面的細部設計,可能主要是 chunking 的部分
https://medium.com/@infiniflowai/ragflow-customizable-credible-explainable-rag-engine-based-on-document-structure-recognition-6a2a2369bd2a

Medium

RAGFlow: Customizable, Credible, Explainable RAG engine based on document structure recognition…

Following the official open-sourcing of the AI-native database Infinity at the end of 2023, our end-to-end RAG solution, RAGFlow, was also…

gary96302000.eecs96 2024-04-08 22:54:04
Cofacts 也有服務要做到 RAG 了嗎
回頭看了一下
https://g0v.hackmd.io/mU8qi721RZeAQ9PDfj7XRA#AI-assisted-reply-authoring

好像確實沒有到說需要 RAG 的地步,Cofacts 資料撈出來都能塞進現在的 window size 中
gary96302000.eecs96 2024-04-09 10:39:33
Rag 其實有蠻多坑的 要採要花不少心力 不只是單純的 chunk 文章 index ,retrieve ,semantic rerank,塞進 context 的內容還要做某種程度的驗證,產出的資訊也要配 chain of thought 那類的提升準確性

每個地方都有不少梗,這是我搞了1年多的血淚經驗 😮‍💨
大感謝 m(_ _)m
我們如果之後要開始做上面這個 AI assisted reply authoring 的時候
再來貼到 channel 一起看看
gary96302000.eecs96 2024-04-09 10:47:02
好歐 沒問題
gary96302000.eecs96 2024-04-09 10:48:06
現在 ai 扮演的角色 是想要讓他把原文作個總結但是不評論真假嗎
已經做的確實是如此
接下來想加的是把 related article 加入 context 一起做總結,例如最近層出不窮的詐騙,希望他可以在讀過 related article 之後, summarize 出類似
「類似的訊息,在 2022 年、2023 年都有被傳進來過,曾被認為是詐騙」之類的回應
如果能把 citation 也補上的話最好
但 citation 看起來超不穩定的,連 OpenAI assistant API 的 annotation 也是要給不給的,可能換成在 UX 上直接揭露「我們給 AI 看了哪些 Cofacts 文章」還比較好
在 Prompt engineering 技巧方面,因為剛好 Cofacts 是 message + reply 的形式,我想說或許直接把 related article + reply 的 few shot example 做成像是 multi-turn conversation 試試效果

例如針對訊息 Q,我們透過 Elasticsearch 比對 article 文字內容找到文章 A1 + 回應 R1、A2+R2,以及沒有回應過的 A3
那 prompt 就可以做成下面這樣,讓 LLM 補 assistant
```User: A1
Assistant: R1 的日期、R1
User: A2
Assistant: R2 的日期、R2
User: A3
Assistant: A3 的日期,還沒有人回應 + A3 當時的 ChatGPT response
User: Q```

2024-04-09

2024-04-11

@null 01:26:23

Health Check Name: api.cofacts.tw
Health Check ID: 86c058fd4a13c3a35fd33ecb2c6e74cf
Time : 2024-04-10 17:26:15 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
@null 01:26:32

Health Check Name: cofacts.tw
Health Check ID: 26c31cd565ee9448e8cff64528205cd3
Time : 2024-04-10 17:26:13 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
@null 01:27:14

Health Check Name: line-bot.cofacts.tw
Health Check ID: 43bacff73e318b0ee85fdcda1f7d8627
Time : 2024-04-10 17:27:06 +0000 UTC
Status: Unhealthy
Failure reason: HTTP timeout occurred
mrorz 02:36:12
現在是活的
可能重啟成功
mrorz 02:36:12
現在是活的
可能重啟成功

2024-04-13

@null 23:09:02
Hello 又一位來要求移除,因為有身分證字號 [https://cofacts.tw/article/U2PE144BUCqzrknprAl0](https://cofacts.tw/article/U2PE144BUCqzrknprAl0)