cofacts

Month: 2023-10

2023-10-01

mrorz 00:11:31
@gary96302000.eecs96 @darkbtf @teemocogs 好奇這樣的 dataset description 大家覺得如何。會太囉唆,還是資訊不足呢?

Hugging Face dataset page:
https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw

Example Colab (含有如何 join table 做一個 classifier 需要的 train data)
https://colab.research.google.com/drive/1qdE-OMJTi6ZO68J6KdzGdxNdheW4ct6T
cai 22:42:18
bug ?
網友補充出現不同事件的
https://cofacts.tw/article/334kb79jk4lrf
應該是以前提過的line補充會送到不同篇文章的bug
也有可能是因為 match 到斷行字元
就被當成是這個訊息
cai 22:42:18
bug ?
網友補充出現不同事件的
https://cofacts.tw/article/334kb79jk4lrf
應該是以前提過的line補充會送到不同篇文章的bug
也有可能是因為 match 到斷行字元
就被當成是這個訊息

2023-10-02

cai 01:08:19
https://news.ltn.com.tw/news/politics/paper/1606599 最後一段提到 cofacts

自由時報電子報

唐鳳:AI將對中國極權帶來挑戰 - 政治 - 自由時報電子報

數位部長唐鳳廿二日出席華盛頓「全球新興科技高峰會」(SCSP)並發表談話,稱台灣在對抗擁有數倍人力物力資源的中國資安、假訊息攻勢時,可藉由生成式人工智慧(AI)協助彌補人力上的差距。唐鳳接受「美國之音」專訪時分析,言論審查既會對中國的AI應用、發展形成障礙,AI也會對中國的極權政體帶來極大挑戰。唐鳳向美國之音表示,台灣在資安聯防方面持續與美國合作,此次訪美聚焦的新威脅之一為生成式AI。除了與美官員討論,更重要的是把台灣的顧慮和美方的關切、想法彙整後,提供給Meta、Google、Open AI、Anthropic等尖端AI研究公司。

我猜是看到了 Generative AI 小聚的筆記 XD
🙌 1
cai 01:08:19
https://news.ltn.com.tw/news/politics/paper/1606599 最後一段提到 cofacts
我猜是看到了 Generative AI 小聚的筆記 XD
mrorz 12:06:31
週三週會討論一下~

徵求「交大資工服務學習課程自由軟體組」的參與專案 大家好,我跟軟自協的 <@U1GJ4AK2T>、前教育部自由軟體中心的 Eric Sun 及維基社群的 <@U1D5ZHDCN> 每學期都會去交大資工協助服務學習自由軟體組。由於今年系上想要擴大舉辦,因此想要徵求一些有興趣帶領大一同學:beginner::beginner::beginner:的坑主來加入。 有興趣提供貢獻機會,請把專案資料填寫到此份投影片:<https://docs.google.com/presentation/d/1ZnbJy5_qpjOYPtkoH88v3X8IGVQ6yNVEloRipg_MVzc/edit?usp=sharing> (參與項目不限寫 code) 我們將會在 10/13 去學校舉辦說明會,到時會將投影片提供給同學參考,我也會快速介紹一輪。會後供他們自由選擇有興趣的項目,再直接按照投影片上的資訊聯絡各專案坑主。 (另外,系上也希望額外邀請參與者來系上演講,分享自己的開源及程式貢獻社會的經驗等(此項有演講費)。時間可安排在十一月或十二月下午或晚上,有興趣也請舉手一下。)

mrorz 12:06:31
週三週會討論一下~

徵求「交大資工服務學習課程自由軟體組」的參與專案 大家好,我跟軟自協的 <@U1GJ4AK2T>、前教育部自由軟體中心的 Eric Sun 及維基社群的 <@U1D5ZHDCN> 每學期都會去交大資工協助服務學習自由軟體組。由於今年系上想要擴大舉辦,因此想要徵求一些有興趣帶領大一同學:beginner::beginner::beginner:的坑主來加入。 有興趣提供貢獻機會,請把專案資料填寫到此份投影片:<https://docs.google.com/presentation/d/1ZnbJy5_qpjOYPtkoH88v3X8IGVQ6yNVEloRipg_MVzc/edit?usp=sharing> (參與項目不限寫 code) 我們將會在 10/13 去學校舉辦說明會,到時會將投影片提供給同學參考,我也會快速介紹一輪。會後供他們自由選擇有興趣的項目,再直接按照投影片上的資訊聯絡各專案坑主。 (另外,系上也希望額外邀請參與者來系上演講,分享自己的開源及程式貢獻社會的經驗等(此項有演講費)。時間可安排在十一月或十二月下午或晚上,有興趣也請舉手一下。)

mrorz 13:57:17
我在思考 article group 處理多則訊息 時,跟現有 chatbot context 裡面的某些欄位(尤其是 `selectedArticleId` )會有衝突的問題

正在思考「先整理 chatbot context 把東西移到 postback action」的方向時,發現現在把 `selectedArticleId` 記在 context 會有這個 bug:
https://github.com/cofacts/rumors-line-bot/issues/327

我想要先把 `selectedArticleId` 移動到 postback action 來修好這個 bug
再來逐步移除不需要的 context
最後再回頭思考 article group 與 chatbot context 的問題,說不定清完之後發現就沒有那些不 compatible 的 context field 了

想先諮詢 @acerxp511@yhsiang 看看有沒有什麼想法

HackMD

Cofacts reasearch &amp; design docs - HackMD

# Cofacts reasearch &amp; design docs :::info - Design docs: Implementation documents with requiremen

#327 Cannot record feedback in certain state

From <https://g0v.hackmd.io/IqCOZMZLRe-JPMSJIV3yRQ#Feedback-%E7%84%A1%E6%B3%95%E7%B4%80%E9%8C%84|20220921 meeting> *Steps to reproduce* 1. 給一圖,觸發兩則圖 A, B 2. 先選一個有多個回應的圖 A,但不選回應 3. 捲回去選單一回應的圖 B,觸發回應 4. 捲回去挑一個 A 的回應顯示 5. 對該回應按「有用」或「沒用」 6. 按關閉,會出現「無法紀錄您的評價」 <https://user-images.githubusercontent.com/108608/191897488-87dae2c5-2531-4c8a-a8b0-d01a5aba7b71.png|image> <https://user-images.githubusercontent.com/108608/191897504-9496c8a1-bc17-4e64-b861-61e4c2098d89.png|image> <https://user-images.githubusercontent.com/108608/191897512-7783dac7-cf69-4b17-bcd1-5005984e5c40.png|image>

mrorz 13:57:17
我在思考 article group 處理多則訊息 時,跟現有 chatbot context 裡面的某些欄位(尤其是 `selectedArticleId` )會有衝突的問題

正在思考「先整理 chatbot context 把東西移到 postback action」的方向時,發現現在把 `selectedArticleId` 記在 context 會有這個 bug:
https://github.com/cofacts/rumors-line-bot/issues/327

我想要先把 `selectedArticleId` 移動到 postback action 來修好這個 bug
再來逐步移除不需要的 context
最後再回頭思考 article group 與 chatbot context 的問題,說不定清完之後發現就沒有那些不 compatible 的 context field 了

這裡看看 @acerxp511@yhsiang 有沒有什麼想法

2023-10-04

mrorz 13:46:27
今日遠端開會唷
議程 https://g0v.hackmd.io/XRzWTxjVTFWI8JNzLVh9lQ

2023-10-05

Crystal 宛真 10:14:38
@apokoios has joined the channel
Zoey Tseng 15:11:30
@mrorz 可以確認一下 cofacts 的源碼跟資料都是用什麼 license 開源嗎?CC0 或是其他的
Source code MIT
資料方面我們有個自己的資料授權條款,以 CC BY-SA 作為基底,加註希望的 attribution
Zoey Tseng 2023-10-05 18:13:37
收到!感謝詳細說明!
Zoey Tseng 15:11:30
@mrorz 可以確認一下 cofacts 的源碼跟資料都是用什麼 license 開源嗎?CC0 或是其他的
Source code MIT
資料方面我們有個自己的資料授權條款,以 CC BY-SA 作為基底,加註希望的 attribution
Zoey Tseng 2023-10-05 18:13:37
收到!感謝詳細說明!

2023-10-06

mrorz 09:58:51
Whisper 的 hallucination 集中串
https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀
我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y
前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a
無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ
https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)
@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper
我有發現另一個whisper的fork,他也有做VAD,可能也能幫上忙
但他只支援nvidia的顯卡,我手邊只有amd不能測 https://github.com/m-bain/whisperX
這種的再重跑一次就正常了
mrorz 09:58:51
Whisper 的 hallucination 集中串
https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀
我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y
前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a
無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ
https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)
@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper
我有發現另一個whisper的fork,他也有做VAD,可能也能幫上忙
但他只支援nvidia的顯卡,我手邊只有amd不能測 https://github.com/m-bain/whisperX
這種的再重跑一次就正常了

2023-10-07

cai 00:25:53
AI 逐字稿影片類的似乎比較適合在保健秘訣那種旁白等於謠言內容的影片。
碰到配樂跟影片內容無關的反而增加麻煩。
確實如此,要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9
Whisper 在無聲區域也常常跳出廣告文字,因為來源訓練資料的問題
關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper
嗯?google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events
cai 00:25:53
AI 逐字稿影片類的似乎比較適合在保健秘訣那種旁白等於謠言內容的影片。
碰到配樂跟影片內容無關的反而增加麻煩。
確實如此,要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9
Whisper 在無聲區域也常常跳出廣告文字,因為來源訓練資料的問題
關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper
嗯?google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events
mrorz 01:33:51
Cofacts open data 這裡希望增加 status 欄位與 anonymized-user 表,這樣就能用 open data 來 train 偵測垃圾訊息的分類器
https://github.com/cofacts/opendata/pull/27

其中 user 表會長得像圖裡這樣,有一個 hash 過的 user id,帳號建立時間與最後上線時間,以及若為被封鎖的使用者就會有填寫的 `blockedReason`
image.png

#27 feat(dumpOpenData): add fields for CIB prediction

• Add block/normal status for entities with status • Add article type • Add anonymized user

要請大家確認的是,揭露這個 anoymized-user 不會違反我們自己的使用者條款
> Cofacts WG 會嚴格保護使用者資訊,確保使用者隱私及個人資料,除充分量化或去識別化後得不再視為個人資料者外,將不基於任何目的使其外流至與本服務無關之第三方。
> — https://github.com/cofacts/rumors-line-bot/blob/master/LEGAL.md
> 網站協作者登入後的補充訊息、回應內容、使用本平台之頻率等之公開訊息,將可能為 Cofacts WG 用於數據分析,當進行量化或去識別化等過程與原身分識別勾脫後,會留存於開放資料隱去名稱之研究或統計。
> https://github.com/cofacts/rumors-site/blob/master/LEGAL.md
Peter 05:31:17
還是很好奇,為何台灣的 cofacts 有 s,但是泰國的 cofact 沒有…
他們自己取的,我也沒有問 XD
因為我們的假訊息比較多(逃走
Peter 05:31:17
還是很好奇,為何台灣的 cofacts 有 s,但是泰國的 cofact 沒有…
他們自己取的,我也沒有問 XD
因為我們的假訊息比較多(逃走
mrorz 23:08:02
關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper

g0v.hackmd.io

OCR and AI transcripts - HackMD

2023-10-10

mrorz 07:06:22
我注意到 AI transcript 出來的文字
會有刪除一字之後 paragraph 就會爛掉的現象
paragraphs.mp4
我的直覺是
原本 AI 出來的文字單純以 \n 斷行
但 ProseMirror 要求以 <p> <br> 斷行
所以就會直接爛掉

老實講,我會希望 ProseMirror 可以是一個單純的文字編輯器更好

之後我頂多只會加上特殊符號的 syntax highlight 而已(例如約定 `#` 開頭的行爲註解,方便標記分區或 timestamp)之類
mrorz 07:08:19
我的直覺是
原本 AI 出來的文字單純以 \n 斷行
但 ProseMirror 要求以 <p> <br> 斷行
所以就會直接爛掉

老實講,我會希望 ProseMirror 可以是一個單純的文字編輯器更好

之後我頂多只會加上特殊符號的 syntax highlight 而已(例如約定 `#` 開頭的行爲註解,方便標記分區或 timestamp)之類
cai 13:25:09
為什麼chatgpt 分析不見了
奇怪,我中午看的時候沒有,現在看又有 🤔
cai 13:25:09
為什麼chatgpt 分析不見了
奇怪,我中午看的時候沒有,現在看又有 🤔
mrorz 23:20:49
無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ

2023-10-11

婉琪 12:05:03
@wanchi has joined the channel
mrorz 18:04:55
發現忘記發今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Ft9ypB87SQBuMjjW_PheZVg

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2023 -

對 Cofacts 專案功能感興趣,請問可以旁聽嗎? 😀
可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts
實體的話是在 Workis
瞭解~今晚 7 點 vtaiwn 也有線上會議,我視情況盡量參與,謝謝 🙏
mrorz 18:04:55
發現忘記發今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Ft9ypB87SQBuMjjW_PheZVg
對 Cofacts 專案功能感興趣,請問可以旁聽嗎? 😀
可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts
實體的話是在 Workis
瞭解~今晚 7 點 vtaiwn 也有線上會議,我視情況盡量參與,謝謝 🙏
mrorz 18:18:45
靈敏度這點我有修正了,今天開會會測測看

2023-10-12

mrorz 13:51:22
關於昨天測試時遇的 XD 問題 https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#%E6%9C%AA%E7%AB%9F%E9%A0%85%E7%9B%AE
主因是我們的 code 寫說
如果輸入的字 < 10 個、或者是 intent confidence = 1,那就判定為在聊天 當時判斷 10 個字的討論在
我認為昨晚用部分訊息做測試,本來就不是「網傳訊息」而是更類似用關鍵字在測試 bot,屬於設計外的使用方式,這種自己輸入的短訊息讓 DialogFlow 來打哈哈我覺得還算符合預期,覺得可以不開票。
看大家的想法。
image.png
gary96302000.eecs96 2023-10-12 17:44:40
雖然對這塊不是很熟,不過短訊息能簡單處理確實合理

如果是為了要測試輸入短訊息,約定一個測試的 starting 暗號(i.e. <test>XXX ),看到前面是什麼開頭就一律當作網傳訊息這樣勒?
喔喔昨天是上線前的 ad hoc 測試,不是用在 CI 等開發內的~
👀 1
Zoey Tseng 17:38:36
Hi 想跟大家 check-in 一下專案(發證)進度,請問下次線上會議是什麼時候呢?
我們目前是每週三晚上開會,但這似乎與 da0 撞,所以應該也可考慮另外約時間唷
cc/ @bil
Zoey Tseng 2023-10-13 10:19:23
我可以先加入你們的沒問題~ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔!謝謝
感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts
Zoey Tseng 17:38:36
Hi 想跟大家 check-in 一下專案(發證)進度,請問下次線上會議是什麼時候呢?
我們目前是每週三晚上開會,但這似乎與 da0 撞,所以應該也可考慮另外約時間唷
cc/ @bil
Zoey Tseng 2023-10-13 10:19:23
我可以先加入你們的沒問題~ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔!謝謝
感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

2023-10-13

mrorz 10:00:08
現在 LINE API 可以 quote 過去的訊息了!
https://developers.line.biz/en/docs/messaging-api/get-quote-tokens/

developers.line.biz

Get quote tokens

The LINE Developers site is a portal site for developers. It contains documents and tools that will help you use our various developer products. Creating LINE Login and Messaging API applications and services has never been easier!

mrorz 15:02:30
週三遭遇的 release blocker 已經修復
可以再試試看囉
尤其是傳圖片來測測看
https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#Testing-checklist
mrorz 15:02:30
週三遭遇的 release blocker 已經修復
可以再到 staging LINE bot 試試看囉
尤其是傳圖片來測測看 transcript 是否還有亂碼
https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#Testing-checklist

line.me

LINE Add Friend

g0v.hackmd.io

20231011 會議記錄 - HackMD

👌 1
cai 22:08:52
利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類
論文+1

ndltd.ncl.edu.tw

利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類__臺灣博碩士論文知識加值系統

身處在網路、電腦硬體設備發達之資訊社會,新聞的生產與需求都快速擴張之際,假新聞憑藉著傳播載具之進化,築基在新聞自由上之故意散佈虛假資訊行為,引發本研究之動機。  而Covid-19假訊息之影響範圍遍及全臺灣及全世界,對閱聽眾帶來來之不良影響深遠無邊,故本研究目的為:「利用深度學習方法結合〈Cofacts真的假的〉資料進行真假訊息的分類。」  本研究以〈Cofacts 真的假的〉作為資料搜集平台,僅搜集「含有正確訊息」與「含有錯誤訊息」之文字格式,並聚焦在以Covid-19為主題之繁體中文做為本研究資料集。實驗一以BERT模型進行分類,為降低模型輸出之隨機性,故執行五次訓練並取平均值, Accuracy平均為0.9043;實驗二以大型語言模型LLM架構下之生成式語言模型ChatGLM-6B進行分類任務,Accuracy達0.8996;在字數超過512字以上之長文本分類表現 Accuracy達0.9230。  藉由實驗證明,在深度學習模型中,無論其初始設計目標是針對分類任務或生成任務,皆不會使模型在分類任務上有明顯鑑別,面對假訊息之有關機關應可彈性應用BERT、ChatGLM-6B兩者工具,避免Covid-19假訊息侵擾社會造成公眾危害。  在硬體設備允許之情況下,若有假新聞以外之長文本分類需求時,亦可選用參數量龐大之LLM大型語言模型來進行分類任務。

1 👍 1

2023-10-14

mrorz 20:57:25
下周三的會議(10/18)是線上舉行唷
mrorz 20:57:25
下周三的會議(10/18)是線上舉行唷
👍 1

2023-10-15

cai 11:14:32
https://cofacts.tw/article/2dtq8ofv9zbi3 假貼圖的流程改了,中間先出現貼圖 10/31 才能用,後面才出現要分享給幾位
增加可信度呀
真陰險 XDDD
@andyy0216 這從以前就有了,可以用這個當判斷依據XD
cai 11:14:32
https://cofacts.tw/article/2dtq8ofv9zbi3 假貼圖的流程改了,中間先出現貼圖 10/31 才能用,後面才出現要分享給幾位
增加可信度呀
真陰險 XDDD
@andyy0216 這從以前就有了,可以用這個當判斷依據XD
page.acforshop 13:17:16
@page.acforshop has joined the channel
mrorz 15:41:53
@a15923647 https://www.mygopen.com/2022/05/syria-video.html

MyGoPen

【錯誤】烏軍亞速營殺害平民嫁禍俄羅斯影片?實為2013年敘利亞屠殺事件

網傳「烏軍“亞速營“殺害平民嫁禍 俄羅斯」的影片與訊息。經查證,影片實為 2013 年敘利亞 Tadamon 大屠殺事件的畫面,近期才被揭露,由《衛報》(The Guardian)中東記者 Martin Chulov 報導,和烏克蘭及亞速營均無關。「烏軍亞速營殺害平民築萬人坑。嫁禍是俄軍做的」、「人

a15923647 15:41:59
@a15923647 has joined the channel