cofacts

Month: 2023-07

2023-07-01

菘菘 10:40:36
@rrt467778 has joined the channel
1
Charles Chuang 11:36:23
@charles has joined the channel
zoeforworks 13:40:12
@zoeforworks has joined the channel
Andrew Devine 14:51:08
@adrewdevine has joined the channel
白家齊 15:04:01
@whitepai has joined the channel

2023-07-02

cai 13:39:05
有逐字稿的影片在可疑訊息列表顯示,文字右側接圖片的地方太密了,希望能有間距。
image.png
是說大家覺得圖片放左邊好還是右邊好?
目前沒有逐字的圖會在左邊,有逐字的話就會被推到右邊
maxchiu1234 2023-07-04 17:46:28
我覺得無論有無逐字稿,都可以把圖片固定同一邊(這樣視覺上應該會比較統一
Dong 16:12:29
@ay870527 has joined the channel
ronnywang 17:46:39
我可以用 whisper 來幫 cofacts 影片加逐字稿嗎 XD
我們有計畫做到 rumors-api 中~
https://g0v.hackmd.io/@cofacts/rd/%2Fwkx286lmTDaFUpgRhnUawQ

現階段大家可以在自己電腦上跑 whisper 然後在 UI 上把他放進去 XD
rumors-api 這裡的實作會稍微複雜一點,因為想要讓 AI 生成的東西跟 crowd-source 用的 Yjs docs 融合在一起
ronnywang 17:46:39
我可以用 whisper 來幫 cofacts 影片加逐字稿嗎 XD
我們有計畫做到 rumors-api 中~
https://g0v.hackmd.io/@cofacts/rd/%2Fwkx286lmTDaFUpgRhnUawQ

現階段大家可以在自己電腦上跑 whisper 然後在 UI 上把他放進去 XD
rumors-api 這裡的實作會稍微複雜一點,因為想要讓 AI 生成的東西跟 crowd-source 用的 Yjs docs 融合在一起
🙌 3 💯 3

2023-07-03

Mariah (妍嫵) 12:50:15
@mariaht.thornton has joined the channel
Mariah (妍嫵) 12:51:19
```有人會周末參加在基隆舉辦的黑客松嗎?此黑客鬆有沒有網頁,可以與我分享鏈接嗎?```
Here is the link to the event registration: https://cofacts.kktix.cc/events/cofactseditor36

Looking forward to seeing you in Keelung!
Mariah (妍嫵) 12:51:19
```有人會周末參加在基隆舉辦的黑客松嗎?此黑客鬆有沒有網頁,可以與我分享鏈接嗎?```
Here is the link to the event registration: https://cofacts.kktix.cc/events/cofactseditor36

Looking forward to seeing you in Keelung!

2023-07-04

Peixing 13:51:15
@paigeliao1989 has joined the channel

2023-07-05

mrorz 21:31:06
基隆 AR
https://cofacts.tw/article/626j3gppg72c 與旁邊的相似可疑訊息
被當活動官網了呀 XDDD
難怪我們常常收到奇怪的 email 說想要退貨什麼的
mrorz 21:31:06
基隆 AR
https://cofacts.tw/article/626j3gppg72c 與旁邊的相似可疑訊息
被當活動官網了呀 XDDD
難怪我們常常收到奇怪的 email 說想要退貨什麼的
Teemo 22:32:12
https://g0v.hackmd.io/@Teemo/CofactsHuggingfaceDatasetEvaluation
@mrorz 參考看看
感謝感謝 m(_ _)m
Cofacts dataset 目前是以 normalize 的形式存放的,因此 label 通常存在另一張 linking table,同時有 data 跟 label 本體的 foreign key,表格敘述如 dataset 說明。

例如說如果想要訓練 topic label 分類器,那麼文字 raw data 在 `articles` 表的 text 欄位,label 放在 `categories` 表,然後有個 linking table `article_categories` 有 `article_id` 與 `categories_id` 這兩個 foreign key

如果想要把網路訊息 - 查核回應做成 Q&A example pair 來 finetune LLM,那就從 `articles` 表的 text 欄位拿 Q, `replies` 表的 text 當 A,中間以 `article_replies` 作為 linking table。

好奇這個資訊 readme 目前是夠清楚的嗎,還是應該要有 python code 範例比較好呢
遇到 @teemocogs 記錄筆記
• 如果放 sample code 要注意可能會讓使用者認為這包資料只能做這個
• Normalize 的資料集確實還是需要在一開始,讓人知道有哪些可能性
• 可以提供 feedback form 蒐集使用者回饋 use case 或問題
Teemo 22:32:12
https://g0v.hackmd.io/@Teemo/CofactsHuggingfaceDatasetEvaluation

HackMD

Cofacts Huggingface 資料集評估 By Teemo - HackMD

# Cofacts Huggingface 資料集評估 By Teemo [請益] 如何評估 huggingface 上面一包資料集的好壞? 想知道有哪些指標,例如是否有利於訓練?資料是否結構化

@mrorz 參考看看
感謝感謝 m(_ _)m
Cofacts dataset 目前是以 normalize 的形式存放的,因此 label 通常存在另一張 linking table,同時有 data 跟 label 本體的 foreign key,表格敘述如 dataset 說明。

例如說如果想要訓練 topic label 分類器,那麼文字 raw data 在 `articles` 表的 text 欄位,label 放在 `categories` 表,然後有個 linking table `article_categories` 有 `article_id` 與 `categories_id` 這兩個 foreign key

如果想要把網路訊息 - 查核回應做成 Q&A example pair 來 finetune LLM,那就從 `articles` 表的 text 欄位拿 Q, `replies` 表的 text 當 A,中間以 `article_replies` 作為 linking table。

好奇這個資訊 readme 目前是夠清楚的嗎,還是應該要有 python code 範例比較好呢
遇到 @teemocogs 記錄筆記
• 如果放 sample code 要注意可能會讓使用者認為這包資料只能做這個
• Normalize 的資料集確實還是需要在一開始,讓人知道有哪些可能性
• 可以提供 feedback form 蒐集使用者回饋 use case 或問題

2023-07-06

mrorz 02:03:38
說到開發項目
其實如果有資源找人的話,比起其實已經詳細到 API 要改哪兩個地方的 AI transcript、與重要但不緊急的 API client management 之外,我覺得另一個比較緊急(希望選前可以有)、重要、且已經設計完成(Figma、API 一應俱全)的是今年 4 月設計完成的相關圖文功能,也就是之前開會時討論的、使用者傳圖片的時候去問「有沒有一起傳的文字」的功能
https://g0v.hackmd.io/@cofacts/rd/%2Ff_Ze19PhQuqx_fzOAOkohQ

HackMD

Cofacts reasearch & design docs - HackMD

# Cofacts reasearch & design docs :::info - Design docs: Implementation documents with requiremen

mrorz 02:03:38
說到開發項目
其實如果有資源找人的話,比起其實已經詳細到 API 要改哪兩個地方的 AI transcript、與重要但不緊急的 API client management 之外,我覺得另一個比較緊急(希望選前可以有)、重要、且已經設計完成(Figma、API 一應俱全)的是今年 4 月設計完成的相關圖文功能,也就是之前開會時討論的、使用者傳圖片的時候去問「有沒有一起傳的文字」的功能
https://g0v.hackmd.io/@cofacts/rd/%2Ff_Ze19PhQuqx_fzOAOkohQ

2023-07-08

mrorz 16:31:06
我在測試 Whisper API,在 Cofacts 裡面撈影片來給他轉轉看

結果點到一個超難的:https://cofacts.tw/article/-fs334UBC7Q3lHuUVISE
Whisper:
> 台語聽得懂嗎?每天報新書 各位觀眾朋友大家好 我是阿信老師 歡迎大家收看今天台語聽得懂嗎? 說到過年的由來,觀眾朋友會想到什麼呢? 因為我們都說年壽,其實那是中國的過年團算 總之啊,我們台灣也有自己的過年團算喔 今天台語聽得懂比較特別 我們要來跟大家分享台灣過年的團算和方式 先看這個異色的台語怎麼說 說到台灣人的過年團算 就是燉狗的團算 啊就是燉茶的團算 說到燉狗的故事,就要對煤油燉說起 在那邊有燉火的時代 台灣人是用蠟燭用煤油燉點火 煤油就是花字的沒有 這個煤是生長的人的意思 就像說煤啊火啊,煤啊薑啊 都是生長的人印進台灣的 在台灣人的團算裡面 關煤油燉,關蠟燭的神明叫做燉狗 因為他不管民眾在拜拜的時候 其他的神明都有拜到 只有他整年唐天為大家夾蠟燭,夾煤油燉 煤油燉,所以不讓大家拜到 所以他們就把玉虹台地倒 說是台灣人蒙恩背義 玉虹台地聽到很生氣 就決定要在二九末 就是華語說的除夕夜 把台灣島丟到海底 當人聽到以後 不然的路,他會這樣 參雙腰,實在是也沒辦法解決 畢竟是神明決定的事情 人實在是沒辦法處理 善良的台灣人專心說 好,我們自己丟下去沒關係 這家人的神明不能對我們隱私 所以就是日夕那天 先把家人所有豐收的神明 都送回天上 不讓自己拖累到種神明 這就是日夕送神的由來 當神明都送回了 在二九末 就是台灣島要丟下去那一晚 大家就台地多用 家人有什麼青草的都拿出來煮 這次祖先廟 整個家庭就一起團圓 享受最後的晚餐 這就是二九末製造圍爐的由來 打飯吃完 長輩就把家人的資產 拿出來分給長輩 這就是第二年 就是後來說的紅包的由來 最後整個家庭 一起共度台灣島丟下去之前 最後一晚 這就是九年 就是華記說的首帥的由來 九年有人說是休年 漢字一樣意思不太一樣 酒在那裡丟 秀有補給的意思 都可以 到假天人載去 大家發現說 台灣島怎麼沒丟下去呢 原來一種神明回到天上之後 向日方大帝解釋 日方大帝了解以後 就改變決定 不再讓台灣島丟下去 大家知道以後 痛到中暈 見到人就互相恭喜 棒炮 去廟裡拜拜感謝神明 探望親戚朋友 這就是第一次 鏡村的由來 大家慶祝完 以前親戚朋友都沒事了 台灣島真的不會丟下去 這樣到丟死 大家就穿青草 把神明都接回來 這就是青史之神的由來 當神明接回來後 大家就開始數龍功雄 恢復正常的生活 所以青五就解開 開始雖然不應該在玩 這就是台灣的過年傳率 觀眾朋友 你們說是不是很有趣 今天台語跳舞就講到這裡 感謝觀眾朋友的收看 我們下次再見 祝福
https://cofacts.tw/article/3ylgFokBFLWd9xY2zyrv
可以轉這篇嗎,他語助詞太多了
這人口齒還算清楚
只是那個要你一直聽下去的無意義內容令人煩躁
像極了寶傑重複來賓的話

> 7月1日以後不禮讓行人,你的六千塊就飛走啦! 你以為這樣夠慘了嗎? 更慘的還在後面! 7月1日以後不禮讓行人,罰則調高到六千! 你以為已經夠嚴重了嗎? 最慘的還在後面喔! 你不禮讓行人罰六千塊之外,你還會被記點! 以前記點是十二點就是吊銷你的駕照了! 現在你不禮讓行人一次要扣三點! 這還不是最慘的喔! 最慘的是你要去上三個小時的道安安全講習課程喔! 你會在樂得要死的教室和劉家輩在那邊坐三個小時喔! 冒名去找人上課被抓到,駕照也會不見喔! 這個非常恐怖! 一般人還不曉得喔! 現在你要去上三個小時的道安安全演習講習的課程喔! 那非常恐怖啊! 等於是因為他不會在禮拜六禮拜天開課嘛! 一定是平日開課嘛! 那如果你一天的薪水,譬如我好了,一天薪水大概是五萬塊! 那我就要請一天的假,還要繳六千塊! 我不禮讓行人,我的時間成本就是五萬六千塊喔! 不僅如此喔! 還有一項非常重要的,歡迎你轉傳給所有開車比較快的好朋友! 現在危險超速,嚴重超速已經算是危險駕駛的一種了喔! 以前是超速六十公里,現在超速四十公里! 就是危險駕駛了喔! 譬如說限速三十的路段,四十的路段,你只要開七十八十,恭喜你! 危險駕駛! 危險駕駛現在的罰則,從兩萬四千塊的上限,調高到三萬六千塊囉! 各位!以後你在三十的路段,譬如說你開七十被拍照照騙了! 你就要繳三萬六千塊喔! 不僅如此喔!還是一樣喔! 道路安全講習喔!你一次就頒到水喔! 那特別趕快把它轉發給所有你開車比較快的,或者是自己開車比較快的,要非常小心! 不然還要請假去上課!
omg 看了都好焦慮 XD
這種看了很厭煩的,你去查會發現幾乎都是教你創業或賺錢的 tiktok頻道
mrorz 16:31:06
我在測試 Whisper API,在 Cofacts 裡面撈影片來給他轉轉看

結果點到一個超難的:https://cofacts.tw/article/-fs334UBC7Q3lHuUVISE
Whisper:
> 台語聽得懂嗎?每天報新書 各位觀眾朋友大家好 我是阿信老師 歡迎大家收看今天台語聽得懂嗎? 說到過年的由來,觀眾朋友會想到什麼呢? 因為我們都說年壽,其實那是中國的過年團算 總之啊,我們台灣也有自己的過年團算喔 今天台語聽得懂比較特別 我們要來跟大家分享台灣過年的團算和方式 先看這個異色的台語怎麼說 說到台灣人的過年團算 就是燉狗的團算 啊就是燉茶的團算 說到燉狗的故事,就要對煤油燉說起 在那邊有燉火的時代 台灣人是用蠟燭用煤油燉點火 煤油就是花字的沒有 這個煤是生長的人的意思 就像說煤啊火啊,煤啊薑啊 都是生長的人印進台灣的 在台灣人的團算裡面 關煤油燉,關蠟燭的神明叫做燉狗 因為他不管民眾在拜拜的時候 其他的神明都有拜到 只有他整年唐天為大家夾蠟燭,夾煤油燉 煤油燉,所以不讓大家拜到 所以他們就把玉虹台地倒 說是台灣人蒙恩背義 玉虹台地聽到很生氣 就決定要在二九末 就是華語說的除夕夜 把台灣島丟到海底 當人聽到以後 不然的路,他會這樣 參雙腰,實在是也沒辦法解決 畢竟是神明決定的事情 人實在是沒辦法處理 善良的台灣人專心說 好,我們自己丟下去沒關係 這家人的神明不能對我們隱私 所以就是日夕那天 先把家人所有豐收的神明 都送回天上 不讓自己拖累到種神明 這就是日夕送神的由來 當神明都送回了 在二九末 就是台灣島要丟下去那一晚 大家就台地多用 家人有什麼青草的都拿出來煮 這次祖先廟 整個家庭就一起團圓 享受最後的晚餐 這就是二九末製造圍爐的由來 打飯吃完 長輩就把家人的資產 拿出來分給長輩 這就是第二年 就是後來說的紅包的由來 最後整個家庭 一起共度台灣島丟下去之前 最後一晚 這就是九年 就是華記說的首帥的由來 九年有人說是休年 漢字一樣意思不太一樣 酒在那裡丟 秀有補給的意思 都可以 到假天人載去 大家發現說 台灣島怎麼沒丟下去呢 原來一種神明回到天上之後 向日方大帝解釋 日方大帝了解以後 就改變決定 不再讓台灣島丟下去 大家知道以後 痛到中暈 見到人就互相恭喜 棒炮 去廟裡拜拜感謝神明 探望親戚朋友 這就是第一次 鏡村的由來 大家慶祝完 以前親戚朋友都沒事了 台灣島真的不會丟下去 這樣到丟死 大家就穿青草 把神明都接回來 這就是青史之神的由來 當神明接回來後 大家就開始數龍功雄 恢復正常的生活 所以青五就解開 開始雖然不應該在玩 這就是台灣的過年傳率 觀眾朋友 你們說是不是很有趣 今天台語跳舞就講到這裡 感謝觀眾朋友的收看 我們下次再見 祝福
https://cofacts.tw/article/3ylgFokBFLWd9xY2zyrv
可以轉這篇嗎,他語助詞太多了
這人口齒還算清楚
只是那個要你一直聽下去的無意義內容令人煩躁
像極了寶傑重複來賓的話

> 7月1日以後不禮讓行人,你的六千塊就飛走啦! 你以為這樣夠慘了嗎? 更慘的還在後面! 7月1日以後不禮讓行人,罰則調高到六千! 你以為已經夠嚴重了嗎? 最慘的還在後面喔! 你不禮讓行人罰六千塊之外,你還會被記點! 以前記點是十二點就是吊銷你的駕照了! 現在你不禮讓行人一次要扣三點! 這還不是最慘的喔! 最慘的是你要去上三個小時的道安安全講習課程喔! 你會在樂得要死的教室和劉家輩在那邊坐三個小時喔! 冒名去找人上課被抓到,駕照也會不見喔! 這個非常恐怖! 一般人還不曉得喔! 現在你要去上三個小時的道安安全演習講習的課程喔! 那非常恐怖啊! 等於是因為他不會在禮拜六禮拜天開課嘛! 一定是平日開課嘛! 那如果你一天的薪水,譬如我好了,一天薪水大概是五萬塊! 那我就要請一天的假,還要繳六千塊! 我不禮讓行人,我的時間成本就是五萬六千塊喔! 不僅如此喔! 還有一項非常重要的,歡迎你轉傳給所有開車比較快的好朋友! 現在危險超速,嚴重超速已經算是危險駕駛的一種了喔! 以前是超速六十公里,現在超速四十公里! 就是危險駕駛了喔! 譬如說限速三十的路段,四十的路段,你只要開七十八十,恭喜你! 危險駕駛! 危險駕駛現在的罰則,從兩萬四千塊的上限,調高到三萬六千塊囉! 各位!以後你在三十的路段,譬如說你開七十被拍照照騙了! 你就要繳三萬六千塊喔! 不僅如此喔!還是一樣喔! 道路安全講習喔!你一次就頒到水喔! 那特別趕快把它轉發給所有你開車比較快的,或者是自己開車比較快的,要非常小心! 不然還要請假去上課!
omg 看了都好焦慮 XD
這種看了很厭煩的,你去查會發現幾乎都是教你創業或賺錢的 tiktok頻道

2023-07-09

2023-07-10

mglee 17:06:19
抱歉,想來請教一下Cofacts使用者人數的問題。截止六月底,我在LINE的Cofacts帳號上看到的好友人數42.6萬人,在Analytics “effective fried account”是30萬上下,“How Many Users”是破百萬。我的理解是破百萬的是「使用人次」,但不太理解為什麼從LINE上看到的好友數會跟Analytics上差距這麼大。不知道可以幫我解惑嗎?謝謝!
IMG_6549.PNG
Screenshot 2023-07-10 at 4.51.51 PM.png
Screenshot 2023-07-10 at 4.50.18 PM.png
• `Cofacts帳號上看到的好友人數42.6萬人` --> 這個包含已經封鎖的數量。
• `在Analytics "effective fried account"是30萬上下` --> 這個有減掉封鎖數。
• `"How Many Users"是破百萬` --> 這個是我們把 LINE bot 的 user ID 送給 google analytics (是今年 7/1 deprecate 的 GA3) 之後,google analytics 自己算的 user count。他似乎也不是每日人次相加(比每日人次相加後略少),圖中的新使用者數(一樣是 google analytics 認知的新使用者)比使用者數多也是很奇怪,只能說它的計算是個謎。
謝謝解惑!!這樣我知道引用那個數字比較準確了~
關於那個 bot 人數,如果會需要跟其他 bot 做對比、其他 bot 引用的是 LINE 上面顯示的那個沒減掉封鎖數的數字的話
那 Cofacts 這裡應該也要使用 LINE 上面顯示的那個沒減掉封鎖數的那個數字
瞭解。我一般會用line上面的數字(未減掉封鎖後的)來寫這句話「累積了超過42.5萬的使用者」,再加上謠言數量等等的統計。這個數字比較能反應是這些人曾經傳了xx筆謠言給Cofacts。如果 要很細的談「活躍用戶」時,才會用減掉封鎖後的數字,不過目前都沒有特別這樣標註~
誠實 ++
mrorz 18:26:24
中選會看起來有 cue 到 Cofacts
https://tw.sports.yahoo.com/news/%E9%98%B2%E5%81%87%E8%A8%8A%E6%81%AF%E6%B5%81%E7%AB%8[…]E6%81%AF%E6%9F%A5%E8%AD%89%E7%AE%A1%E9%81%93-050600826.html

Yahoo Sports

防假訊息流竄 中選會提供6大訊息查證管道

明(2024)年1月13日就是總統副總統及立法委員選舉投票日,中選會今(5)日表示,依往年經驗,有些與選舉或投票有關的假訊息、錯誤資訊甚或半真半假的不實訊息在各網路社群媒體經由捏造或分享等方式而四處流竄,提醒國人對於正確的選舉或投票資訊除可前往中選會網站查詢確認外,建議民眾亦可先幫家中長輩或親朋好友在手機等加入訊息查證管道工具,避免因轉傳或分享被檢舉有所觸法而受罰。中選會指出,依往年經驗,有些與選舉或投票有關的假訊息、錯誤資訊甚或半真半假的不實訊息,很容易會在你我間所使用的line群組對話、臉書社團等各網路社群媒體經由捏造、複製或分享等方式而四處流竄。尤其是,深偽影音科技已日新月異,在ChatGPT等生成式AI技術興起後,很多昔日以來的不實選務資訊都可能還會再次試圖影響我們國家的民主選舉。中選會說,國人對於正確的選舉或投票資訊除可前往中選會網站( <https://www.cec.gov.tw/> )查詢確認外,也建議民眾亦可先幫家中長輩或親朋好友在手機、平板或電腦等對話群組或有關網路社團、社群中加入些訊息查證管道工具,好協助家人及親友做訊息確認,既可以避免家中長輩或親友不小心因轉傳或分享

2023-07-11

cai 00:08:27
https://cofacts.tw/article/3ikuQIkBFLWd9xY2rVZf
https://cofacts.tw/article/mynuOYkBFLWd9xY2HE-8
為什麼詐騙類的逐字稿欄位會出現不是逐字稿內容?
代表他在 LINE 送進資料庫後,又特地登入網站輸入文字?
對,LINE 沒辦法送出逐字稿
好怪喔,像是詐騙集團的行為
我覺得先檢舉起來好了
再檢視表單裡的狀況
cai 00:08:27
https://cofacts.tw/article/3ikuQIkBFLWd9xY2rVZf
https://cofacts.tw/article/mynuOYkBFLWd9xY2HE-8
為什麼詐騙類的逐字稿欄位會出現不是逐字稿內容?
代表他在 LINE 送進資料庫後,又特地登入網站輸入文字?
對,LINE 沒辦法送出逐字稿
好怪喔,像是詐騙集團的行為
我覺得先檢舉起來好了
再檢視表單裡的狀況
cai 00:20:49
列表,有逐字稿的圖片會在右邊。
如果本來有逐字稿,內容又被清空的,在列表顯示圖片還是在右邊。
這個進了之後會比較單純一些
多媒體內容都放左邊這樣
文字空了還是左邊
https://github.com/cofacts/rumors-site/pull/542
cai 00:20:49
列表,有逐字稿的圖片會在右邊。
如果本來有逐字稿,內容又被清空的,在列表顯示圖片還是在右邊。
這個進了之後會比較單純一些
多媒體內容都放左邊這樣
文字空了還是左邊
https://github.com/cofacts/rumors-site/pull/542
mrorz 03:32:46
我在找語音辨識 integration test 測資,發現這個
https://cofacts.tw/article/RCnOC4kBFLWd9xY2nyAr
檔案很小適合 commit 到 repo 裡,又很有挑戰性 (?)
而且其實 Whisper 滿厲害
Whisper:
發現如果影片是其他語言,中文的 prompt 會干擾,導致 hallucination
另外,如果影片不太講話或無聲,也會有超多 hallucination

一些討論
• ffmpeg silence removal (但這是用寫死的 loudness 來做) - https://community.openai.com/t/whisper-api-hallucinating-on-empty-sections/93646/5
• 提及 whisperX 等會用 voice activity detection (VAD) 只取有人聲的前處理: https://github.com/openai/whisper/discussions/1369 ;或用 VAD 的 timestamp 來過濾 Whisper 的結果(回傳 type 為 verbose_json 時,會帶有 timestamp)
• 用 prompt 指定 accent 等等:https://community.openai.com/t/how-to-avoid-hallucinations-in-whisper-transcriptions/125300/17
• 嘗試設定一些細節參數 (`condition_on_previous_text` , whisper API 調不到) 與計算 chunk size https://github.com/openai/whisper/discussions/679
◦ 也有人提到一個 VAD 實作 silero vad model,且有 nodeJS API:https://www.vad.ricky0123.com/docs/node/
mrorz 03:32:46
我在找語音辨識 integration test 測資,發現這個
https://cofacts.tw/article/RCnOC4kBFLWd9xY2nyAr
檔案很小適合 commit 到 repo 裡,又很有挑戰性 (?)
而且其實 Whisper 滿厲害
Whisper:
發現如果影片是其他語言,中文的 prompt 會干擾,導致 hallucination
另外,如果影片不太講話或無聲,也會有超多 hallucination

一些討論
• ffmpeg silence removal (但這是用寫死的 loudness 來做) - https://community.openai.com/t/whisper-api-hallucinating-on-empty-sections/93646/5
• 提及 whisperX 等會用 voice activity detection (VAD) 只取有人聲的前處理: https://github.com/openai/whisper/discussions/1369 ;或用 VAD 的 timestamp 來過濾 Whisper 的結果(回傳 type 為 verbose_json 時,會帶有 timestamp)
• 用 prompt 指定 accent 等等:https://community.openai.com/t/how-to-avoid-hallucinations-in-whisper-transcriptions/125300/17
• 嘗試設定一些細節參數 (`condition_on_previous_text` , whisper API 調不到) 與計算 chunk size https://github.com/openai/whisper/discussions/679
◦ 也有人提到一個 VAD 實作 silero vad model,且有 nodeJS API:https://www.vad.ricky0123.com/docs/node/
mrorz 11:16:29
發現如果影片是其他語言,中文的 prompt 會干擾,導致 hallucination
另外,如果影片不太講話或無聲,也會有超多 hallucination

一些討論
• ffmpeg silence removal (但這是用寫死的 loudness 來做) - https://community.openai.com/t/whisper-api-hallucinating-on-empty-sections/93646/5
• 提及 whisperX 等會用 voice activity detection (VAD) 只取有人聲的前處理: https://github.com/openai/whisper/discussions/1369 ;或用 VAD 的 timestamp 來過濾 Whisper 的結果(回傳 type 為 verbose_json 時,會帶有 timestamp)
• 用 prompt 指定 accent 等等:https://community.openai.com/t/how-to-avoid-hallucinations-in-whisper-transcriptions/125300/17
• 嘗試設定一些細節參數 (`condition_on_previous_text` , whisper API 調不到) 與計算 chunk size https://github.com/openai/whisper/discussions/679
◦ 也有人提到一個 VAD 實作 silero vad model,且有 nodeJS API:https://www.vad.ricky0123.com/docs/node/

OpenAI Developer Forum

Whisper API hallucinating on empty sections

OpenAI Developer Forum

How to avoid Hallucinations in Whisper transcriptions?

If the hallucination is happening during a stretch of silence at the end of the recording, you could trim the silent portion and see if that helps. Otherwise, one thing I haven’t seen suggested here is that you could append a known “end of recording” audio to the audio you’re processing which you would later strip out of the transcript.

#1369 Hallucinations - how to recognize and solve?

#679 A possible solution to Whisper hallucination

cai 12:51:18
https://tfc-taiwan.org.tw/articles/9341 這篇應該能丟到報導共筆去
感謝提醒,已加在 https://cofacts.tw/hack
cai 12:51:18
https://tfc-taiwan.org.tw/articles/9341 這篇應該能丟到報導共筆去
感謝提醒,已加在 https://cofacts.tw/hack

2023-07-12

2023-07-13

delightfullychaotic 10:34:28
International Civil Society Centre在找假訊息公民科技案例,不知道 Cofacts接觸過沒有,有沒有興趣。
File
cc/ @bil 還記得嗎
我這裡搜尋不到其他相關接觸信件紀錄,可能真的只剩那個 Slack
我記得就一起聊聊天跟當個線上講座的聽眾唷
之前聯繫的時候他就在搜集 civic society 的 case study 嗎
如果是的話,那我們可能已經在他的 case study 裡了
如果不是的話,不能排除他把我們忘記了的可能性⋯⋯ XD
被忘記惹呀
趁著 Slack 免費試用被打開的日子,我確認了一下當時的聊天紀錄
2022/9/8 時 Mar Marin u.3是 Code for All
因此, International Civil Society Centre 這方面應該還是可以聯繫看看 XD 再麻煩 @delightfullychaotic 轉介 🙏

2023-07-18

baebea 22:06:06
@yuyuchen1507 has joined the channel
cai 22:46:00
https://cofacts.tw/article/ginxNIkBFLWd9xY2M0o1
之前中國很夯的 AI詐騙劇本出台灣版的了,很明顯是在看稿念,字幕還是簡體字
這種真的很難查核,你又不可能真的去問警察是不是有這種案子

2023-07-19

Rita 16:41:44
@rita.cj.lin has joined the channel
mrorz 19:13:36
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FEfM4Xqn4TA-nIXF8Njjovg
感覺很快會開完 XD

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 ## 2023 - [20230719 會議記錄](/EfM4Xqn4TA-nIXF8Njjovg) - [20230712 會議記錄](/hZ4I3iFfSPGr

2023-07-23

Joyce Huang 10:20:19
@joycehuang28 has joined the channel
cai 13:15:13
https://cofacts.tw/article/1k26hsfulvpwx
一天160次 line 詢問數
每年都要眖一次嗎
cai 13:15:13
https://cofacts.tw/article/1k26hsfulvpwx
首次回報4小時前,160次 line 詢問數
每年都要眖一次嗎

2023-07-24

Peter 14:48:29
原本想貼去moda的,但想說先貼來這裡,覺得好有趣,詐騙集團也開始利用數位發展部做荒謬的事情ㄌ https://tw.news.yahoo.com/他收-到府槍決通知-匯款才能撤銷-網傻眼-詐騙這麼兇-054511730.html
https://cofacts.tw/article/1trimqy4xt20t
cofacts網站也有人回報

中國5月就玩過了 https://news.ltn.com.tw/news/world/breakingnews/4313568

今天除了槍決通知,還有台水跟台電的詐騙簡訊
https://moda.gov.tw/press/clarification/5819
> 數位從沒有針對任何民眾執行任何定位具體位置的措施
數位後面少寫一個部www
delightfullychaotic 2023-07-25 17:18:12
我其實很懷疑是不是有人拿中國的弄反串。反串到變成Cofacts要處理也是會發生的。
Peter 14:48:29
原本想貼去moda的,但想說先貼來這裡,覺得好有趣,詐騙集團也開始利用數位發展部做荒謬的事情ㄌ https://tw.news.yahoo.com/他收-到府槍決通知-匯款才能撤銷-網傻眼-詐騙這麼兇-054511730.html
https://cofacts.tw/article/1trimqy4xt20t
cofacts網站也有人回報

中國5月就玩過了 https://news.ltn.com.tw/news/world/breakingnews/4313568

今天除了槍決通知,還有台水跟台電的詐騙簡訊
https://moda.gov.tw/press/clarification/5819
> 數位從沒有針對任何民眾執行任何定位具體位置的措施
數位後面少寫一個部www
delightfullychaotic 2023-07-25 17:18:12
我其實很懷疑是不是有人拿中國的弄反串。反串到變成Cofacts要處理也是會發生的。
cai 22:01:09
https://cofacts.tw/article/ylqiumq24i6t
這篇的單日詢問次數破千😮
image.png
cai 22:25:48
https://lookerstudio.google.com/reporting/18J8jZYumsoaCPBk9bdRd97GKvi_W5v-r/page/Cy2P
這個網址你們查7/5以後的有資料嗎?
要在左上角從 UA 版本的報告切換到 GA4 版本的報告

手機好像無法切換
cai 22:25:48
https://lookerstudio.google.com/reporting/18J8jZYumsoaCPBk9bdRd97GKvi_W5v-r/page/Cy2P
這個網址你們查7/5以後的有資料嗎?
要在左上角從 UA 版本的報告切換到 GA4 版本的報告

手機好像無法切換

2023-07-25

Eric Chang 08:14:29
@enjui.chang118 has joined the channel
ronnywang 16:14:06
https://ananweb.jp/news/493801/
這則新聞是因為 cofacts 最近在日本有做什麼活動所寫的嗎 XD

ananニュース - マガジンハウス

中国と熾烈な緊張関係にある台湾、フェイクニュースから国民を守るサービスを開発

意外と知らない社会的な問題について、ジャーナリストの堀潤さんが解説する「堀潤の社会のじかん」。今回のテーマは「台湾ガブ・ゼロ」です。

https://www.joqr.co.jp/qr/article/91947/
看起來是這個記者六月多有來台灣觀察到 cofacts
噢噢噢有唷他有來台灣
最近忙翻直到今天,才稍微有空瀏覽這陣子以來,g0v Slack的各種更新訊息。剛剛在看沒能參與到的8/26大松,當天的各種資訊。慢慢消化中。

相當感謝比鄰他們5/13接受訪問。
🙏 🙏 🙏

參與g0v以來,有空時都會到大松現場參與。但除此以外,我能做的也只有不停地對日本人講述g0v到底是什麼?各坑到底在做什麼?希望能透過節目,讓能理解的日本人越來越多。
我之後也要搬到日本,有機會也可以交流各種資訊 😂
🙌 2
ronnywang 16:14:06
https://ananweb.jp/news/493801/
這則新聞是因為 cofacts 最近在日本有做什麼活動所寫的嗎 XD
https://www.joqr.co.jp/qr/article/91947/
看起來是這個記者六月多有來台灣觀察到 cofacts
噢噢噢有唷他有來台灣
最近忙翻直到今天,才稍微有空瀏覽這陣子以來,g0v Slack的各種更新訊息。剛剛在看沒能參與到的8/26大松,當天的各種資訊。慢慢消化中。

相當感謝比鄰他們5/13接受訪問。
🙏 🙏 🙏

參與g0v以來,有空時都會到大松現場參與。但除此以外,我能做的也只有不停地對日本人講述g0v到底是什麼?各坑到底在做什麼?希望能透過節目,讓能理解的日本人越來越多。
我之後也要搬到日本,有機會也可以交流各種資訊 😂

2023-07-26

mrorz 12:04:36
今晚會議 8pm 於線上舉行唷
一方面是避開颱風影響,另一方面是要趕一下進度 XD
議程後補
mrorz 12:04:36
今晚會議 8pm 於線上舉行唷
一方面是避開颱風影響,另一方面是要趕一下進度 XD
議程後補
chihao 15:07:01
外交部北美司針對 `中國網軍透過「抖音」等平台瘋傳` 影片發聲明 `關於網傳「如何誘導台海戰爭遏制中國崛起」的影片事,外交部回應如下:` https://www.mofa.gov.tw/News_Content.aspx?n=95&sms=73&s=115115
Cofacts 則是 2022 就有(不確定是不是最早) https://cofacts.tw/article/2of1bmfxkkfy0
Strategists admit… 這篇文章應該就是影片開頭有提到的
原來之前我有查到一半

2021/12/10 https://cofacts.tw/article/g37y1sdksup0
> 本文大量引用由地緣政治風險分析師 Phill Hynes 和 Nury Vittachi 撰寫的文章「Strategists admit West is goading China into war」(戰略專家承認西方意欲激怒中國引發戰爭)
2022/3/17 https://cofacts.tw/article/cwqgulo5jeou

關於文章作者「地緣政治風險分析師 Phill Hynes 和 Nury Vittachi」
https://www.linkedin.com/in/phill-hynes/ “Head of Political Risk & Analysis ISS Risk
Nury Vittachi
https://www.youtube.com/watch?v=mBLdR-7BSFI
「who describes his previous self as an anti-China journalist, discusses his book “The Other Side of the Story: A Secret War in Hong Kong” and speaks more about the 2019 protests, which completely changed his perspective on China, along with many other Hong Kongers as well.」
上面兩篇訊息都是引這篇文章 https://johnmenadue.com/strategists-admit-west-is-goading-china-into-war/

文章裡面的 Strategist,其中一個應該是指 Elbridge Colby,有另外的公開資料,由他本人談這個內容。可以檢視一下 Elbridge Colby 原始的敘述,是否與 Phill Hynes 和 Nury Vittachi 這兩人的詮釋一致。

Elbridge Colby 訪談
218 | Elbridge Colby: Is Taiwan Next?
https://www.youtube.com/watch?v=2z16PIIRNsE

GTI
https://globaltaiwan.org/2022/01/february-9-a-book-talk-with-elbridge-colby-on-the-strategy-of-denial-american-defense-in-an-age-of-great-power-conflict/
https://www.youtube.com/watch?v=NOebC_OntZQ&feature=emb_title
chihao 15:07:01
外交部北美司針對 `中國網軍透過「抖音」等平台瘋傳` 影片發聲明 `關於網傳「如何誘導台海戰爭遏制中國崛起」的影片事,外交部回應如下:` https://www.mofa.gov.tw/News_Content.aspx?n=95&sms=73&s=115115
Cofacts 則是 2022 就有(不確定是不是最早) https://cofacts.tw/article/2of1bmfxkkfy0
Strategists admit… 這篇文章應該就是影片開頭有提到的
原來之前我有查到一半

2021/12/10 https://cofacts.tw/article/g37y1sdksup0
> 本文大量引用由地緣政治風險分析師 Phill Hynes 和 Nury Vittachi 撰寫的文章「Strategists admit West is goading China into war」(戰略專家承認西方意欲激怒中國引發戰爭)
2022/3/17 https://cofacts.tw/article/cwqgulo5jeou

關於文章作者「地緣政治風險分析師 Phill Hynes 和 Nury Vittachi」
https://www.linkedin.com/in/phill-hynes/ “Head of Political Risk & Analysis ISS Risk
Nury Vittachi
https://www.youtube.com/watch?v=mBLdR-7BSFI
「who describes his previous self as an anti-China journalist, discusses his book “The Other Side of the Story: A Secret War in Hong Kong” and speaks more about the 2019 protests, which completely changed his perspective on China, along with many other Hong Kongers as well.」
上面兩篇訊息都是引這篇文章 https://johnmenadue.com/strategists-admit-west-is-goading-china-into-war/

文章裡面的 Strategist,其中一個應該是指 Elbridge Colby,有另外的公開資料,由他本人談這個內容。可以檢視一下 Elbridge Colby 原始的敘述,是否與 Phill Hynes 和 Nury Vittachi 這兩人的詮釋一致。

Elbridge Colby 訪談
218 | Elbridge Colby: Is Taiwan Next?
https://www.youtube.com/watch?v=2z16PIIRNsE

GTI
https://globaltaiwan.org/2022/01/february-9-a-book-talk-with-elbridge-colby-on-the-strategy-of-denial-american-defense-in-an-age-of-great-power-conflict/
https://www.youtube.com/watch?v=NOebC_OntZQ&feature=emb_title

2023-07-27

2023-07-28

cai 13:57:41
https://cofacts.tw/article/TCkjmokBFLWd9xY2E7a0
文字與影片內容不相符,又一個把逐字稿當文字訊息用的?
這好像是00:18 和00:30 的影片句子。
😢 2
cai 13:57:41
https://cofacts.tw/article/TCkjmokBFLWd9xY2E7a0
文字與影片內容不相符,又一個把逐字稿當文字訊息用的?
這好像是00:18 和00:30 的影片句子。

2023-07-29

mrorz 17:38:51
@acerxp511 collab server config change https://github.com/cofacts/collab-server/pull/3 deployed to staging, can test if deletion history works

#3 Override defaultConfiguration yDocOptions.gc to false

Accroding to the <https://docs.yjs.dev/api/y.doc|doc> > Set doc.gc = false to disable garbage collection and be able to restore old content. We should override Hocuspocus' <https://github.com/ueberdosis/hocuspocus/blob/41de6437e6922e6ad44ccc16e489c925ead7aba4/packages/server/src/Hocuspocus.ts#L31C23-L31C23|defaultConfiguration> to keep the removed content

沒問題的話我也更新一下 production
更新之後應該就能動手砍 spam
還不行
我會趕快在這幾天弄好
mrorz 17:38:51
@acerxp511 collab server config change https://github.com/cofacts/collab-server/pull/3 deployed to staging, can test if deletion history works
沒問題的話我也更新一下 production
更新之後應該就能動手砍 spam
還不行
我會趕快在這幾天弄好