#cofacts | g0v.tw | slack archive

mrorz 00:11:31

@gary96302000.eecs96 @darkbtf @teemocogs 好奇這樣的 dataset description 大家覺得如何。會太囉唆，還是資訊不足呢？

Hugging Face dataset page:
https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw

Example Colab (含有如何 join table 做一個 classifier 需要的 train data)
https://colab.research.google.com/drive/1qdE-OMJTi6ZO68J6KdzGdxNdheW4ct6T

gary96302000.eecs96 01:08:03

相較多數資料集是詳細了很多但我覺得詳細說明還蠻不錯的

example 的話算是蠻簡單的，可以很直接地讀進資料（不過這應該是用 HF 這套蠻常見的就是），能想到的就是有個圖輔助你要 join tables 之間的概念可以錦上添花一些

另外有看到比較多的是 read me 裡面需要小校對一下（如果要看起來更好一些的話），有發現一些小錯字跟文法，例如說：

https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw#how-to-access-cofacts-data

Dara => Data
```Please first register on Hugging Face and accept Cofacts Dara User Agreement. Afterwards, you can preview the data on Hugging Face website.```
https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw#article_hyperlinks

if content is => if the content is
```Note: Scrapped contents do not belong to Cofacts and are redistributed under research purposes. The scrapping mechanism is not reliable either. Researchers may need to implement their own scrapper if content is important in their research.```

mrorz 08:42:22

感謝感謝
我請 ChatGPT 潤一下 XD

圖是個好主意，用 Colab 應該也好放圖

mrorz 09:10:06

Terminology 我用 table 好了
別用啥 subset 或檔案
這樣有 join 也自然

gary96302000.eecs96 11:00:43

嗯嗯這樣感覺很棒

mrorz 21:29:52

處理完畢

感覺可以來準備臉書宣傳了 XDDD

cai 22:42:18

bug ?
網友補充出現不同事件的
https://cofacts.tw/article/334kb79jk4lrf

cai 2023-10-02 13:19:19

應該是以前提過的line補充會送到不同篇文章的bug

mrorz 2023-10-02 13:33:47

也有可能是因為 match 到斷行字元
就被當成是這個訊息

cai 22:42:18

bug ?
網友補充出現不同事件的
https://cofacts.tw/article/334kb79jk4lrf

cai 2023-10-02 13:19:19

應該是以前提過的line補充會送到不同篇文章的bug

mrorz 2023-10-02 13:33:47

也有可能是因為 match 到斷行字元
就被當成是這個訊息

cai 01:08:19

https://news.ltn.com.tw/news/politics/paper/1606599 最後一段提到 cofacts

自由時報電子報

唐鳳：AI將對中國極權帶來挑戰 - 政治 - 自由時報電子報

數位部長唐鳳廿二日出席華盛頓「全球新興科技高峰會」（SCSP）並發表談話，稱台灣在對抗擁有數倍人力物力資源的中國資安、假訊息攻勢時，可藉由生成式人工智慧（AI）協助彌補人力上的差距。唐鳳接受「美國之音」專訪時分析，言論審查既會對中國的AI應用、發展形成障礙，AI也會對中國的極權政體帶來極大挑戰。唐鳳向美國之音表示，台灣在資安聯防方面持續與美國合作，此次訪美聚焦的新威脅之一為生成式AI。除了與美官員討論，更重要的是把台灣的顧慮和美方的關切、想法彙整後，提供給Meta、Google、Open AI、Anthropic等尖端AI研究公司。

mrorz 2023-10-02 11:09:49

我猜是看到了 Generative AI 小聚的筆記 XD

🙌 1

cai 01:08:19

https://news.ltn.com.tw/news/politics/paper/1606599 最後一段提到 cofacts

mrorz 2023-10-02 11:09:49

我猜是看到了 Generative AI 小聚的筆記 XD

mrorz 11:09:49

我猜是看到了 Generative AI 小聚的筆記 XD

mrorz 12:06:31

週三週會討論一下～

徵求「交大資工服務學習課程自由軟體組」的參與專案大家好，我跟軟自協的 <@U1GJ4AK2T>、前教育部自由軟體中心的 Eric Sun 及維基社群的 <@U1D5ZHDCN> 每學期都會去交大資工協助服務學習自由軟體組。由於今年系上想要擴大舉辦，因此想要徵求一些有興趣帶領大一同學:beginner::beginner::beginner:的坑主來加入。有興趣提供貢獻機會，請把專案資料填寫到此份投影片：<https://docs.google.com/presentation/d/1ZnbJy5_qpjOYPtkoH88v3X8IGVQ6yNVEloRipg_MVzc/edit?usp=sharing> （參與項目不限寫 code）我們將會在 10/13 去學校舉辦說明會，到時會將投影片提供給同學參考，我也會快速介紹一輪。會後供他們自由選擇有興趣的項目，再直接按照投影片上的資訊聯絡各專案坑主。（另外，系上也希望額外邀請參與者來系上演講，分享自己的開源及程式貢獻社會的經驗等（此項有演講費）。時間可安排在十一月或十二月下午或晚上，有興趣也請舉手一下。）

mrorz 12:06:31

週三週會討論一下～

徵求「交大資工服務學習課程自由軟體組」的參與專案大家好，我跟軟自協的 <@U1GJ4AK2T>、前教育部自由軟體中心的 Eric Sun 及維基社群的 <@U1D5ZHDCN> 每學期都會去交大資工協助服務學習自由軟體組。由於今年系上想要擴大舉辦，因此想要徵求一些有興趣帶領大一同學:beginner::beginner::beginner:的坑主來加入。有興趣提供貢獻機會，請把專案資料填寫到此份投影片：<https://docs.google.com/presentation/d/1ZnbJy5_qpjOYPtkoH88v3X8IGVQ6yNVEloRipg_MVzc/edit?usp=sharing> （參與項目不限寫 code）我們將會在 10/13 去學校舉辦說明會，到時會將投影片提供給同學參考，我也會快速介紹一輪。會後供他們自由選擇有興趣的項目，再直接按照投影片上的資訊聯絡各專案坑主。（另外，系上也希望額外邀請參與者來系上演講，分享自己的開源及程式貢獻社會的經驗等（此項有演講費）。時間可安排在十一月或十二月下午或晚上，有興趣也請舉手一下。）

cai 13:19:19

應該是以前提過的line補充會送到不同篇文章的bug

mrorz 13:33:47

也有可能是因為 match 到斷行字元
就被當成是這個訊息

mrorz 13:57:17

我在思考 article group 處理多則訊息時，跟現有 chatbot context 裡面的某些欄位（尤其是 `selectedArticleId` ）會有衝突的問題

正在思考「先整理 chatbot context 把東西移到 postback action」的方向時，發現現在把 `selectedArticleId` 記在 context 會有這個 bug:
https://github.com/cofacts/rumors-line-bot/issues/327

我想要先把 `selectedArticleId` 移動到 postback action 來修好這個 bug
再來逐步移除不需要的 context
最後再回頭思考 article group 與 chatbot context 的問題，說不定清完之後發現就沒有那些不 compatible 的 context field 了

想先諮詢 @acerxp511 與 @yhsiang 看看有沒有什麼想法

HackMD

Cofacts reasearch & design docs - HackMD

# Cofacts reasearch & design docs :::info - Design docs: Implementation documents with requiremen

#327 Cannot record feedback in certain state

From <https://g0v.hackmd.io/IqCOZMZLRe-JPMSJIV3yRQ#Feedback-%E7%84%A1%E6%B3%95%E7%B4%80%E9%8C%84|20220921 meeting> *Steps to reproduce* 1. 給一圖，觸發兩則圖 A, B 2. 先選一個有多個回應的圖 A，但不選回應 3. 捲回去選單一回應的圖 B，觸發回應 4. 捲回去挑一個 A 的回應顯示 5. 對該回應按「有用」或「沒用」 6. 按關閉，會出現「無法紀錄您的評價」 <https://user-images.githubusercontent.com/108608/191897488-87dae2c5-2531-4c8a-a8b0-d01a5aba7b71.png|image> <https://user-images.githubusercontent.com/108608/191897504-9496c8a1-bc17-4e64-b861-61e4c2098d89.png|image> <https://user-images.githubusercontent.com/108608/191897512-7783dac7-cf69-4b17-bcd1-5005984e5c40.png|image>

mrorz 13:57:17

我在思考 article group 處理多則訊息時，跟現有 chatbot context 裡面的某些欄位（尤其是 `selectedArticleId` ）會有衝突的問題

正在思考「先整理 chatbot context 把東西移到 postback action」的方向時，發現現在把 `selectedArticleId` 記在 context 會有這個 bug:
https://github.com/cofacts/rumors-line-bot/issues/327

我想要先把 `selectedArticleId` 移動到 postback action 來修好這個 bug
再來逐步移除不需要的 context
最後再回頭思考 article group 與 chatbot context 的問題，說不定清完之後發現就沒有那些不 compatible 的 context field 了

這裡看看 @acerxp511 與 @yhsiang 有沒有什麼想法

mrorz 13:46:27

今日遠端開會唷
議程 https://g0v.hackmd.io/XRzWTxjVTFWI8JNzLVh9lQ

mrorz 13:46:27

今日遠端開會唷
議程 https://g0v.hackmd.io/XRzWTxjVTFWI8JNzLVh9lQ

g0v.hackmd.io

20231004 會議記錄 - HackMD

Crystal 宛真 10:14:38

@apokoios has joined the channel

Zoey Tseng 15:11:30

@mrorz 可以確認一下 cofacts 的源碼跟資料都是用什麼 license 開源嗎？CC0 或是其他的

mrorz 2023-10-05 16:43:08

Source code MIT
資料方面我們有個自己的資料授權條款，以 CC BY-SA 作為基底，加註希望的 attribution

Zoey Tseng 2023-10-05 18:13:37

收到！感謝詳細說明！

Zoey Tseng 15:11:30

@mrorz 可以確認一下 cofacts 的源碼跟資料都是用什麼 license 開源嗎？CC0 或是其他的

mrorz 2023-10-05 16:43:08

Source code MIT
資料方面我們有個自己的資料授權條款，以 CC BY-SA 作為基底，加註希望的 attribution

Zoey Tseng 2023-10-05 18:13:37

收到！感謝詳細說明！

mrorz 16:43:08

Source code MIT
資料方面我們有個自己的資料授權條款，以 CC BY-SA 作為基底，加註希望的 attribution

Zoey Tseng 18:13:37

收到！感謝詳細說明！

mrorz 09:58:51

Whisper 的 hallucination 集中串

mrorz 2023-10-06 09:59:18

https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀

mrorz 2023-10-06 09:59:48

https://cofacts.tw/article/JvRhAosBAjOeMOklpe-v

mrorz 2023-10-06 10:00:46

我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y

mrorz 2023-10-06 12:57:52

前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a

mrorz 2023-10-07 00:37:30

慘叫
https://cofacts.tw/article/jvSIBYsBAjOeMOklDvOv

mrorz 2023-10-10 23:20:49

無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ

cai 2023-10-12 00:25:54

https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)

mrorz 2023-10-12 13:34:47

@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper

Eli 2023-10-17 12:43:30

我有發現另一個whisper的fork，他也有做VAD，可能也能幫上忙
但他只支援nvidia的顯卡，我手邊只有amd不能測 https://github.com/m-bain/whisperX

cai 2023-10-18 22:18:10

這種的再重跑一次就正常了

mrorz 09:58:51

Whisper 的 hallucination 集中串

mrorz 2023-10-06 09:59:18

https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀

mrorz 2023-10-06 09:59:48

https://cofacts.tw/article/JvRhAosBAjOeMOklpe-v

mrorz 2023-10-06 10:00:46

我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y

mrorz 2023-10-06 12:57:52

前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a

mrorz 2023-10-07 00:37:30

慘叫
https://cofacts.tw/article/jvSIBYsBAjOeMOklDvOv

mrorz 2023-10-10 23:20:49

無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ

cai 2023-10-12 00:25:54

https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)

mrorz 2023-10-12 13:34:47

@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper

Eli 2023-10-17 12:43:30

我有發現另一個whisper的fork，他也有做VAD，可能也能幫上忙
但他只支援nvidia的顯卡，我手邊只有amd不能測 https://github.com/m-bain/whisperX

cai 2023-10-18 22:18:10

這種的再重跑一次就正常了

mrorz 09:59:18

https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀

mrorz 09:59:48

https://cofacts.tw/article/JvRhAosBAjOeMOklpe-v

mrorz 10:00:46

我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y

mrorz 12:57:52

前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a

cai 00:25:53

AI 逐字稿影片類的似乎比較適合在保健秘訣那種旁白等於謠言內容的影片。
碰到配樂跟影片內容無關的反而增加麻煩。

mrorz 2023-10-07 00:38:21

確實如此，要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9

kiang 2023-10-07 07:38:01

Whisper 在無聲區域也常常跳出廣告文字，因為來源訓練資料的問題

mrorz 2023-10-07 23:08:02

關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper

mrorz 2023-10-07 23:10:31

嗯？google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events

cai 00:25:53

AI 逐字稿影片類的似乎比較適合在保健秘訣那種旁白等於謠言內容的影片。
碰到配樂跟影片內容無關的反而增加麻煩。

mrorz 2023-10-07 00:38:21

確實如此，要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9

kiang 2023-10-07 07:38:01

Whisper 在無聲區域也常常跳出廣告文字，因為來源訓練資料的問題

mrorz 2023-10-07 23:08:02

關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper

mrorz 2023-10-07 23:10:31

嗯？google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events

mrorz 00:37:30

慘叫
https://cofacts.tw/article/jvSIBYsBAjOeMOklDvOv

mrorz 00:38:21

確實如此，要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9

mrorz 01:33:51

Cofacts open data 這裡希望增加 status 欄位與 anonymized-user 表，這樣就能用 open data 來 train 偵測垃圾訊息的分類器
https://github.com/cofacts/opendata/pull/27

其中 user 表會長得像圖裡這樣，有一個 hash 過的 user id，帳號建立時間與最後上線時間，以及若為被封鎖的使用者就會有填寫的 `blockedReason`

image.png

#27 feat(dumpOpenData): add fields for CIB prediction

• Add block/normal status for entities with status • Add article type • Add anonymized user

mrorz 2023-10-07 01:35:48

要請大家確認的是，揭露這個 anoymized-user 不會違反我們自己的使用者條款
> Cofacts WG 會嚴格保護使用者資訊，確保使用者隱私及個人資料，除充分量化或去識別化後得不再視為個人資料者外，將不基於任何目的使其外流至與本服務無關之第三方。
> — https://github.com/cofacts/rumors-line-bot/blob/master/LEGAL.md
> 網站協作者登入後的補充訊息、回應內容、使用本平台之頻率等之公開訊息，將可能為 Cofacts WG 用於數據分析，當進行量化或去識別化等過程與原身分識別勾脫後，會留存於開放資料隱去名稱之研究或統計。
> https://github.com/cofacts/rumors-site/blob/master/LEGAL.md

mrorz 01:35:48

要請大家確認的是，揭露這個 anoymized-user 不會違反我們自己的使用者條款
> Cofacts WG 會嚴格保護使用者資訊，確保使用者隱私及個人資料，除充分量化或去識別化後得不再視為個人資料者外，將不基於任何目的使其外流至與本服務無關之第三方。
> — https://github.com/cofacts/rumors-line-bot/blob/master/LEGAL.md
> 網站協作者登入後的補充訊息、回應內容、使用本平台之頻率等之公開訊息，將可能為 Cofacts WG 用於數據分析，當進行量化或去識別化等過程與原身分識別勾脫後，會留存於開放資料隱去名稱之研究或統計。
> https://github.com/cofacts/rumors-site/blob/master/LEGAL.md

Peter 05:31:17

還是很好奇，為何台灣的 cofacts 有 s，但是泰國的 cofact 沒有…

mrorz 2023-10-07 15:25:17

他們自己取的，我也沒有問 XD

Teemo 2023-10-07 16:01:04

因為我們的假訊息比較多（逃走

Peter 05:31:17

還是很好奇，為何台灣的 cofacts 有 s，但是泰國的 cofact 沒有…

mrorz 2023-10-07 15:25:17

他們自己取的，我也沒有問 XD

Teemo 2023-10-07 16:01:04

因為我們的假訊息比較多（逃走

kiang 07:38:01

Whisper 在無聲區域也常常跳出廣告文字，因為來源訓練資料的問題

mrorz 15:25:17

他們自己取的，我也沒有問 XD

Teemo 16:01:04

因為我們的假訊息比較多（逃走

mrorz 23:08:02

關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper

g0v.hackmd.io

OCR and AI transcripts - HackMD

mrorz 23:10:31

嗯？google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events

mrorz 07:06:22

我注意到 AI transcript 出來的文字
會有刪除一字之後 paragraph 就會爛掉的現象

paragraphs.mp4

mrorz 2023-10-10 07:08:19

我的直覺是
原本 AI 出來的文字單純以 \n 斷行
但 ProseMirror 要求以 <p> <br> 斷行
所以就會直接爛掉

老實講，我會希望 ProseMirror 可以是一個單純的文字編輯器更好

之後我頂多只會加上特殊符號的 syntax highlight 而已（例如約定 `#` 開頭的行爲註解，方便標記分區或 timestamp）之類

mrorz 07:08:19

我的直覺是
原本 AI 出來的文字單純以 \n 斷行
但 ProseMirror 要求以 <p> <br> 斷行
所以就會直接爛掉

老實講，我會希望 ProseMirror 可以是一個單純的文字編輯器更好

之後我頂多只會加上特殊符號的 syntax highlight 而已（例如約定 `#` 開頭的行爲註解，方便標記分區或 timestamp）之類

cai 13:25:09

為什麼chatgpt 分析不見了

mrorz 2023-10-10 23:20:01

https://cofacts.tw/article/338s0vx1a71yv 有吧

cai 2023-10-10 23:27:03

奇怪，我中午看的時候沒有，現在看又有 🤔

cai 13:25:09

為什麼chatgpt 分析不見了

mrorz 2023-10-10 23:20:01

https://cofacts.tw/article/338s0vx1a71yv 有吧

cai 2023-10-10 23:27:03

奇怪，我中午看的時候沒有，現在看又有 🤔

mrorz 23:20:01

https://cofacts.tw/article/338s0vx1a71yv 有吧

mrorz 23:20:49

無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ

cai 23:27:03

奇怪，我中午看的時候沒有，現在看又有 🤔

婉琪 12:05:03

@wanchi has joined the channel

mrorz 18:04:55

發現忘記發今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Ft9ypB87SQBuMjjW_PheZVg

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2023 -

T 2023-10-11 18:12:49

對 Cofacts 專案功能感興趣，請問可以旁聽嗎？ 😀

mrorz 2023-10-11 18:19:45

可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

mrorz 2023-10-11 18:20:15

實體的話是在 Workis

T 2023-10-11 18:26:17

瞭解~今晚 7 點 vtaiwn 也有線上會議，我視情況盡量參與，謝謝 🙏

mrorz 18:04:55

發現忘記發今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Ft9ypB87SQBuMjjW_PheZVg

T 2023-10-11 18:12:49

對 Cofacts 專案功能感興趣，請問可以旁聽嗎？ 😀

mrorz 2023-10-11 18:19:45

可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

mrorz 2023-10-11 18:20:15

實體的話是在 Workis

T 2023-10-11 18:26:17

瞭解~今晚 7 點 vtaiwn 也有線上會議，我視情況盡量參與，謝謝 🙏

T 18:12:49

對 Cofacts 專案功能感興趣，請問可以旁聽嗎？ 😀

mrorz 18:18:45

靈敏度這點我有修正了，今天開會會測測看

mrorz 18:19:45

可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

mrorz 18:20:15

實體的話是在 Workis

T 18:26:17

瞭解~今晚 7 點 vtaiwn 也有線上會議，我視情況盡量參與，謝謝 🙏

cai 00:25:54

https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)

mrorz 13:34:47

@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper

mrorz 13:51:22

關於昨天測試時遇的 XD 問題 https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#%E6%9C%AA%E7%AB%9F%E9%A0%85%E7%9B%AE
主因是我們的 code 寫說
如果輸入的字 < 10 個、或者是 intent confidence = 1，那就判定為在聊天當時判斷 10 個字的討論在
我認為昨晚用部分訊息做測試，本來就不是「網傳訊息」而是更類似用關鍵字在測試 bot，屬於設計外的使用方式，這種自己輸入的短訊息讓 DialogFlow 來打哈哈我覺得還算符合預期，覺得可以不開票。
看大家的想法。

image.png

gary96302000.eecs96 2023-10-12 17:44:40

雖然對這塊不是很熟，不過短訊息能簡單處理確實合理

如果是為了要測試輸入短訊息，約定一個測試的 starting 暗號（i.e. <test>XXX ），看到前面是什麼開頭就一律當作網傳訊息這樣勒？

mrorz 2023-10-12 18:07:45

喔喔昨天是上線前的 ad hoc 測試，不是用在 CI 等開發內的～

👀 1

Zoey Tseng 17:38:36

Hi 想跟大家 check-in 一下專案（發證）進度，請問下次線上會議是什麼時候呢？

mrorz 2023-10-13 10:13:05

我們目前是每週三晚上開會，但這似乎與 da0 撞，所以應該也可考慮另外約時間唷
cc/ @bil

Zoey Tseng 2023-10-13 10:19:23

我可以先加入你們的沒問題～ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔！謝謝

mrorz 2023-10-13 10:49:53

感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

Zoey Tseng 17:38:36

Hi 想跟大家 check-in 一下專案（發證）進度，請問下次線上會議是什麼時候呢？

mrorz 2023-10-13 10:13:05

我們目前是每週三晚上開會，但這似乎與 da0 撞，所以應該也可考慮另外約時間唷
cc/ @bil

Zoey Tseng 2023-10-13 10:19:23

我可以先加入你們的沒問題～ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔！謝謝

mrorz 2023-10-13 10:49:53

感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

gary96302000.eecs96 17:44:40

雖然對這塊不是很熟，不過短訊息能簡單處理確實合理

如果是為了要測試輸入短訊息，約定一個測試的 starting 暗號（i.e. <test>XXX ），看到前面是什麼開頭就一律當作網傳訊息這樣勒？

mrorz 18:07:45

喔喔昨天是上線前的 ad hoc 測試，不是用在 CI 等開發內的～

mrorz 10:00:08

現在 LINE API 可以 quote 過去的訊息了！
https://developers.line.biz/en/docs/messaging-api/get-quote-tokens/

mrorz 2023-10-13 10:09:21

https://developers.line.biz/en/news/2023/09/14/send-and-receive-quote-messages-using-the-messaging-api/

mrorz 10:00:08

現在 LINE API 可以 quote 過去的訊息了！
https://developers.line.biz/en/docs/messaging-api/get-quote-tokens/

developers.line.biz

Get quote tokens

The LINE Developers site is a portal site for developers. It contains documents and tools that will help you use our various developer products. Creating LINE Login and Messaging API applications and services has never been easier!

mrorz 2023-10-13 10:09:21

https://developers.line.biz/en/news/2023/09/14/send-and-receive-quote-messages-using-the-messaging-api/

mrorz 10:09:21

https://developers.line.biz/en/news/2023/09/14/send-and-receive-quote-messages-using-the-messaging-api/

mrorz 10:13:05

我們目前是每週三晚上開會，但這似乎與 da0 撞，所以應該也可考慮另外約時間唷
cc/ @bil

Zoey Tseng 10:19:23

我可以先加入你們的沒問題～ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔！謝謝

mrorz 10:49:53

感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

mrorz 15:02:30

週三遭遇的 release blocker 已經修復
可以再試試看囉
尤其是傳圖片來測測看
https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#Testing-checklist

mrorz 15:02:30

週三遭遇的 release blocker 已經修復
可以再到 staging LINE bot 試試看囉
尤其是傳圖片來測測看 transcript 是否還有亂碼
https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#Testing-checklist

line.me

LINE Add Friend

g0v.hackmd.io

20231011 會議記錄 - HackMD

👌 1

Slackbot 15:02:31

https://i.giphy.com/media/ch2HEiwn0zWiqvXuDo/giphy-downsized.gif

cai 22:08:52

利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類
論文+1

cai 22:08:52

利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類
論文+1

ndltd.ncl.edu.tw

利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類__臺灣博碩士論文知識加值系統

身處在網路、電腦硬體設備發達之資訊社會，新聞的生產與需求都快速擴張之際，假新聞憑藉著傳播載具之進化，築基在新聞自由上之故意散佈虛假資訊行為，引發本研究之動機。　　而Covid-19假訊息之影響範圍遍及全臺灣及全世界，對閱聽眾帶來來之不良影響深遠無邊，故本研究目的為：「利用深度學習方法結合〈Cofacts真的假的〉資料進行真假訊息的分類。」　　本研究以〈Cofacts 真的假的〉作為資料搜集平台，僅搜集「含有正確訊息」與「含有錯誤訊息」之文字格式，並聚焦在以Covid-19為主題之繁體中文做為本研究資料集。實驗一以BERT模型進行分類，為降低模型輸出之隨機性，故執行五次訓練並取平均值， Accuracy平均為0.9043；實驗二以大型語言模型LLM架構下之生成式語言模型ChatGLM-6B進行分類任務，Accuracy達0.8996；在字數超過512字以上之長文本分類表現 Accuracy達0.9230。　　藉由實驗證明，在深度學習模型中，無論其初始設計目標是針對分類任務或生成任務，皆不會使模型在分類任務上有明顯鑑別，面對假訊息之有關機關應可彈性應用BERT、ChatGLM-6B兩者工具，避免Covid-19假訊息侵擾社會造成公眾危害。　　在硬體設備允許之情況下，若有假新聞以外之長文本分類需求時，亦可選用參數量龐大之LLM大型語言模型來進行分類任務。

1 👍 1

mrorz 20:57:25

下周三的會議（10/18）是線上舉行唷

mrorz 20:57:25

下周三的會議（10/18）是線上舉行唷

👍 1

cai 11:14:32

https://cofacts.tw/article/2dtq8ofv9zbi3 假貼圖的流程改了，中間先出現貼圖 10/31 才能用，後面才出現要分享給幾位

mrorz 2023-10-15 13:31:41

增加可信度呀
真陰險 XDDD

cai 2023-10-15 14:52:08

@andyy0216 這從以前就有了，可以用這個當判斷依據XD

cai 2023-10-28 13:02:37

https://home.gamer.com.tw/artwork.php?sn=5818961
有人去挖原始碼XD

cai 11:14:32

https://cofacts.tw/article/2dtq8ofv9zbi3 假貼圖的流程改了，中間先出現貼圖 10/31 才能用，後面才出現要分享給幾位

mrorz 2023-10-15 13:31:41

增加可信度呀
真陰險 XDDD

cai 2023-10-15 14:52:08

@andyy0216 這從以前就有了，可以用這個當判斷依據XD

cai 2023-10-28 13:02:37

https://home.gamer.com.tw/artwork.php?sn=5818961
有人去挖原始碼XD

page.acforshop 13:17:16

@page.acforshop has joined the channel

mrorz 13:31:41

增加可信度呀
真陰險 XDDD

cai 14:52:08

@andyy0216 這從以前就有了，可以用這個當判斷依據XD

mrorz 15:41:53

@a15923647 https://www.mygopen.com/2022/05/syria-video.html

MyGoPen

【錯誤】烏軍亞速營殺害平民嫁禍俄羅斯影片？實為2013年敘利亞屠殺事件

網傳「烏軍“亞速營“殺害平民嫁禍俄羅斯」的影片與訊息。經查證，影片實為 2013 年敘利亞 Tadamon 大屠殺事件的畫面，近期才被揭露，由《衛報》（The Guardian）中東記者 Martin Chulov 報導，和烏克蘭及亞速營均無關。「烏軍亞速營殺害平民築萬人坑。嫁禍是俄軍做的」、「人

mrorz 15:41:53

@a15923647 https://www.mygopen.com/2022/05/syria-video.html

a15923647 15:41:59

@a15923647 has joined the channel

a15923647 15:43:15

https://cofacts.tw/article/rvU2LYsBAjOeMOkljB7A

mrorz 2023-10-15 15:51:43

這次不知道是搭配什麼文字，old.cofacts.tw 也沒有

cai 2023-10-15 16:19:11

https://cofacts.tw/article/14a7inepniigy

a15923647 15:43:15

https://cofacts.tw/article/rvU2LYsBAjOeMOkljB7A

mrorz 2023-10-15 15:51:43

這次不知道是搭配什麼文字，old.cofacts.tw 也沒有

cai 2023-10-15 16:19:11

https://cofacts.tw/article/14a7inepniigy

mrorz 15:51:43

這次不知道是搭配什麼文字，old.cofacts.tw 也沒有

cai 16:19:11

https://cofacts.tw/article/14a7inepniigy

Annie Huang 16:31:08

@annie.huang921002 has joined the channel

Othsueh 16:33:19

@ych930719 has joined the channel

Eli 12:36:39

@tomy7912348 has joined the channel

Eli 12:43:30

我有發現另一個whisper的fork，他也有做VAD，可能也能幫上忙
但他只支援nvidia的顯卡，我手邊只有amd不能測 https://github.com/m-bain/whisperX

mrorz 16:22:16

今日議程 https://g0v.hackmd.io/v4taAFAtRt6EOMGGMa7Btw
8pm 會先跑 release check，以及跟 @zoeytseng0904 過這份回溯性投資的文件唷：https://docs.google.com/document/d/1SohXAnJh68R7YgLBc6g0KEEIrb06IbIypytW6Xso53w/edit

g0v.hackmd.io

20231018 會議記錄 - HackMD

denkenie 2023-10-18 17:36:06

> 回溯性公共投資實驗會在 2023 年底，使用（等值為） 40 萬新台幣（的 USDC）的資金池，*買回各專案所發出的 Hypercerts。*Cofacts 真的假的發出的 Hypercert 單價，與其他專案所發出的 Hypercert 單價不會相同，每個專案可以取得資金池中多少資金，會在 2023 年底，由回溯性公共投資實驗請 g0v 參與者進行平方投票來決定。
@zoeytseng0904 想確認平方投票所獲資金，是會直接分配給各專案，或是會執行「回購」？意即，這段期間發出的 Hypercerts，最終是需要轉移出來的嗎？

Zoey Tseng 2023-10-18 18:26:30

這邊會是看每個坑最後決定是不是要買回個人貢獻者的 hypercerts,
是的話，最後坑會買回持有者手上的 hypercerts ，而單價就會從 QV 後分配的資金下去決定

Zoey Tseng 2023-10-18 18:27:11

有的坑的共識是把QV分配到的資金作為坑的營運資金，就不會買回到個人的 hypercerts

mrorz 2023-10-18 19:25:33

那個段落是我依照我的理解寫的，應該不太精準
這也是為什麼在把這份文件給別人看之前會需要過一下 🙏

mrorz 16:22:16

今日議程 https://g0v.hackmd.io/v4taAFAtRt6EOMGGMa7Btw
8pm 會先跟 @zoeytseng0904 過這份回溯性投資的文件唷：https://docs.google.com/document/d/1SohXAnJh68R7YgLBc6g0KEEIrb06IbIypytW6Xso53w/edit

denkenie 2023-10-18 17:36:06

> 回溯性公共投資實驗會在 2023 年底，使用（等值為） 40 萬新台幣（的 USDC）的資金池，*買回各專案所發出的 Hypercerts。*Cofacts 真的假的發出的 Hypercert 單價，與其他專案所發出的 Hypercert 單價不會相同，每個專案可以取得資金池中多少資金，會在 2023 年底，由回溯性公共投資實驗請 g0v 參與者進行平方投票來決定。
@zoeytseng0904 想確認平方投票所獲資金，是會直接分配給各專案，或是會執行「回購」？意即，這段期間發出的 Hypercerts，最終是需要轉移出來的嗎？

Zoey Tseng 2023-10-18 18:26:30

這邊會是看每個坑最後決定是不是要買回個人貢獻者的 hypercerts,
是的話，最後坑會買回持有者手上的 hypercerts ，而單價就會從 QV 後分配的資金下去決定

Zoey Tseng 2023-10-18 18:27:11

有的坑的共識是把QV分配到的資金作為坑的營運資金，就不會買回到個人的 hypercerts

mrorz 2023-10-18 19:25:33

那個段落是我依照我的理解寫的，應該不太精準
這也是為什麼在把這份文件給別人看之前會需要過一下 🙏

denkenie 17:36:06

> 回溯性公共投資實驗會在 2023 年底，使用（等值為） 40 萬新台幣（的 USDC）的資金池，*買回各專案所發出的 Hypercerts。*Cofacts 真的假的發出的 Hypercert 單價，與其他專案所發出的 Hypercert 單價不會相同，每個專案可以取得資金池中多少資金，會在 2023 年底，由回溯性公共投資實驗請 g0v 參與者進行平方投票來決定。
@zoeytseng0904 想確認平方投票所獲資金，是會直接分配給各專案，或是會執行「回購」？意即，這段期間發出的 Hypercerts，最終是需要轉移出來的嗎？

Zoey Tseng 18:26:30

這邊會是看每個坑最後決定是不是要買回個人貢獻者的 hypercerts,
是的話，最後坑會買回持有者手上的 hypercerts ，而單價就會從 QV 後分配的資金下去決定

Zoey Tseng 18:27:11

有的坑的共識是把QV分配到的資金作為坑的營運資金，就不會買回到個人的 hypercerts

mrorz 19:25:33

那個段落是我依照我的理解寫的，應該不太精準
這也是為什麼在把這份文件給別人看之前會需要過一下 🙏

cai 22:18:10

這種的再重跑一次就正常了

Upter 11:05:15

@urbaner3 has joined the channel

mrorz 12:24:28

今天 2:00 ~ 12:09 API server 有 downtime，症狀是 api.cofacts.tw 、 cofacts-api.g0v.tw 均無法存取。
主因是
1. 凌晨時我更新 API 版本 https://github.com/cofacts/rumors-api/releases/tag/release%2F20231019
2. 更新時 docker 可能更新了 api container 的 IP
3. 即使 docker-compose 有使用 hostname 沒有寫死 IP，但 nginx 會 cache 住 IP 直到 configuration reload。
可能之後更新任何 container 都要記得 reload nginx config orz

mrorz 2023-10-19 14:42:02

其實我們 Cloudflare 是有啟動 Passive origin monitoring 的，但不知為啥沒有寄信來通知說 Server Unreachable。今年 9/10 有寄一次。

總之我現在設了主動的 health check，會寄信到 hi 小老鼠 cofacts.tw，也會去 discord #general 發訊息（但不會 sync 來到 slack ）

mrorz 2023-10-19 14:54:03

Cloudflare 其實有連接 pager duty 的功能耶
我在想是不是應該用 pager duty⋯⋯

mrorz 12:24:28

今天 2:00 ~ 12:09 API server 有 downtime，症狀是 api.cofacts.tw 、 cofacts-api.g0v.tw 均無法存取。
主因是
1. 凌晨時我更新 API 版本 https://github.com/cofacts/rumors-api/releases/tag/release%2F20231019
2. 更新時 docker 可能更新了 api container 的 IP
3. 即使 docker-compose 有使用 hostname 沒有寫死 IP，但 nginx 會 cache 住 IP 直到 configuration reload。
可能之後更新任何 container 都要記得 reload nginx config orz

Comment on #2003 Nginx "No route to host" error

mrorz 2023-10-19 14:42:02

其實我們 Cloudflare 是有啟動 Passive origin monitoring 的，但不知為啥沒有寄信來通知說 Server Unreachable。今年 9/10 有寄一次。

總之我現在設了主動的 health check，會寄信到 hi 小老鼠 cofacts.tw，也會去 discord #general 發訊息（但不會 sync 來到 slack ）

mrorz 2023-10-19 14:54:03

Cloudflare 其實有連接 pager duty 的功能耶
我在想是不是應該用 pager duty⋯⋯

Slackbot 12:24:29

https://i.giphy.com/media/ch2HEiwn0zWiqvXuDo/giphy-downsized.gif

mrorz 13:30:37

關於 Redis connection issue，現在確定是 LINE bot 開起來
就算只有一台，也會開到一大堆連線這件事
截圖是 linode 裡的 redis 的狀況，`172.18.0.2` 就是 production line bot (zh)，整台機器也只有 line bot 會連 redis

image.png

@null 14:24:19

以上為測試

ronnywang 2023-10-19 14:42:49

這個訊息是 discord sync 過來的嗎

ronnywang 2023-10-19 14:46:13

如果有想透過程式丟訊息到頻道的話，可以用 https://meet.jothon.online/bot/ 喔 XD

mrorz 2023-10-19 14:46:25

對耶聽起來不錯

mrorz 2023-10-19 14:46:50

但我現在是是丟到 discord 另一個 channel 了

mrorz 2023-10-19 14:47:47

我來試試看揪松 bot

mrorz 2023-10-19 14:59:45

cloudflare 可能格式跟揪松 bot 的不符，東西沒進來
https://developers.cloudflare.com/notifications/create-notifications/configure-webhooks/#generic-webhooks

ronnywang 2023-10-19 15:01:12

我看看喔

ronnywang 2023-10-19 15:03:39

嗯嗯，我本來是比照 slack api ，只吃 text=ooxx 格式， cloudflare 是給 {“text”:“ooxx”} JSON ，我應該可以加上支援判斷

ronnywang 2023-10-19 15:14:13

應該 ok 了，我加上判斷如果是
```curl -H "Content-Type: application/json" -XPOST -d '{"text":"Hello World"}' 'https://meet.jothon.online/api/postMessage?token=xxx&channel=xxx```
也可以過了

mrorz 14:42:02

其實我們 Cloudflare 是有啟動 Passive origin monitoring 的，但不知為啥沒有寄信來通知說 Server Unreachable。今年 9/10 有寄一次。

總之我現在設了主動的 health check，會寄信到 hi 小老鼠 cofacts.tw，也會去 discord #general 發訊息（但不會 sync 來到 slack ）

ronnywang 14:42:49

這個訊息是 discord sync 過來的嗎

ronnywang 14:46:13

如果有想透過程式丟訊息到頻道的話，可以用 https://meet.jothon.online/bot/ 喔 XD

mrorz 14:46:25

對耶聽起來不錯

mrorz 14:46:50

但我現在是是丟到 discord 另一個 channel 了

mrorz 14:47:47

我來試試看揪松 bot

mrorz 14:54:03

Cloudflare 其實有連接 pager duty 的功能耶
我在想是不是應該用 pager duty⋯⋯

mrorz 14:59:45

cloudflare 可能格式跟揪松 bot 的不符，東西沒進來
https://developers.cloudflare.com/notifications/create-notifications/configure-webhooks/#generic-webhooks

ronnywang 15:01:12

我看看喔

ronnywang 15:03:39

嗯嗯，我本來是比照 slack api ，只吃 text=ooxx 格式， cloudflare 是給 {“text”:“ooxx”} JSON ，我應該可以加上支援判斷

ronnywang 15:14:13

應該 ok 了，我加上判斷如果是
```curl -H "Content-Type: application/json" -XPOST -d '{"text":"Hello World"}' 'https://meet.jothon.online/api/postMessage?token=xxx&channel=xxx```
也可以過了

@null 15:46:21

[Preview]
Health Check Name: origin-abcd
Health Check ID: 11111111111
Time : 1970-01-01 00:00:00 +0000 UTC
Status: Healthy

Expected codes: [2xx 302]
Received code: 404

ronnywang 2023-10-19 15:47:07

這是 cloudflare 的測試嗎？

mrorz 2023-10-19 15:47:13

有了！謝謝 @ronnywang 🙏
有趣的是 slack app 可以過 bridge 通到 discord XDDD

ronnywang 2023-10-19 15:47:28

喔耶 XD

mrorz 2023-10-19 15:53:45

DDoS alert 也接上了
之後如果又被 DDoS 的話 slack 的大家都會知道

ronnywang 15:47:07

這是 cloudflare 的測試嗎？

mrorz 15:47:13

有了！謝謝 @ronnywang 🙏
有趣的是 slack app 可以過 bridge 通到 discord XDDD

1

ronnywang 15:47:28

喔耶 XD

mrorz 15:53:45

DDoS alert 也接上了
之後如果又被 DDoS 的話 slack 的大家都會知道

mrorz 00:20:25

我知道為啥週三測試的時候
發現測試站有些逐字稿不見了

我在網站上想改 prosemirror schema Collaborate/Schema.js
把它弄得很簡單像 https://prosemirror.net/examples/schema/ 第一個例子只有 text node 與 doc node
結果整個逐字稿就會消失，歷史紀錄也會消失 ._.

👍 1

mrorz 00:20:25

我知道為啥週三測試的時候
發現測試站有些逐字稿不見了

我在網站上想改 prosemirror schema Collaborate/Schema.js
把它弄得很簡單像 https://prosemirror.net/examples/schema/ 第一個例子只有 text
結果整個逐字稿就會消失，歷史紀錄也會消失 ._.

chewei 07:00:22

未看先轉 .. Cofacts 相關研究 ?
#engaged-research

tsjournal.org

Insights from a Comparative Study on the Variety, Velocity, Veracity, and Viability of Crowdsourced and Professional Fact-Checking Services | Journal of Online Trust and Safety

Journal of Online Trust and Safety

mrorz 2023-10-20 12:15:56

有耶，他確實是以台灣作為 context

mrorz 2023-10-20 12:17:03

data cut off 是 2021 July (跟 chatgpt 差不多？ＸＤ)

mrorz 2023-10-20 12:34:01

記錄在 cofacts.tw/hack 裡了
覺得很有趣，感謝分享～

👀 1

chewei 07:00:22

tsjournal.org

Insights from a Comparative Study on the Variety, Velocity, Veracity, and Viability of Crowdsourced and Professional Fact-Checking Services | Journal of Online Trust and Safety

Journal of Online Trust and Safety

mrorz 2023-10-20 12:15:56

有耶，他確實是以台灣作為 context

mrorz 2023-10-20 12:17:03

data cut off 是 2021 July (跟 chatgpt 差不多？ＸＤ)

mrorz 2023-10-20 12:34:01

記錄在 cofacts.tw/hack 裡了
覺得很有趣，感謝分享～

mrorz 12:15:56

有耶，他確實是以台灣作為 context

mrorz 12:17:03

data cut off 是 2021 July (跟 chatgpt 差不多？ＸＤ)

mrorz 12:34:01

記錄在 cofacts.tw/hack 裡了
覺得很有趣，感謝分享～

Fung Lee 05:06:24

@imleeszefung has joined the channel

canadian_aaron 05:12:16

Hi everyone! My colleague from Canada @imleeszefung is visiting Taiwan in December. They are eager to take part in a CoFacts松. Is there an event planned during that time?

canadian_aaron 05:12:16

Hi everyone! My colleague from Canada @imleeszefung is visiting Taiwan in December. They are eager to take part in a CoFacts松. Is there an event planned during that time?

Fung Lee 05:18:10

Hello guys! Nice e-meet you all! I’ll be in Taipei in early December, would be great to meet you guys in person sometime:)

Fung Lee 05:18:10

Hello guys! Nice e-meet you all! And thanks Aaron for the intro 🙌🏼 I’ll be in Taipei in early December, would be great to meet you guys in person sometime:)

mrorz 23:40:56

10,000 多張的歷史圖片 OCR 已經完成囉，可以看到各種截圖裁切，都透過 OCR，在右邊的相似可疑訊息被串在一起了～

image.png

mrorz 2023-10-28 17:37:54

7,300 多則歷史影片訊息的 Whisper 逐字稿也已經完成了～
雖然三天前就全部轉完，但手動清除明顯的幻聽花了一些時間 XD

😮 1 💯 3

1

mrorz 23:45:27

Hi @canadian_aaron and @imleeszefung!
We have weekly meetings in Wednesday night (8pm) in Workis coworking space, feel free to join these meetings :slightly_smiling_face:
Unfortunately we cannot participate in g0v hackathon in December due to activity conflicts.

mrorz 23:45:27

Hi @canadian_aaron and @imleeszefung!
We have weekly meetings in Wednesday night (8pm) in Workis coworking space, feel free to join these meetings :slightly_smiling_face:
Unfortunately we cannot participate in g0v hackathon in December due to activity conflicts.

google.com

Workis Studio · No. 7號, Lane 184, Section 2, Jilong Rd, Da’an District, Taipei City, Taiwan 106

★★★★★ · Coworking space

1 💯 1 🇨🇦 1

Fung Lee 06:27:05

Thanks! I’ll try my best to join when I’m in Taipei!

Fung Lee 06:27:05

Thanks! I’ll try my best to join when I’m in Taipei!

ael 02:12:04

@ktu 想要做社群小遊戲訓練大家對不實資訊的敏感度，昨天我建議可以直接用 #cofacts 的 database 作為題庫來源

幫 <@U2X3JLRT9> 來推廣一下他們在美國國會台灣觀測站黑克松和昨天 <#C05FZAX1Z9U|g0v-siliconvalley> 的提案，看看這邊有沒有人有興趣一起合作 2023 US Taiwan Watch Hackathon - 認知症疫苗 <https://docs.google.com/presentation/d/1rd0LCe3bn24OqS_5pmKF5p2BWpM8d1i2LpesNBFFRiI/edit#slide=id.p> 大眾對假消息敏感度/辨識度不高 => 社群小遊戲：這是假消息嗎？ <https://is-this-fake-news.vercel.app/|試玩連結>

mrorz 2023-10-23 11:23:09

感謝推薦
只要符合資料使用者條款裡指定的 CC BY-SA 顯名規範
都可以使用唷

如果想要結構化資料，可以直接從 https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw 下載 csvb

ael 02:12:04

@ktu 想要做社群小遊戲訓練大家對不實資訊的敏感度，昨天我建議可以直接用 #cofacts 的 database 作為題庫來源

幫 <@U2X3JLRT9> 來推廣一下他們在美國國會台灣觀測站黑克松和昨天 <#C05FZAX1Z9U|g0v-siliconvalley> 的提案，看看這邊有沒有人有興趣一起合作 2023 US Taiwan Watch Hackathon - 認知症疫苗 <https://docs.google.com/presentation/d/1rd0LCe3bn24OqS_5pmKF5p2BWpM8d1i2LpesNBFFRiI/edit#slide=id.p> 大眾對假消息敏感度/辨識度不高 => 社群小遊戲：這是假消息嗎？ <https://is-this-fake-news.vercel.app/|試玩連結>

mrorz 2023-10-23 11:23:09

感謝推薦
只要符合資料使用者條款裡指定的 CC BY-SA 顯名規範
都可以使用唷

如果想要結構化資料，可以直接從 https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw 下載 csvb

ktu 02:12:07

@ktu has joined the channel

mrorz 11:23:09

感謝推薦
只要符合資料使用者條款裡指定的 CC BY-SA 顯名規範
都可以使用唷

如果想要結構化資料，可以直接從 https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw 下載 csvb

mrorz 15:43:50

目前在 google colab 上用 whisper + 實作降低 hallucination 的簡單邏輯（去掉重複的 segment）來處理站上的舊影片，進度如下：
https://docs.google.com/spreadsheets/d/1G5NYStN6OXaokSC7WsxlhVyxy5YLWDN25bUtzzTj_Pw/edit#gid=0
Colab 每跑完一筆會自動寫入，然後我會手動看一下有沒有 hallucination，有的話就會把原本的幻覺貼到 “hallucination” 這一欄，左邊填稍微清過的。

現在發現大概 1/3 會是 hallucination ._.

mrorz 2023-10-23 15:46:42

處理的速度大概是 60 分鐘處理 50 則影片這樣

cai 2023-10-23 17:41:07

看 #vtaiwan 那邊好像有用 whisperX ，要不要問看看？
https://g0v-tw.slack.com/archives/C2Q1M4N1J/p1697632859367689

mrorz 2023-10-23 18:49:06

應該是跑在自己電腦上而不是 deploy 成上線的服務吧

mrorz 2023-10-23 18:51:04

但好像可以 host 在 replicate
值得一試耶
https://replicate.com/daanelson/whisperx/api#run

mrorz 2023-10-23 18:56:33

遇到 cold boot 等他起來要好幾分鐘
我以為這 model 在 replicate 上很熱門ＱＱ

mrorz 2023-10-23 19:00:34

https://replicate.com/p/oxstwizbfi5hj77v6zwofjsehm 翻成日文有點幽默

mrorz 2023-10-23 20:31:44

whisperx 給中文影片會回英文囧

mrorz 2023-10-23 20:32:48

這樣用不了（攤手

mrorz 2023-10-24 10:54:56

Colab free quota 用完了 😢
如果要付錢給 colab 不如直接打 Whisper API

gary96302000.eecs96 2023-10-24 12:48:47

會員一個月10美金顆顆

gary96302000.eecs96 2023-10-24 12:49:12

你是用 T4 嗎

gary96302000.eecs96 2023-10-24 12:49:57

一個月會員會給 100 credit 開 T4 一小時大概耗 2 個運算 credit 所以大概用不到 50 小時給你參考一下顆顆

mrorz 2023-10-24 12:51:06

50hr 大概只能處理 3000 則影片

gary96302000.eecs96 2023-10-24 12:51:40

免費仔 quota renew 好像是一天但不會補滿不太確定他怎麼算的

gary96302000.eecs96 2023-10-24 12:54:06

不然就是開一堆google 帳號反正 colab code share 很方便存在一個 shared drive

gary96302000.eecs96 2023-10-24 12:54:23

🚑

mrorz 2023-10-24 12:55:44

現在剩下 7000 則歷史影片
每則 2min 那是 14000 min
Whisper 是 $0.006 / minute
這樣大概 84USD

mrorz 2023-10-24 12:57:14

突然覺得好像花 30USD 買 300 colab credit 比較划算？

gary96302000.eecs96 2023-10-24 12:57:43

如果要背景跑的話 colab pro+確實比較好

gary96302000.eecs96 2023-10-24 12:58:21

如果可以接受開著放在那 colab pro 先用不夠可以加價買credit

gary96302000.eecs96 2023-10-24 12:58:42

而且還可以測試看看 V100/A100

mrorz 2023-10-24 12:59:07

也是有道理

gary96302000.eecs96 2023-10-24 12:59:11

理論上 A100 雖然貴但是你的 job 已經準備好他跑起來反而更省

gary96302000.eecs96 2023-10-24 12:59:28

A100 一小時會耗 13 credit

gary96302000.eecs96 2023-10-24 12:59:41

所以跑的速度有 7 倍以上的話

gary96302000.eecs96 2023-10-24 12:59:48

就反而更划算

mrorz 2023-10-24 12:59:49

但我的 job 好像會有一些下載的時間

gary96302000.eecs96 2023-10-24 13:00:01

歐歐

mrorz 2023-10-24 13:00:03

沒有寫成先下載到機器

gary96302000.eecs96 2023-10-24 13:00:37

可以考慮只用 CPU 先下載下來到 gdrive

mrorz 2023-10-24 13:00:50

喔他們都在 gcs 上

gary96302000.eecs96 2023-10-24 13:00:53

然後 mount 那個 gdrive 直接讀就很快

mrorz 2023-10-24 13:00:54

是沒在機器

mrorz 2023-10-24 13:00:58

喔喔喔也可以

mrorz 2023-10-24 13:01:06

對齁可以 mount

gary96302000.eecs96 2023-10-24 13:01:07

歐歐 gcs 應該也行

mrorz 2023-10-24 13:01:13

好耶

gary96302000.eecs96 2023-10-24 13:01:18

顆顆

gary96302000.eecs96 2023-10-24 13:01:53

<<-- colab 省錢CP值高手

mrorz 2023-10-24 13:02:53

好像要用一個叫 FUSE 的東西
https://colab.research.google.com/notebooks/snippets/gcs.ipynb#scrollTo=ZWpIqYjsBJFn

gary96302000.eecs96 2023-10-24 13:03:06

colab pro 那個收錢頁面很爛的就是不明寫每個 GPU 每小時花多少

gary96302000.eecs96 2023-10-24 13:04:00

感覺跟 S3 流程蠻像的

gary96302000.eecs96 2023-10-24 13:04:14

就是要裝一下他的 package 然後驗證

mrorz 2023-10-24 13:05:00

好像也可以測一下 faster-whisper

mrorz 2023-10-24 13:05:08

內建 vad

gary96302000.eecs96 2023-10-24 13:05:51

歐歐 CT2 蠻有名的原來也有做 Whisper

gary96302000.eecs96 2023-10-24 13:06:46

這類就是針對 inference 加速的 framework LLM 那邊很多

gary96302000.eecs96 2023-10-24 13:07:07

搭配 GPU 速度扛扛得上去

mrorz 2023-10-24 14:10:48

默默又有免費的 credit 了，蹭起來
不下載直接 mount GCS + faster-whisper
整個箭步如飛耶

mrorz 2023-10-24 14:25:03

15min 70個影片 --> 1hr 估約 250 個影片
是之前的 4 倍快呢

mrorz 2023-10-24 14:29:19

有了 VAD 之後
Hallucination 大概下降到 2 成左右
Whisper 的是 1/3

gary96302000.eecs96 2023-10-24 14:46:38

對這類 inference 是真的會快很多

gary96302000.eecs96 2023-10-24 14:47:47

不確定有沒有別的團隊做 whisper 像 LLM 最快的還不是 CT2 顆顆

mrorz 2023-10-24 19:06:33

免費額度又用完了
我要來課金試試看 A100 XDD

gary96302000.eecs96 2023-10-24 19:07:40

對要看時段很多人在用的時候就沒有辦法分配到可以等晚一點

gary96302000.eecs96 2023-10-24 19:08:07

台灣時間晚上6-10點通常都要搶

mrorz 2023-10-24 19:08:34

V100 每小時是 5.36 credit

mrorz 2023-10-24 19:09:35

我把「大量 RAM」關掉了
我的 RAM 連免費版的都沒用完

gary96302000.eecs96 2023-10-24 19:10:31

A100的話預設就是大量ram 沒得降低就是了

gary96302000.eecs96 2023-10-24 19:10:49

V100不確定

gary96302000.eecs96 2023-10-24 19:15:59

Whisper 這個模型我沒用過但如果他是 memory bound 的 task 的話可以用各張卡的 memory bandwidth 估算跑的速度

• T4: 320GB/s
• V100: 900GB/a
• A100 40GB VRAM: 1.55TB/s
• A100 80GB VRAM: 2 TB/a

mrorz 2023-10-24 19:17:53

V100 的速度：
7min 23 個影片
這樣一小時應該可以有 200 個影片
這樣看起來好像跟 T4 差不多（上面是估 250 video / 1hr）

mrorz 2023-10-24 19:19:01

Colab code: https://colab.research.google.com/drive/1bCntjgyv4uX5j92rWW600eYqN1khkeYp#scrollTo=bmJ6qVVegIbX
`transcribe_soundtrack` 沒在用，現在都是用 `transcribe_faster` (faster-whisper)

mrorz 2023-10-24 19:19:43

不知道 beam_size 是不是有讓速度變慢

mrorz 2023-10-24 19:42:22

把 beam_size 從 10 變成 5 (whisper default) 之後處理速度變成 300 item/hr

gary96302000.eecs96 2023-10-24 19:45:30

科科

mrorz 2023-10-24 20:23:23

約需要 20hr 轉完剩下的 6000 則歷史影片
應該會把 credit 用光光
剩下的用免費 quota 處理掉

mrorz 15:43:50

目前在 google colab 上用 whisper + 實作降低 hallucination 的簡單邏輯（去掉重複的 segment）來處理站上的舊影片，進度如下：
https://docs.google.com/spreadsheets/d/1G5NYStN6OXaokSC7WsxlhVyxy5YLWDN25bUtzzTj_Pw/edit#gid=0
Colab 每跑完一筆會自動寫入，然後我會手動看一下有沒有 hallucination，有的話就會把原本的幻覺貼到 “hallucination” 這一欄，左邊填稍微清過的。

現在發現大概 1/3 會是 hallucination ._.

mrorz 2023-10-23 15:46:42

處理的速度大概是 60 分鐘處理 50 則影片這樣

cai 2023-10-23 17:41:07

看 #vtaiwan 那邊好像有用 whisperX ，要不要問看看？
https://g0v-tw.slack.com/archives/C2Q1M4N1J/p1697632859367689

mrorz 2023-10-23 18:49:06

應該是跑在自己電腦上而不是 deploy 成上線的服務吧

mrorz 2023-10-23 18:51:04

但好像可以 host 在 replicate
值得一試耶
https://replicate.com/daanelson/whisperx/api#run

mrorz 2023-10-23 18:56:33

遇到 cold boot 等他起來要好幾分鐘
我以為這 model 在 replicate 上很熱門ＱＱ

mrorz 2023-10-23 19:00:34

https://replicate.com/p/oxstwizbfi5hj77v6zwofjsehm 翻成日文有點幽默

mrorz 2023-10-23 20:31:44

whisperx 給中文影片會回英文囧

mrorz 2023-10-23 20:32:48

這樣用不了（攤手

mrorz 2023-10-24 10:54:56

Colab free quota 用完了 😢
如果要付錢給 colab 不如直接打 Whisper API

gary96302000.eecs96 2023-10-24 12:48:47

會員一個月10美金顆顆

gary96302000.eecs96 2023-10-24 12:49:12

你是用 T4 嗎

gary96302000.eecs96 2023-10-24 12:49:57

一個月會員會給 100 credit 開 T4 一小時大概耗 2 個運算 credit 所以大概用不到 50 小時給你參考一下顆顆

mrorz 2023-10-24 12:51:06

50hr 大概只能處理 3000 則影片

gary96302000.eecs96 2023-10-24 12:51:40

免費仔 quota renew 好像是一天但不會補滿不太確定他怎麼算的

gary96302000.eecs96 2023-10-24 12:54:06

不然就是開一堆google 帳號反正 colab code share 很方便存在一個 shared drive

gary96302000.eecs96 2023-10-24 12:54:23

🚑

mrorz 2023-10-24 12:55:44

現在剩下 7000 則歷史影片
每則 2min 那是 14000 min
Whisper 是 $0.006 / minute
這樣大概 84USD

mrorz 2023-10-24 12:57:14

突然覺得好像花 30USD 買 300 colab credit 比較划算？

gary96302000.eecs96 2023-10-24 12:57:43

如果要背景跑的話 colab pro+確實比較好

gary96302000.eecs96 2023-10-24 12:58:21

如果可以接受開著放在那 colab pro 先用不夠可以加價買credit

gary96302000.eecs96 2023-10-24 12:58:42

而且還可以測試看看 V100/A100

mrorz 2023-10-24 12:59:07

也是有道理

gary96302000.eecs96 2023-10-24 12:59:11

理論上 A100 雖然貴但是你的 job 已經準備好他跑起來反而更省

gary96302000.eecs96 2023-10-24 12:59:28

A100 一小時會耗 13 credit

gary96302000.eecs96 2023-10-24 12:59:41

所以跑的速度有 7 倍以上的話

gary96302000.eecs96 2023-10-24 12:59:48

就反而更划算

mrorz 2023-10-24 12:59:49

但我的 job 好像會有一些下載的時間

gary96302000.eecs96 2023-10-24 13:00:01

歐歐

mrorz 2023-10-24 13:00:03

沒有寫成先下載到機器

gary96302000.eecs96 2023-10-24 13:00:37

可以考慮只用 CPU 先下載下來到 gdrive

mrorz 2023-10-24 13:00:50

喔他們都在 gcs 上

gary96302000.eecs96 2023-10-24 13:00:53

然後 mount 那個 gdrive 直接讀就很快

mrorz 2023-10-24 13:00:54

是沒在機器

mrorz 2023-10-24 13:00:58

喔喔喔也可以

mrorz 2023-10-24 13:01:06

對齁可以 mount

gary96302000.eecs96 2023-10-24 13:01:07

歐歐 gcs 應該也行

mrorz 2023-10-24 13:01:13

好耶

gary96302000.eecs96 2023-10-24 13:01:18

顆顆

gary96302000.eecs96 2023-10-24 13:01:53

<<-- colab 省錢CP值高手

mrorz 2023-10-24 13:02:53

好像要用一個叫 FUSE 的東西
https://colab.research.google.com/notebooks/snippets/gcs.ipynb#scrollTo=ZWpIqYjsBJFn

gary96302000.eecs96 2023-10-24 13:03:06

colab pro 那個收錢頁面很爛的就是不明寫每個 GPU 每小時花多少

gary96302000.eecs96 2023-10-24 13:04:00

感覺跟 S3 流程蠻像的

gary96302000.eecs96 2023-10-24 13:04:14

就是要裝一下他的 package 然後驗證

mrorz 2023-10-24 13:05:00

好像也可以測一下 faster-whisper

mrorz 2023-10-24 13:05:08

內建 vad

gary96302000.eecs96 2023-10-24 13:05:51

歐歐 CT2 蠻有名的原來也有做 Whisper

gary96302000.eecs96 2023-10-24 13:06:46

這類就是針對 inference 加速的 framework LLM 那邊很多

gary96302000.eecs96 2023-10-24 13:07:07

搭配 GPU 速度扛扛得上去

mrorz 2023-10-24 14:10:48

默默又有免費的 credit 了，蹭起來
不下載直接 mount GCS + faster-whisper
整個箭步如飛耶

mrorz 2023-10-24 14:25:03

15min 70個影片 --> 1hr 估約 250 個影片
是之前的 4 倍快呢

mrorz 2023-10-24 14:29:19

有了 VAD 之後
Hallucination 大概下降到 2 成左右
Whisper 的是 1/3

gary96302000.eecs96 2023-10-24 14:46:38

對這類 inference 是真的會快很多

gary96302000.eecs96 2023-10-24 14:47:47

不確定有沒有別的團隊做 whisper 像 LLM 最快的還不是 CT2 顆顆

mrorz 2023-10-24 19:06:33

免費額度又用完了
我要來課金試試看 A100 XDD

gary96302000.eecs96 2023-10-24 19:07:40

對要看時段很多人在用的時候就沒有辦法分配到可以等晚一點

gary96302000.eecs96 2023-10-24 19:08:07

台灣時間晚上6-10點通常都要搶

mrorz 2023-10-24 19:08:34

V100 每小時是 5.36 credit

mrorz 2023-10-24 19:09:35

我把「大量 RAM」關掉了
我的 RAM 連免費版的都沒用完

gary96302000.eecs96 2023-10-24 19:10:31

A100的話預設就是大量ram 沒得降低就是了

gary96302000.eecs96 2023-10-24 19:10:49

V100不確定

gary96302000.eecs96 2023-10-24 19:15:59

Whisper 這個模型我沒用過但如果他是 memory bound 的 task 的話可以用各張卡的 memory bandwidth 估算跑的速度

• T4: 320GB/s
• V100: 900GB/a
• A100 40GB VRAM: 1.55TB/s
• A100 80GB VRAM: 2 TB/a

mrorz 2023-10-24 19:17:53

V100 的速度：
7min 23 個影片
這樣一小時應該可以有 200 個影片
這樣看起來好像跟 T4 差不多（上面是估 250 video / 1hr）

mrorz 2023-10-24 19:19:01

Colab code: https://colab.research.google.com/drive/1bCntjgyv4uX5j92rWW600eYqN1khkeYp#scrollTo=bmJ6qVVegIbX
`transcribe_soundtrack` 沒在用，現在都是用 `transcribe_faster` (faster-whisper)

mrorz 2023-10-24 19:19:43

不知道 beam_size 是不是有讓速度變慢

mrorz 2023-10-24 19:42:22

把 beam_size 從 10 變成 5 (whisper default) 之後處理速度變成 300 item/hr

gary96302000.eecs96 2023-10-24 19:45:30

科科

mrorz 2023-10-24 20:23:23

約需要 20hr 轉完剩下的 6000 則歷史影片
應該會把 credit 用光光
剩下的用免費 quota 處理掉

mrorz 15:46:42

處理的速度大概是 60 分鐘處理 50 則影片這樣

cai 17:41:07

看 #vtaiwan 那邊好像有用 whisperX ，要不要問看看？
https://g0v-tw.slack.com/archives/C2Q1M4N1J/p1697632859367689

mrorz 18:49:06

應該是跑在自己電腦上而不是 deploy 成上線的服務吧

mrorz 18:51:04

但好像可以 host 在 replicate
值得一試耶
https://replicate.com/daanelson/whisperx/api#run

mrorz 18:56:33

遇到 cold boot 等他起來要好幾分鐘
我以為這 model 在 replicate 上很熱門ＱＱ

mrorz 19:00:34

https://replicate.com/p/oxstwizbfi5hj77v6zwofjsehm 翻成日文有點幽默

mrorz 20:31:44

whisperx 給中文影片會回英文囧

mrorz 20:32:48

這樣用不了（攤手

mrorz 10:54:56

Colab free quota 用完了 😢
如果要付錢給 colab 不如直接打 Whisper API

image.png

mrorz 11:08:40

昨天我試了一下 google speech to text v2 (Chirp)
影片與 whisper 幻出來的結果：https://cofacts.tw/article/sfTx-IoBAjOeMOklkePx

而 Google Chirp 模型的結果如圖
感覺比 Whisper 的 medium model 還差，錯字多到 Elasticsearch 的 bigram 也無法有效 index

image.png

gary96302000.eecs96 12:48:47

會員一個月10美金顆顆

gary96302000.eecs96 12:49:12

你是用 T4 嗎

gary96302000.eecs96 12:49:57

一個月會員會給 100 credit 開 T4 一小時大概耗 2 個運算 credit 所以大概用不到 50 小時給你參考一下顆顆

mrorz 12:51:06

50hr 大概只能處理 3000 則影片

gary96302000.eecs96 12:51:40

免費仔 quota renew 好像是一天但不會補滿不太確定他怎麼算的

gary96302000.eecs96 12:54:06

不然就是開一堆google 帳號反正 colab code share 很方便存在一個 shared drive

gary96302000.eecs96 12:54:23

🚑

mrorz 12:55:44

現在剩下 7000 則歷史影片
每則 2min 那是 14000 min
Whisper 是 $0.006 / minute
這樣大概 84USD

mrorz 12:57:14

突然覺得好像花 30USD 買 300 colab credit 比較划算？

gary96302000.eecs96 12:57:43

如果要背景跑的話 colab pro+確實比較好

gary96302000.eecs96 12:58:21

如果可以接受開著放在那 colab pro 先用不夠可以加價買credit

gary96302000.eecs96 12:58:42

而且還可以測試看看 V100/A100

mrorz 12:59:07

也是有道理

gary96302000.eecs96 12:59:11

理論上 A100 雖然貴但是你的 job 已經準備好他跑起來反而更省

gary96302000.eecs96 12:59:28

A100 一小時會耗 13 credit

gary96302000.eecs96 12:59:41

所以跑的速度有 7 倍以上的話

gary96302000.eecs96 12:59:48

就反而更划算

mrorz 12:59:49

但我的 job 好像會有一些下載的時間

gary96302000.eecs96 13:00:01

歐歐

mrorz 13:00:03

沒有寫成先下載到機器

gary96302000.eecs96 13:00:37

可以考慮只用 CPU 先下載下來到 gdrive

mrorz 13:00:50

喔他們都在 gcs 上

gary96302000.eecs96 13:00:53

然後 mount 那個 gdrive 直接讀就很快

mrorz 13:00:54

是沒在機器

mrorz 13:00:58

喔喔喔也可以

mrorz 13:01:06

對齁可以 mount

gary96302000.eecs96 13:01:07

歐歐 gcs 應該也行

mrorz 13:01:13

好耶

gary96302000.eecs96 13:01:18

顆顆

gary96302000.eecs96 13:01:53

<<-- colab 省錢CP值高手

mrorz 13:02:53

好像要用一個叫 FUSE 的東西
https://colab.research.google.com/notebooks/snippets/gcs.ipynb#scrollTo=ZWpIqYjsBJFn

gary96302000.eecs96 13:03:06

colab pro 那個收錢頁面很爛的就是不明寫每個 GPU 每小時花多少

gary96302000.eecs96 13:04:00

感覺跟 S3 流程蠻像的

gary96302000.eecs96 13:04:14

就是要裝一下他的 package 然後驗證

mrorz 13:05:00

好像也可以測一下 faster-whisper

mrorz 13:05:08

內建 vad

gary96302000.eecs96 13:05:51

歐歐 CT2 蠻有名的原來也有做 Whisper

gary96302000.eecs96 13:06:46

這類就是針對 inference 加速的 framework LLM 那邊很多

gary96302000.eecs96 13:07:07

搭配 GPU 速度扛扛得上去

mrorz 14:10:48

默默又有免費的 credit 了，蹭起來
不下載直接 mount GCS + faster-whisper
整個箭步如飛耶

mrorz 14:25:03

15min 70個影片 --> 1hr 估約 250 個影片
是之前的 4 倍快呢

mrorz 14:29:19

有了 VAD 之後
Hallucination 大概下降到 2 成左右
Whisper 的是 1/3

gary96302000.eecs96 14:46:38

對這類 inference 是真的會快很多

gary96302000.eecs96 14:47:47

不確定有沒有別的團隊做 whisper 像 LLM 最快的還不是 CT2 顆顆

mrorz 19:06:33

免費額度又用完了
我要來課金試試看 A100 XDD

gary96302000.eecs96 19:07:40

對要看時段很多人在用的時候就沒有辦法分配到可以等晚一點

gary96302000.eecs96 19:08:07

台灣時間晚上6-10點通常都要搶

mrorz 19:08:34

V100 每小時是 5.36 credit

mrorz 19:09:35

我把「大量 RAM」關掉了
我的 RAM 連免費版的都沒用完

gary96302000.eecs96 19:10:31

A100的話預設就是大量ram 沒得降低就是了

gary96302000.eecs96 19:10:49

V100不確定

gary96302000.eecs96 19:15:59

Whisper 這個模型我沒用過但如果他是 memory bound 的 task 的話可以用各張卡的 memory bandwidth 估算跑的速度

• T4: 320GB/s
• V100: 900GB/a
• A100 40GB VRAM: 1.55TB/s
• A100 80GB VRAM: 2 TB/a

mrorz 19:17:53

V100 的速度：
7min 23 個影片
這樣一小時應該可以有 200 個影片
這樣看起來好像跟 T4 差不多（上面是估 250 video / 1hr）

mrorz 19:19:01

Colab code: https://colab.research.google.com/drive/1bCntjgyv4uX5j92rWW600eYqN1khkeYp#scrollTo=bmJ6qVVegIbX
`transcribe_soundtrack` 沒在用，現在都是用 `transcribe_faster` (faster-whisper)

mrorz 19:19:43

不知道 beam_size 是不是有讓速度變慢

mrorz 19:42:22

把 beam_size 從 10 變成 5 (whisper default) 之後處理速度變成 300 item/hr

gary96302000.eecs96 19:45:30

科科

mrorz 20:23:23

約需要 20hr 轉完剩下的 6000 則歷史影片
應該會把 credit 用光光
剩下的用免費 quota 處理掉

cai 21:02:31

https://cofacts.tw/article/2sdpmvz6nahwq
為什麼亂碼還有12人問

mrorz 2023-10-25 00:08:21

這次的回報補充是正解
是這次 111 短碼簡訊前的亂碼無誤

cai 21:02:31

https://cofacts.tw/article/2sdpmvz6nahwq
為什麼亂碼還有12人問

mrorz 2023-10-25 00:08:21

這次的回報補充是正解
是這次 111 短碼簡訊前的亂碼無誤

yhsiang 21:53:55

亂碼12問，一問才人無行，二問紅顏薄命

😂 3

yhsiang 21:53:55

亂碼12問，一問才人無行，二問紅顏薄命

mrorz 00:08:21

這次的回報補充是正解
是這次 111 短碼簡訊前的亂碼無誤

mrorz 14:17:48

今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FZOZrbHxEQV25eP7a4dxzYw

T 2023-10-25 19:00:14

今天家裡有事需告假一次，謝謝~ 🙏

mrorz 14:17:48

今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FZOZrbHxEQV25eP7a4dxzYw

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2023 -

T 2023-10-25 19:00:14

今天家裡有事需告假一次，謝謝~ 🙏

T 19:00:14

今天家裡有事需告假一次，謝謝~ 🙏

mrorz 01:29:54

關於 staging 測試時發現有 article 的 createdAt 欄位不存在、導致有些 article 點不開的問題
我發現過去還真有一批手動送入資料庫的訊息是沒有 createdAt 的

image.png

mrorz 2023-10-26 01:31:33

有 26 article （其中 articleReply.createdAt 亦可能為空）有這樣的狀況

mrorz 2023-10-26 01:33:05

與其把 API 的 non-null 再次放寬
我想要幫它設一個日期了事

mrorz 2023-10-26 01:36:08

但看起來好像不止 createdAt，這類 appId 為 BOT_LEGACY 的 document 的 user id 也可能是空的⋯⋯

mrorz 2023-10-26 01:54:41

好吧我小孬孬
我選擇拿掉 non-null
https://github.com/cofacts/rumors-api/pull/324/files

mrorz 01:30:00

令人傷腦筋

mrorz 01:30:00

令人傷腦經

mrorz 01:31:33

有 26 article （其中 articleReply.createdAt 亦可能為空）有這樣的狀況

mrorz 01:33:05

與其把 API 的 non-null 再次放寬
我想要幫它設一個日期了事

mrorz 01:36:08

但看起來好像不止 createdAt，這類 appId 為 BOT_LEGACY 的 document 的 user id 也可能是空的⋯⋯

mrorz 01:54:41

好吧我小孬孬
我選擇拿掉 non-null
https://github.com/cofacts/rumors-api/pull/324/files

Teemo 09:58:09

隨著 AI 生成技術不斷進步，網路上也開始充斥著許多假的圖片。
Google 推出了 3 種新的方式來檢查圖片資訊和圖片來源。
https://blog.google/products/search/google-search-new-fact-checking-features/

生成式搜尋體驗（SGE）提供更多來源資訊
可以看到圖片歷史、其他網站如何使用這張圖片、 Metadata。

「事實查核搜尋器」新增圖片功能，幫助更快進行圖片事實查核。
https://toolbox.google.com/factcheck/explorer

Google

3 new ways to check images and sources online

Today, we’re announcing three new ways that you can get more context about the images and sources you’re finding online.

mrorz 2023-10-27 11:59:28

https://toolbox.google.com/factcheck/about#fce-image-search-icon
> The image search functionality is currently available only to beta testers
😢

mrorz 2023-10-27 12:03:22

總之先 apply beta tester 了
那個 An image’s history 感覺可以加進開場投影片，讚讚

cai 2023-10-27 19:16:04

事實查核搜尋器只有支援有照他們規範寫的網站而已，實際上要用這個查要先猜英文關鍵字

🙌 2

Teemo 09:58:09

隨著 AI 生成技術不斷進步，網路上也開始充斥著許多假的圖片。
Google 推出了 3 種新的方式來檢查圖片資訊和圖片來源。
https://blog.google/products/search/google-search-new-fact-checking-features/

生成式搜尋體驗（SGE）提供更多來源資訊
可以看到圖片歷史、其他網站如何使用這張圖片、 Metadata。

「事實查核搜尋器」新增圖片功能，幫助更快進行圖片事實查核。
https://toolbox.google.com/factcheck/explorer

mrorz 2023-10-27 11:59:28

https://toolbox.google.com/factcheck/about#fce-image-search-icon
> The image search functionality is currently available only to beta testers
😢

mrorz 2023-10-27 12:03:22

總之先 apply beta tester 了
那個 An image’s history 感覺可以加進開場投影片，讚讚

cai 2023-10-27 19:16:04

事實查核搜尋器只有支援有照他們規範寫的網站而已，實際上要用這個查要先猜英文關鍵字

mrorz 11:59:28

https://toolbox.google.com/factcheck/about#fce-image-search-icon
> The image search functionality is currently available only to beta testers
😢

mrorz 12:03:22

總之先 apply beta tester 了
那個 An image’s history 感覺可以加進開場投影片，讚讚

mrorz 12:11:16

NextJS 14 出了，server action 也 stable 了 https://nextjs.org/blog/next-14
全面改寫網站的技術條件已經齊備

nextjs.org

Next.js 14

Next.js 14 includes included performance, stability for Server Actions, a new course teaching the App Router, and more.

🚑 1

1

2

1

mrorz 12:11:16

NextJS 14 出了，server action 也 stable 了 https://nextjs.org/blog/next-14
全面改寫網站的技術條件已經齊備

yhsiang 14:20:08

好猛喔

yhsiang 14:20:08

好猛喔

yhsiang 14:20:28

話說萌典也應該next一下了

yhsiang 14:20:28

話說萌典也應該next一下了

cai 19:16:04

事實查核搜尋器只有支援有照他們規範寫的網站而已，實際上要用這個查要先猜英文關鍵字

tzu-sheng kuo 10:50:36

@tzushenk has joined the channel

cai 13:02:37

https://home.gamer.com.tw/artwork.php?sn=5818961
有人去挖原始碼XD

mrorz 17:31:11

google ocr 中文手寫字也沒問題
不得不說真的猛
https://cofacts.tw/article/afouiIQBC7Q3lHuUrzzb

mrorz 17:31:11

google ocr 中文手寫字也沒問題
不得不說真的猛
https://cofacts.tw/article/afouiIQBC7Q3lHuUrzzb

mrorz 17:37:54

7,300 多則歷史影片訊息的 Whisper 逐字稿也已經完成了～
雖然三天前就全部轉完，但手動清除明顯的幻聽花了一些時間 XD

💯 2

cai 18:49:31

https://cofacts.tw/article/26s3b8615p2b1 為什麼這篇可以這麼多人問XDD

mrorz 2023-10-30 11:01:10

原始的也不少
https://cofacts.tw/article/13zcfijsxopvo

大概有一定比例的人因為網址與 hyperlink 一樣所以點去 https://cofacts.tw/article/26s3b8615p2b1

mrorz 2023-10-30 11:02:54

但那個「一定比例」真的有點大囧

cai 18:49:31

https://cofacts.tw/article/26s3b8615p2b1 為什麼這篇可以這麼多人問XDD

mrorz 2023-10-30 11:01:10

原始的也不少
https://cofacts.tw/article/13zcfijsxopvo

大概有一定比例的人因為網址與 hyperlink 一樣所以點去 https://cofacts.tw/article/26s3b8615p2b1

mrorz 2023-10-30 11:02:54

但那個「一定比例」真的有點大囧

mrorz 11:01:10

原始的也不少
https://cofacts.tw/article/13zcfijsxopvo

大概有一定比例的人因為網址與 hyperlink 一樣所以點去 https://cofacts.tw/article/26s3b8615p2b1

mrorz 11:02:54

但那個「一定比例」真的有點大囧

維人 20:37:33

@anomalous has joined the channel

cofacts

Month: 2023-10

2023-10-01

2023-10-02

2023-10-04

2023-10-05

2023-10-06

2023-10-07

image.png

2023-10-10

paragraphs.mp4

2023-10-11

2023-10-12

image.png

2023-10-13

2023-10-14

2023-10-15

2023-10-17

2023-10-18

2023-10-19

image.png

2023-10-20

2023-10-21

image.png

2023-10-22

2023-10-23

2023-10-24

image.png

image.png

2023-10-25

2023-10-26

image.png

2023-10-27

2023-10-28

2023-10-30

2023-10-31