cofacts

Month: 2023-10

2023-10-01

mrorz 00:11:31
@gary96302000.eecs96 @darkbtf @teemocogs 好奇這樣的 dataset description 大家覺得如何。會太囉唆,還是資訊不足呢?

Hugging Face dataset page:
https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw

Example Colab (含有如何 join table 做一個 classifier 需要的 train data)
https://colab.research.google.com/drive/1qdE-OMJTi6ZO68J6KdzGdxNdheW4ct6T
cai 22:42:18
bug ?
網友補充出現不同事件的
https://cofacts.tw/article/334kb79jk4lrf
應該是以前提過的line補充會送到不同篇文章的bug
也有可能是因為 match 到斷行字元
就被當成是這個訊息
cai 22:42:18
bug ?
網友補充出現不同事件的
https://cofacts.tw/article/334kb79jk4lrf
應該是以前提過的line補充會送到不同篇文章的bug
也有可能是因為 match 到斷行字元
就被當成是這個訊息

2023-10-02

cai 01:08:19
https://news.ltn.com.tw/news/politics/paper/1606599 最後一段提到 cofacts

自由時報電子報

唐鳳:AI將對中國極權帶來挑戰 - 政治 - 自由時報電子報

數位部長唐鳳廿二日出席華盛頓「全球新興科技高峰會」(SCSP)並發表談話,稱台灣在對抗擁有數倍人力物力資源的中國資安、假訊息攻勢時,可藉由生成式人工智慧(AI)協助彌補人力上的差距。唐鳳接受「美國之音」專訪時分析,言論審查既會對中國的AI應用、發展形成障礙,AI也會對中國的極權政體帶來極大挑戰。唐鳳向美國之音表示,台灣在資安聯防方面持續與美國合作,此次訪美聚焦的新威脅之一為生成式AI。除了與美官員討論,更重要的是把台灣的顧慮和美方的關切、想法彙整後,提供給Meta、Google、Open AI、Anthropic等尖端AI研究公司。

我猜是看到了 Generative AI 小聚的筆記 XD
🙌 1
cai 01:08:19
https://news.ltn.com.tw/news/politics/paper/1606599 最後一段提到 cofacts
我猜是看到了 Generative AI 小聚的筆記 XD
mrorz 12:06:31
週三週會討論一下~

徵求「交大資工服務學習課程自由軟體組」的參與專案 大家好,我跟軟自協的 <@U1GJ4AK2T>、前教育部自由軟體中心的 Eric Sun 及維基社群的 <@U1D5ZHDCN> 每學期都會去交大資工協助服務學習自由軟體組。由於今年系上想要擴大舉辦,因此想要徵求一些有興趣帶領大一同學:beginner::beginner::beginner:的坑主來加入。 有興趣提供貢獻機會,請把專案資料填寫到此份投影片:<https://docs.google.com/presentation/d/1ZnbJy5_qpjOYPtkoH88v3X8IGVQ6yNVEloRipg_MVzc/edit?usp=sharing> (參與項目不限寫 code) 我們將會在 10/13 去學校舉辦說明會,到時會將投影片提供給同學參考,我也會快速介紹一輪。會後供他們自由選擇有興趣的項目,再直接按照投影片上的資訊聯絡各專案坑主。 (另外,系上也希望額外邀請參與者來系上演講,分享自己的開源及程式貢獻社會的經驗等(此項有演講費)。時間可安排在十一月或十二月下午或晚上,有興趣也請舉手一下。)

mrorz 12:06:31
週三週會討論一下~

徵求「交大資工服務學習課程自由軟體組」的參與專案 大家好,我跟軟自協的 <@U1GJ4AK2T>、前教育部自由軟體中心的 Eric Sun 及維基社群的 <@U1D5ZHDCN> 每學期都會去交大資工協助服務學習自由軟體組。由於今年系上想要擴大舉辦,因此想要徵求一些有興趣帶領大一同學:beginner::beginner::beginner:的坑主來加入。 有興趣提供貢獻機會,請把專案資料填寫到此份投影片:<https://docs.google.com/presentation/d/1ZnbJy5_qpjOYPtkoH88v3X8IGVQ6yNVEloRipg_MVzc/edit?usp=sharing> (參與項目不限寫 code) 我們將會在 10/13 去學校舉辦說明會,到時會將投影片提供給同學參考,我也會快速介紹一輪。會後供他們自由選擇有興趣的項目,再直接按照投影片上的資訊聯絡各專案坑主。 (另外,系上也希望額外邀請參與者來系上演講,分享自己的開源及程式貢獻社會的經驗等(此項有演講費)。時間可安排在十一月或十二月下午或晚上,有興趣也請舉手一下。)

mrorz 13:57:17
我在思考 article group 處理多則訊息 時,跟現有 chatbot context 裡面的某些欄位(尤其是 `selectedArticleId` )會有衝突的問題

正在思考「先整理 chatbot context 把東西移到 postback action」的方向時,發現現在把 `selectedArticleId` 記在 context 會有這個 bug:
https://github.com/cofacts/rumors-line-bot/issues/327

我想要先把 `selectedArticleId` 移動到 postback action 來修好這個 bug
再來逐步移除不需要的 context
最後再回頭思考 article group 與 chatbot context 的問題,說不定清完之後發現就沒有那些不 compatible 的 context field 了

想先諮詢 @acerxp511@yhsiang 看看有沒有什麼想法

HackMD

Cofacts reasearch &amp; design docs - HackMD

# Cofacts reasearch &amp; design docs :::info - Design docs: Implementation documents with requiremen

#327 Cannot record feedback in certain state

From <https://g0v.hackmd.io/IqCOZMZLRe-JPMSJIV3yRQ#Feedback-%E7%84%A1%E6%B3%95%E7%B4%80%E9%8C%84|20220921 meeting> *Steps to reproduce* 1. 給一圖,觸發兩則圖 A, B 2. 先選一個有多個回應的圖 A,但不選回應 3. 捲回去選單一回應的圖 B,觸發回應 4. 捲回去挑一個 A 的回應顯示 5. 對該回應按「有用」或「沒用」 6. 按關閉,會出現「無法紀錄您的評價」 <https://user-images.githubusercontent.com/108608/191897488-87dae2c5-2531-4c8a-a8b0-d01a5aba7b71.png|image> <https://user-images.githubusercontent.com/108608/191897504-9496c8a1-bc17-4e64-b861-61e4c2098d89.png|image> <https://user-images.githubusercontent.com/108608/191897512-7783dac7-cf69-4b17-bcd1-5005984e5c40.png|image>

mrorz 13:57:17
我在思考 article group 處理多則訊息 時,跟現有 chatbot context 裡面的某些欄位(尤其是 `selectedArticleId` )會有衝突的問題

正在思考「先整理 chatbot context 把東西移到 postback action」的方向時,發現現在把 `selectedArticleId` 記在 context 會有這個 bug:
https://github.com/cofacts/rumors-line-bot/issues/327

我想要先把 `selectedArticleId` 移動到 postback action 來修好這個 bug
再來逐步移除不需要的 context
最後再回頭思考 article group 與 chatbot context 的問題,說不定清完之後發現就沒有那些不 compatible 的 context field 了

這裡看看 @acerxp511@yhsiang 有沒有什麼想法

2023-10-04

mrorz 13:46:27
今日遠端開會唷
議程 https://g0v.hackmd.io/XRzWTxjVTFWI8JNzLVh9lQ

2023-10-05

Crystal 宛真 10:14:38
@apokoios has joined the channel
Zoey Tseng 15:11:30
@mrorz 可以確認一下 cofacts 的源碼跟資料都是用什麼 license 開源嗎?CC0 或是其他的
Source code MIT
資料方面我們有個自己的資料授權條款,以 CC BY-SA 作為基底,加註希望的 attribution
Zoey Tseng 2023-10-05 18:13:37
收到!感謝詳細說明!
Zoey Tseng 15:11:30
@mrorz 可以確認一下 cofacts 的源碼跟資料都是用什麼 license 開源嗎?CC0 或是其他的
Source code MIT
資料方面我們有個自己的資料授權條款,以 CC BY-SA 作為基底,加註希望的 attribution
Zoey Tseng 2023-10-05 18:13:37
收到!感謝詳細說明!

2023-10-06

mrorz 09:58:51
Whisper 的 hallucination 集中串
https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀
我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y
前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a
無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ
https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)
@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper
我有發現另一個whisper的fork,他也有做VAD,可能也能幫上忙
但他只支援nvidia的顯卡,我手邊只有amd不能測 https://github.com/m-bain/whisperX
這種的再重跑一次就正常了
mrorz 09:58:51
Whisper 的 hallucination 集中串
https://cofacts.tw/article/TvR6AosBAjOeMOklfe-g

原來 train data 是來自群眾協作字幕的社群呀
我會希望他不要翻譯耶其實
雖然他翻得還 OK
https://cofacts.tw/article/FPRXAosBAjOeMOklXO9y
前面好好的
後面沒聲音開始起肖
https://cofacts.tw/article/m_S3AosBAjOeMOkls-_a
無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ
https://dev.cofacts.tw/article/T5SIH4sBXtQmmeroMXng
這種純音樂的用 whisper desktop 會出現 (音樂)
@iacmai 我確認一下
這裡的 Whisper desktop 是指這個嗎 https://github.com/Const-me/Whisper
我有發現另一個whisper的fork,他也有做VAD,可能也能幫上忙
但他只支援nvidia的顯卡,我手邊只有amd不能測 https://github.com/m-bain/whisperX
這種的再重跑一次就正常了

2023-10-07

cai 00:25:53
AI 逐字稿影片類的似乎比較適合在保健秘訣那種旁白等於謠言內容的影片。
碰到配樂跟影片內容無關的反而增加麻煩。
確實如此,要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9
Whisper 在無聲區域也常常跳出廣告文字,因為來源訓練資料的問題
關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper
嗯?google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events
cai 00:25:53
AI 逐字稿影片類的似乎比較適合在保健秘訣那種旁白等於謠言內容的影片。
碰到配樂跟影片內容無關的反而增加麻煩。
確實如此,要解決 hallucination 的其中一個方向就是處理沒聲音的影片

不過逐字稿其實當時做出來是為了這種謠言念稿蹭流量影片這樣
https://cofacts.tw/article/sPSxBYsBAjOeMOklHfP9
Whisper 在無聲區域也常常跳出廣告文字,因為來源訓練資料的問題
關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper
嗯?google cloud speech to text 有出 v2 而且有做 VAD?
https://cloud.google.com/speech-to-text/v2/docs/voice-activity-events
mrorz 01:33:51
Cofacts open data 這裡希望增加 status 欄位與 anonymized-user 表,這樣就能用 open data 來 train 偵測垃圾訊息的分類器
https://github.com/cofacts/opendata/pull/27

其中 user 表會長得像圖裡這樣,有一個 hash 過的 user id,帳號建立時間與最後上線時間,以及若為被封鎖的使用者就會有填寫的 `blockedReason`
image.png

#27 feat(dumpOpenData): add fields for CIB prediction

• Add block/normal status for entities with status • Add article type • Add anonymized user

要請大家確認的是,揭露這個 anoymized-user 不會違反我們自己的使用者條款
> Cofacts WG 會嚴格保護使用者資訊,確保使用者隱私及個人資料,除充分量化或去識別化後得不再視為個人資料者外,將不基於任何目的使其外流至與本服務無關之第三方。
> — https://github.com/cofacts/rumors-line-bot/blob/master/LEGAL.md
> 網站協作者登入後的補充訊息、回應內容、使用本平台之頻率等之公開訊息,將可能為 Cofacts WG 用於數據分析,當進行量化或去識別化等過程與原身分識別勾脫後,會留存於開放資料隱去名稱之研究或統計。
> https://github.com/cofacts/rumors-site/blob/master/LEGAL.md
Peter 05:31:17
還是很好奇,為何台灣的 cofacts 有 s,但是泰國的 cofact 沒有…
他們自己取的,我也沒有問 XD
因為我們的假訊息比較多(逃走
Peter 05:31:17
還是很好奇,為何台灣的 cofacts 有 s,但是泰國的 cofact 沒有…
他們自己取的,我也沒有問 XD
因為我們的假訊息比較多(逃走
mrorz 23:08:02
關於 Whisper 無聲區的 hallucination
之前查到的是用另一個模型去做 voice activity detection (VAD)
然後只取有 voice activity 的 transcript
https://g0v.hackmd.io/wkx286lmTDaFUpgRhnUawQ#Whisper

g0v.hackmd.io

OCR and AI transcripts - HackMD

2023-10-10

mrorz 07:06:22
我注意到 AI transcript 出來的文字
會有刪除一字之後 paragraph 就會爛掉的現象
paragraphs.mp4
我的直覺是
原本 AI 出來的文字單純以 \n 斷行
但 ProseMirror 要求以 <p> <br> 斷行
所以就會直接爛掉

老實講,我會希望 ProseMirror 可以是一個單純的文字編輯器更好

之後我頂多只會加上特殊符號的 syntax highlight 而已(例如約定 `#` 開頭的行爲註解,方便標記分區或 timestamp)之類
mrorz 07:08:19
我的直覺是
原本 AI 出來的文字單純以 \n 斷行
但 ProseMirror 要求以 <p> <br> 斷行
所以就會直接爛掉

老實講,我會希望 ProseMirror 可以是一個單純的文字編輯器更好

之後我頂多只會加上特殊符號的 syntax highlight 而已(例如約定 `#` 開頭的行爲註解,方便標記分區或 timestamp)之類
cai 13:25:09
為什麼chatgpt 分析不見了
奇怪,我中午看的時候沒有,現在看又有 🤔
cai 13:25:09
為什麼chatgpt 分析不見了
奇怪,我中午看的時候沒有,現在看又有 🤔
mrorz 23:20:49
無法解釋
明明有這麼明顯的口白
https://cofacts.tw/article/MvTSCosBAjOeMOklBvlJ

2023-10-11

婉琪 12:05:03
@wanchi has joined the channel
mrorz 18:04:55
發現忘記發今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Ft9ypB87SQBuMjjW_PheZVg

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2023 -

對 Cofacts 專案功能感興趣,請問可以旁聽嗎? 😀
可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts
實體的話是在 Workis
瞭解~今晚 7 點 vtaiwn 也有線上會議,我視情況盡量參與,謝謝 🙏
mrorz 18:04:55
發現忘記發今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2Ft9ypB87SQBuMjjW_PheZVg
對 Cofacts 專案功能感興趣,請問可以旁聽嗎? 😀
可以唷今晚 8pm
會使用 Gather town https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts
實體的話是在 Workis
瞭解~今晚 7 點 vtaiwn 也有線上會議,我視情況盡量參與,謝謝 🙏
mrorz 18:18:45
靈敏度這點我有修正了,今天開會會測測看

2023-10-12

mrorz 13:51:22
關於昨天測試時遇的 XD 問題 https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#%E6%9C%AA%E7%AB%9F%E9%A0%85%E7%9B%AE
主因是我們的 code 寫說
如果輸入的字 < 10 個、或者是 intent confidence = 1,那就判定為在聊天 當時判斷 10 個字的討論在
我認為昨晚用部分訊息做測試,本來就不是「網傳訊息」而是更類似用關鍵字在測試 bot,屬於設計外的使用方式,這種自己輸入的短訊息讓 DialogFlow 來打哈哈我覺得還算符合預期,覺得可以不開票。
看大家的想法。
image.png
gary96302000.eecs96 2023-10-12 17:44:40
雖然對這塊不是很熟,不過短訊息能簡單處理確實合理

如果是為了要測試輸入短訊息,約定一個測試的 starting 暗號(i.e. <test>XXX ),看到前面是什麼開頭就一律當作網傳訊息這樣勒?
喔喔昨天是上線前的 ad hoc 測試,不是用在 CI 等開發內的~
👀 1
Zoey Tseng 17:38:36
Hi 想跟大家 check-in 一下專案(發證)進度,請問下次線上會議是什麼時候呢?
我們目前是每週三晚上開會,但這似乎與 da0 撞,所以應該也可考慮另外約時間唷
cc/ @bil
Zoey Tseng 2023-10-13 10:19:23
我可以先加入你們的沒問題~ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔!謝謝
感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts
Zoey Tseng 17:38:36
Hi 想跟大家 check-in 一下專案(發證)進度,請問下次線上會議是什麼時候呢?
我們目前是每週三晚上開會,但這似乎與 da0 撞,所以應該也可考慮另外約時間唷
cc/ @bil
Zoey Tseng 2023-10-13 10:19:23
我可以先加入你們的沒問題~ zoeytseng0904@gmail.com 再請把我直接嫁入會議或時提供連結喔!謝謝
感謝感謝
我們會使用 gather town 這樣
https://gather.town/app/z3x18KQFgZCX8MeZ/cofacts

2023-10-13

mrorz 10:00:08
現在 LINE API 可以 quote 過去的訊息了!
https://developers.line.biz/en/docs/messaging-api/get-quote-tokens/

developers.line.biz

Get quote tokens

The LINE Developers site is a portal site for developers. It contains documents and tools that will help you use our various developer products. Creating LINE Login and Messaging API applications and services has never been easier!

mrorz 15:02:30
週三遭遇的 release blocker 已經修復
可以再試試看囉
尤其是傳圖片來測測看
https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#Testing-checklist
mrorz 15:02:30
週三遭遇的 release blocker 已經修復
可以再到 staging LINE bot 試試看囉
尤其是傳圖片來測測看 transcript 是否還有亂碼
https://g0v.hackmd.io/t9ypB87SQBuMjjW_PheZVg#Testing-checklist

line.me

LINE Add Friend

g0v.hackmd.io

20231011 會議記錄 - HackMD

👌 1
cai 22:08:52
利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類
論文+1

ndltd.ncl.edu.tw

利用深度學習方法和「Cofacts真的假的」資料進行Covid-19真假訊息的分類__臺灣博碩士論文知識加值系統

身處在網路、電腦硬體設備發達之資訊社會,新聞的生產與需求都快速擴張之際,假新聞憑藉著傳播載具之進化,築基在新聞自由上之故意散佈虛假資訊行為,引發本研究之動機。  而Covid-19假訊息之影響範圍遍及全臺灣及全世界,對閱聽眾帶來來之不良影響深遠無邊,故本研究目的為:「利用深度學習方法結合〈Cofacts真的假的〉資料進行真假訊息的分類。」  本研究以〈Cofacts 真的假的〉作為資料搜集平台,僅搜集「含有正確訊息」與「含有錯誤訊息」之文字格式,並聚焦在以Covid-19為主題之繁體中文做為本研究資料集。實驗一以BERT模型進行分類,為降低模型輸出之隨機性,故執行五次訓練並取平均值, Accuracy平均為0.9043;實驗二以大型語言模型LLM架構下之生成式語言模型ChatGLM-6B進行分類任務,Accuracy達0.8996;在字數超過512字以上之長文本分類表現 Accuracy達0.9230。  藉由實驗證明,在深度學習模型中,無論其初始設計目標是針對分類任務或生成任務,皆不會使模型在分類任務上有明顯鑑別,面對假訊息之有關機關應可彈性應用BERT、ChatGLM-6B兩者工具,避免Covid-19假訊息侵擾社會造成公眾危害。  在硬體設備允許之情況下,若有假新聞以外之長文本分類需求時,亦可選用參數量龐大之LLM大型語言模型來進行分類任務。

1 👍 1

2023-10-14

mrorz 20:57:25
下周三的會議(10/18)是線上舉行唷
mrorz 20:57:25
下周三的會議(10/18)是線上舉行唷
👍 1

2023-10-15

cai 11:14:32
https://cofacts.tw/article/2dtq8ofv9zbi3 假貼圖的流程改了,中間先出現貼圖 10/31 才能用,後面才出現要分享給幾位
增加可信度呀
真陰險 XDDD
@andyy0216 這從以前就有了,可以用這個當判斷依據XD
cai 11:14:32
https://cofacts.tw/article/2dtq8ofv9zbi3 假貼圖的流程改了,中間先出現貼圖 10/31 才能用,後面才出現要分享給幾位
增加可信度呀
真陰險 XDDD
@andyy0216 這從以前就有了,可以用這個當判斷依據XD
page.acforshop 13:17:16
@page.acforshop has joined the channel
mrorz 15:41:53
@a15923647 https://www.mygopen.com/2022/05/syria-video.html

MyGoPen

【錯誤】烏軍亞速營殺害平民嫁禍俄羅斯影片?實為2013年敘利亞屠殺事件

網傳「烏軍“亞速營“殺害平民嫁禍 俄羅斯」的影片與訊息。經查證,影片實為 2013 年敘利亞 Tadamon 大屠殺事件的畫面,近期才被揭露,由《衛報》(The Guardian)中東記者 Martin Chulov 報導,和烏克蘭及亞速營均無關。「烏軍亞速營殺害平民築萬人坑。嫁禍是俄軍做的」、「人

a15923647 15:41:59
@a15923647 has joined the channel
Annie Huang 16:31:08
@annie.huang921002 has joined the channel
Othsueh 16:33:19
@ych930719 has joined the channel

2023-10-17

Eli 12:36:39
@tomy7912348 has joined the channel

2023-10-18

mrorz 16:22:16
今日議程 https://g0v.hackmd.io/v4taAFAtRt6EOMGGMa7Btw
8pm 會先跑 release check,以及跟 @zoeytseng0904 過這份回溯性投資的文件唷:https://docs.google.com/document/d/1SohXAnJh68R7YgLBc6g0KEEIrb06IbIypytW6Xso53w/edit

g0v.hackmd.io

20231018 會議記錄 - HackMD


> 回溯性公共投資實驗會在 2023 年底,使用(等值為) 40 萬新台幣(的 USDC)的資金池,*買回各專案所發出的 Hypercerts。*Cofacts 真的假的發出的 Hypercert 單價,與其他專案所發出的 Hypercert 單價不會相同,每個專案可以取得資金池中多少資金,會在 2023 年底,由回溯性公共投資實驗請 g0v 參與者進行平方投票來決定。
@zoeytseng0904 想確認平方投票所獲資金,是會直接分配給各專案,或是會執行「回購」?意即,這段期間發出的 Hypercerts,最終是需要轉移出來的嗎?
Zoey Tseng 2023-10-18 18:26:30
這邊會是看每個坑最後決定是不是要買回個人貢獻者的 hypercerts,
是的話,最後坑會買回持有者手上的 hypercerts ,而單價就會從 QV 後分配的資金下去決定
Zoey Tseng 2023-10-18 18:27:11
有的坑的共識是把QV分配到的資金作為坑的營運資金,就不會買回到個人的 hypercerts
那個段落是我依照我的理解寫的,應該不太精準
這也是為什麼在把這份文件給別人看之前會需要過一下 🙏
mrorz 16:22:16
今日議程 https://g0v.hackmd.io/v4taAFAtRt6EOMGGMa7Btw
8pm 會先跟 @zoeytseng0904 過這份回溯性投資的文件唷:https://docs.google.com/document/d/1SohXAnJh68R7YgLBc6g0KEEIrb06IbIypytW6Xso53w/edit

> 回溯性公共投資實驗會在 2023 年底,使用(等值為) 40 萬新台幣(的 USDC)的資金池,*買回各專案所發出的 Hypercerts。*Cofacts 真的假的發出的 Hypercert 單價,與其他專案所發出的 Hypercert 單價不會相同,每個專案可以取得資金池中多少資金,會在 2023 年底,由回溯性公共投資實驗請 g0v 參與者進行平方投票來決定。
@zoeytseng0904 想確認平方投票所獲資金,是會直接分配給各專案,或是會執行「回購」?意即,這段期間發出的 Hypercerts,最終是需要轉移出來的嗎?
Zoey Tseng 2023-10-18 18:26:30
這邊會是看每個坑最後決定是不是要買回個人貢獻者的 hypercerts,
是的話,最後坑會買回持有者手上的 hypercerts ,而單價就會從 QV 後分配的資金下去決定
Zoey Tseng 2023-10-18 18:27:11
有的坑的共識是把QV分配到的資金作為坑的營運資金,就不會買回到個人的 hypercerts
那個段落是我依照我的理解寫的,應該不太精準
這也是為什麼在把這份文件給別人看之前會需要過一下 🙏

2023-10-19

Upter 11:05:15
@urbaner3 has joined the channel
mrorz 12:24:28
今天 2:00 ~ 12:09 API server 有 downtime,症狀是 api.cofacts.twcofacts-api.g0v.tw 均無法存取。
主因是
1. 凌晨時我更新 API 版本 https://github.com/cofacts/rumors-api/releases/tag/release%2F20231019
2. 更新時 docker 可能更新了 api container 的 IP
3. 即使 docker-compose 有使用 hostname 沒有寫死 IP,但 nginx 會 cache 住 IP 直到 configuration reload
可能之後更新任何 container 都要記得 reload nginx config orz
其實我們 Cloudflare 是有啟動 Passive origin monitoring 的,但不知為啥沒有寄信來通知說 Server Unreachable。今年 9/10 有寄一次。

總之我現在設了主動的 health check,會寄信到 hi 小老鼠 cofacts.tw,也會去 discord #general 發訊息(但不會 sync 來到 slack )
Cloudflare 其實有連接 pager duty 的功能耶
我在想是不是應該用 pager duty⋯⋯
mrorz 12:24:28
今天 2:00 ~ 12:09 API server 有 downtime,症狀是 api.cofacts.twcofacts-api.g0v.tw 均無法存取。
主因是
1. 凌晨時我更新 API 版本 https://github.com/cofacts/rumors-api/releases/tag/release%2F20231019
2. 更新時 docker 可能更新了 api container 的 IP
3. 即使 docker-compose 有使用 hostname 沒有寫死 IP,但 nginx 會 cache 住 IP 直到 configuration reload
可能之後更新任何 container 都要記得 reload nginx config orz

Comment on #2003 Nginx "No route to host" error

其實我們 Cloudflare 是有啟動 Passive origin monitoring 的,但不知為啥沒有寄信來通知說 Server Unreachable。今年 9/10 有寄一次。

總之我現在設了主動的 health check,會寄信到 hi 小老鼠 cofacts.tw,也會去 discord #general 發訊息(但不會 sync 來到 slack )
Cloudflare 其實有連接 pager duty 的功能耶
我在想是不是應該用 pager duty⋯⋯
mrorz 13:30:37
關於 Redis connection issue,現在確定是 LINE bot 開起來
就算只有一台,也會開到一大堆連線這件事
截圖是 linode 裡的 redis 的狀況,`172.18.0.2` 就是 production line bot (zh),整台機器也只有 line bot 會連 redis
image.png
@null 14:24:19
以上為測試
這個訊息是 discord sync 過來的嗎
如果有想透過程式丟訊息到頻道的話,可以用 https://meet.jothon.online/bot/ 喔 XD
對耶聽起來不錯
但我現在是是丟到 discord 另一個 channel 了
我來試試看揪松 bot
我看看喔
嗯嗯,我本來是比照 slack api ,只吃 text=ooxx 格式, cloudflare 是給 {“text”:“ooxx”} JSON ,我應該可以加上支援判斷
應該 ok 了,我加上判斷如果是
```curl -H "Content-Type: application/json" -XPOST -d '{"text":"Hello World"}' 'https://meet.jothon.online/api/postMessage?token=xxx&channel=xxx```
也可以過了
mrorz 14:42:02
其實我們 Cloudflare 是有啟動 Passive origin monitoring 的,但不知為啥沒有寄信來通知說 Server Unreachable。今年 9/10 有寄一次。

總之我現在設了主動的 health check,會寄信到 hi 小老鼠 cofacts.tw,也會去 discord #general 發訊息(但不會 sync 來到 slack )
ronnywang 14:42:49
這個訊息是 discord sync 過來的嗎
ronnywang 14:46:13
如果有想透過程式丟訊息到頻道的話,可以用 https://meet.jothon.online/bot/ 喔 XD
mrorz 14:46:25
對耶聽起來不錯
mrorz 14:46:50
但我現在是是丟到 discord 另一個 channel 了
mrorz 14:47:47
我來試試看揪松 bot
mrorz 14:54:03
Cloudflare 其實有連接 pager duty 的功能耶
我在想是不是應該用 pager duty⋯⋯
ronnywang 15:01:12
我看看喔
ronnywang 15:03:39
嗯嗯,我本來是比照 slack api ,只吃 text=ooxx 格式, cloudflare 是給 {“text”:“ooxx”} JSON ,我應該可以加上支援判斷
ronnywang 15:14:13
應該 ok 了,我加上判斷如果是
```curl -H "Content-Type: application/json" -XPOST -d '{"text":"Hello World"}' 'https://meet.jothon.online/api/postMessage?token=xxx&channel=xxx```
也可以過了
@null 15:46:21
[Preview]
Health Check Name: origin-abcd
Health Check ID: 11111111111
Time : 1970-01-01 00:00:00 +0000 UTC
Status: Healthy

Expected codes: [2xx 302]
Received code: 404
這是 cloudflare 的測試嗎?
有了!謝謝 @ronnywang 🙏
有趣的是 slack app 可以過 bridge 通到 discord XDDD
喔耶 XD
DDoS alert 也接上了
之後如果又被 DDoS 的話 slack 的大家都會知道
ronnywang 15:47:07
這是 cloudflare 的測試嗎?
mrorz 15:47:13
有了!謝謝 @ronnywang 🙏
有趣的是 slack app 可以過 bridge 通到 discord XDDD
1
ronnywang 15:47:28
喔耶 XD
mrorz 15:53:45
DDoS alert 也接上了
之後如果又被 DDoS 的話 slack 的大家都會知道

2023-10-20

mrorz 00:20:25
我知道為啥週三測試的時候
發現測試站有些逐字稿不見了

我在網站上想改 prosemirror schema Collaborate/Schema.js
把它弄得很簡單像 https://prosemirror.net/examples/schema/ 第一個例子只有 text node 與 doc node
結果整個逐字稿就會消失,歷史紀錄也會消失 ._.
👍 1
mrorz 00:20:25
我知道為啥週三測試的時候
發現測試站有些逐字稿不見了

我在網站上想改 prosemirror schema Collaborate/Schema.js
把它弄得很簡單像 https://prosemirror.net/examples/schema/ 第一個例子只有 text
結果整個逐字稿就會消失,歷史紀錄也會消失 ._.
chewei 07:00:22
未看先轉 .. Cofacts 相關研究 ?
#engaged-research

tsjournal.org

Insights from a Comparative Study on the Variety, Velocity, Veracity, and Viability of Crowdsourced and Professional Fact-Checking Services | Journal of Online Trust and Safety

Journal of Online Trust and Safety

有耶,他確實是以台灣作為 context
data cut off 是 2021 July (跟 chatgpt 差不多?XD)
記錄在 cofacts.tw/hack 裡了
覺得很有趣,感謝分享~
👀 1
chewei 07:00:22

tsjournal.org

Insights from a Comparative Study on the Variety, Velocity, Veracity, and Viability of Crowdsourced and Professional Fact-Checking Services | Journal of Online Trust and Safety

Journal of Online Trust and Safety

有耶,他確實是以台灣作為 context
data cut off 是 2021 July (跟 chatgpt 差不多?XD)
記錄在 cofacts.tw/hack 裡了
覺得很有趣,感謝分享~

2023-10-21

Fung Lee 05:06:24
@imleeszefung has joined the channel
canadian_aaron 05:12:16
Hi everyone! My colleague from Canada @imleeszefung is visiting Taiwan in December. They are eager to take part in a CoFacts松. Is there an event planned during that time?
canadian_aaron 05:12:16
Hi everyone! My colleague from Canada @imleeszefung is visiting Taiwan in December. They are eager to take part in a CoFacts松. Is there an event planned during that time?
Fung Lee 05:18:10
Hello guys! Nice e-meet you all! I’ll be in Taipei in early December, would be great to meet you guys in person sometime:)
Fung Lee 05:18:10
Hello guys! Nice e-meet you all! And thanks Aaron for the intro 🙌🏼 I’ll be in Taipei in early December, would be great to meet you guys in person sometime:)
mrorz 23:40:56
10,000 多張的歷史圖片 OCR 已經完成囉,可以看到各種截圖裁切,都透過 OCR,在右邊的相似可疑訊息被串在一起了~
image.png
7,300 多則歷史影片訊息的 Whisper 逐字稿也已經完成了~
雖然三天前就全部轉完,但手動清除明顯的幻聽花了一些時間 XD
😮 1 💯 3 1
mrorz 23:45:27
Hi @canadian_aaron and @imleeszefung!
We have weekly meetings in Wednesday night (8pm) in Workis coworking space, feel free to join these meetings :slightly_smiling_face:
Unfortunately we cannot participate in g0v hackathon in December due to activity conflicts.
mrorz 23:45:27
Hi @canadian_aaron and @imleeszefung!
We have weekly meetings in Wednesday night (8pm) in Workis coworking space, feel free to join these meetings :slightly_smiling_face:
Unfortunately we cannot participate in g0v hackathon in December due to activity conflicts.

google.com

Workis Studio · No. 7號, Lane 184, Section 2, Jilong Rd, Da’an District, Taipei City, Taiwan 106

★★★★★ · Coworking space

1 💯 1 🇨🇦 1

2023-10-22

Fung Lee 06:27:05
Thanks! I’ll try my best to join when I’m in Taipei!
Fung Lee 06:27:05
Thanks! I’ll try my best to join when I’m in Taipei!

2023-10-23

ael 02:12:04
@ktu 想要做社群小遊戲訓練大家對不實資訊的敏感度,昨天我建議可以直接用 #cofacts 的 database 作為題庫來源

幫 <@U2X3JLRT9> 來推廣一下他們在美國國會台灣觀測站黑克松和昨天 <#C05FZAX1Z9U|g0v-siliconvalley> 的提案,看看這邊有沒有人有興趣一起合作 2023 US Taiwan Watch Hackathon - 認知症疫苗 <https://docs.google.com/presentation/d/1rd0LCe3bn24OqS_5pmKF5p2BWpM8d1i2LpesNBFFRiI/edit#slide=id.p> 大眾對假消息敏感度/辨識度不高 =&gt; 社群小遊戲:這是假消息嗎? <https://is-this-fake-news.vercel.app/|試玩連結>

感謝推薦
只要符合資料使用者條款裡指定的 CC BY-SA 顯名規範
都可以使用唷

如果想要結構化資料,可以直接從 https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw 下載 csvb
ael 02:12:04
@ktu 想要做社群小遊戲訓練大家對不實資訊的敏感度,昨天我建議可以直接用 #cofacts 的 database 作為題庫來源

幫 <@U2X3JLRT9> 來推廣一下他們在美國國會台灣觀測站黑克松和昨天 <#C05FZAX1Z9U|g0v-siliconvalley> 的提案,看看這邊有沒有人有興趣一起合作 2023 US Taiwan Watch Hackathon - 認知症疫苗 <https://docs.google.com/presentation/d/1rd0LCe3bn24OqS_5pmKF5p2BWpM8d1i2LpesNBFFRiI/edit#slide=id.p> 大眾對假消息敏感度/辨識度不高 =&gt; 社群小遊戲:這是假消息嗎? <https://is-this-fake-news.vercel.app/|試玩連結>

感謝推薦
只要符合資料使用者條款裡指定的 CC BY-SA 顯名規範
都可以使用唷

如果想要結構化資料,可以直接從 https://huggingface.co/datasets/Cofacts/line-msg-fact-check-tw 下載 csvb
ktu 02:12:07
@ktu has joined the channel
mrorz 15:43:50
目前在 google colab 上用 whisper + 實作降低 hallucination 的簡單邏輯(去掉重複的 segment)來處理站上的舊影片,進度如下:
https://docs.google.com/spreadsheets/d/1G5NYStN6OXaokSC7WsxlhVyxy5YLWDN25bUtzzTj_Pw/edit#gid=0
Colab 每跑完一筆會自動寫入,然後我會手動看一下有沒有 hallucination,有的話就會把原本的幻覺貼到 “hallucination” 這一欄,左邊填稍微清過的。

現在發現大概 1/3 會是 hallucination ._.
處理的速度大概是 60 分鐘處理 50 則影片這樣
#vtaiwan 那邊好像有用 whisperX ,要不要問看看?
https://g0v-tw.slack.com/archives/C2Q1M4N1J/p1697632859367689
應該是跑在自己電腦上而不是 deploy 成上線的服務吧
但好像可以 host 在 replicate
值得一試耶
https://replicate.com/daanelson/whisperx/api#run
遇到 cold boot 等他起來要好幾分鐘
我以為這 model 在 replicate 上很熱門 QQ
whisperx 給中文影片會回英文 囧
這樣用不了(攤手
Colab free quota 用完了 😢
如果要付錢給 colab 不如直接打 Whisper API
gary96302000.eecs96 2023-10-24 12:48:47
會員一個月10美金 顆顆
gary96302000.eecs96 2023-10-24 12:49:12
你是用 T4 嗎
gary96302000.eecs96 2023-10-24 12:49:57
一個月會員會給 100 credit 開 T4 一小時大概耗 2 個運算 credit 所以大概用不到 50 小時 給你參考一下顆顆
50hr 大概只能處理 3000 則影片
gary96302000.eecs96 2023-10-24 12:51:40
免費仔 quota renew 好像是一天 但不會補滿 不太確定他怎麼算的
gary96302000.eecs96 2023-10-24 12:54:06
不然就是 開一堆google 帳號 反正 colab code share 很方便 存在一個 shared drive
gary96302000.eecs96 2023-10-24 12:54:23
🚑
現在剩下 7000 則歷史影片
每則 2min 那是 14000 min
Whisper 是 $0.006 / minute
這樣大概 84USD
突然覺得好像花 30USD 買 300 colab credit 比較划算?
gary96302000.eecs96 2023-10-24 12:57:43
如果要背景跑的話 colab pro+確實比較好
gary96302000.eecs96 2023-10-24 12:58:21
如果可以接受開著放在那 colab pro 先用 不夠可以加價買credit
gary96302000.eecs96 2023-10-24 12:58:42
而且還可以測試看看 V100/A100
也是有道理
gary96302000.eecs96 2023-10-24 12:59:11
理論上 A100 雖然貴 但是你的 job 已經準備好 他跑起來反而更省
gary96302000.eecs96 2023-10-24 12:59:28
A100 一小時會耗 13 credit
gary96302000.eecs96 2023-10-24 12:59:41
所以跑的速度有 7 倍以上的話
gary96302000.eecs96 2023-10-24 12:59:48
就反而更划算
但我的 job 好像會有一些下載的時間
gary96302000.eecs96 2023-10-24 13:00:01
歐歐
沒有寫成先下載到機器
gary96302000.eecs96 2023-10-24 13:00:37
可以考慮只用 CPU 先下載下來到 gdrive
喔他們都在 gcs 上
gary96302000.eecs96 2023-10-24 13:00:53
然後 mount 那個 gdrive 直接讀 就很快
是沒在機器
喔喔喔也可以
對齁可以 mount
gary96302000.eecs96 2023-10-24 13:01:07
歐歐 gcs 應該也行
好耶
gary96302000.eecs96 2023-10-24 13:01:18
顆顆
gary96302000.eecs96 2023-10-24 13:01:53
<<-- colab 省錢CP值高手
gary96302000.eecs96 2023-10-24 13:03:06
colab pro 那個收錢頁面很爛的就是不明寫每個 GPU 每小時花多少
gary96302000.eecs96 2023-10-24 13:04:00
感覺跟 S3 流程蠻像的
gary96302000.eecs96 2023-10-24 13:04:14
就是要裝一下他的 package 然後驗證
好像也可以測一下 faster-whisper
內建 vad
gary96302000.eecs96 2023-10-24 13:05:51
歐歐 CT2 蠻有名的 原來也有做 Whisper
gary96302000.eecs96 2023-10-24 13:06:46
這類就是針對 inference 加速的 framework LLM 那邊很多
gary96302000.eecs96 2023-10-24 13:07:07
搭配 GPU 速度扛扛得上去
默默又有免費的 credit 了,蹭起來
不下載直接 mount GCS + faster-whisper
整個箭步如飛耶
15min 70個影片 --> 1hr 估約 250 個影片
是之前的 4 倍快呢
有了 VAD 之後
Hallucination 大概下降到 2 成左右
Whisper 的是 1/3
gary96302000.eecs96 2023-10-24 14:46:38
對 這類 inference 是真的會快很多
gary96302000.eecs96 2023-10-24 14:47:47
不確定有沒有別的團隊做 whisper 像 LLM 最快的還不是 CT2 顆顆
免費額度又用完了
我要來課金試試看 A100 XDD
gary96302000.eecs96 2023-10-24 19:07:40
對要看時段 很多人在用的時候就沒有辦法分配到 可以等晚一點
gary96302000.eecs96 2023-10-24 19:08:07
台灣時間晚上6-10點通常都要搶
V100 每小時是 5.36 credit
我把「大量 RAM」關掉了
我的 RAM 連免費版的都沒用完
gary96302000.eecs96 2023-10-24 19:10:31
A100的話預設就是大量ram 沒得降低就是了
gary96302000.eecs96 2023-10-24 19:10:49
V100不確定
gary96302000.eecs96 2023-10-24 19:15:59
Whisper 這個模型我沒用過 但如果他是 memory bound 的 task 的話 可以用各張卡的 memory bandwidth 估算跑的速度

• T4: 320GB/s
• V100: 900GB/a
• A100 40GB VRAM: 1.55TB/s
• A100 80GB VRAM: 2 TB/a
V100 的速度:
7min 23 個影片
這樣一小時應該可以有 200 個影片
這樣看起來好像跟 T4 差不多(上面是估 250 video / 1hr)
Colab code: https://colab.research.google.com/drive/1bCntjgyv4uX5j92rWW600eYqN1khkeYp#scrollTo=bmJ6qVVegIbX
`transcribe_soundtrack` 沒在用,現在都是用 `transcribe_faster` (faster-whisper)
不知道 beam_size 是不是有讓速度變慢
把 beam_size 從 10 變成 5 (whisper default) 之後處理速度變成 300 item/hr
gary96302000.eecs96 2023-10-24 19:45:30
科科
約需要 20hr 轉完剩下的 6000 則歷史影片
應該會把 credit 用光光
剩下的用免費 quota 處理掉
mrorz 15:43:50
目前在 google colab 上用 whisper + 實作降低 hallucination 的簡單邏輯(去掉重複的 segment)來處理站上的舊影片,進度如下:
https://docs.google.com/spreadsheets/d/1G5NYStN6OXaokSC7WsxlhVyxy5YLWDN25bUtzzTj_Pw/edit#gid=0
Colab 每跑完一筆會自動寫入,然後我會手動看一下有沒有 hallucination,有的話就會把原本的幻覺貼到 “hallucination” 這一欄,左邊填稍微清過的。

現在發現大概 1/3 會是 hallucination ._.
處理的速度大概是 60 分鐘處理 50 則影片這樣
#vtaiwan 那邊好像有用 whisperX ,要不要問看看?
https://g0v-tw.slack.com/archives/C2Q1M4N1J/p1697632859367689
應該是跑在自己電腦上而不是 deploy 成上線的服務吧
但好像可以 host 在 replicate
值得一試耶
https://replicate.com/daanelson/whisperx/api#run
遇到 cold boot 等他起來要好幾分鐘
我以為這 model 在 replicate 上很熱門 QQ
whisperx 給中文影片會回英文 囧
這樣用不了(攤手
Colab free quota 用完了 😢
如果要付錢給 colab 不如直接打 Whisper API
gary96302000.eecs96 2023-10-24 12:48:47
會員一個月10美金 顆顆
gary96302000.eecs96 2023-10-24 12:49:12
你是用 T4 嗎
gary96302000.eecs96 2023-10-24 12:49:57
一個月會員會給 100 credit 開 T4 一小時大概耗 2 個運算 credit 所以大概用不到 50 小時 給你參考一下顆顆
50hr 大概只能處理 3000 則影片
gary96302000.eecs96 2023-10-24 12:51:40
免費仔 quota renew 好像是一天 但不會補滿 不太確定他怎麼算的
gary96302000.eecs96 2023-10-24 12:54:06
不然就是 開一堆google 帳號 反正 colab code share 很方便 存在一個 shared drive
gary96302000.eecs96 2023-10-24 12:54:23
🚑
現在剩下 7000 則歷史影片
每則 2min 那是 14000 min
Whisper 是 $0.006 / minute
這樣大概 84USD
突然覺得好像花 30USD 買 300 colab credit 比較划算?
gary96302000.eecs96 2023-10-24 12:57:43
如果要背景跑的話 colab pro+確實比較好
gary96302000.eecs96 2023-10-24 12:58:21
如果可以接受開著放在那 colab pro 先用 不夠可以加價買credit
gary96302000.eecs96 2023-10-24 12:58:42
而且還可以測試看看 V100/A100
也是有道理
gary96302000.eecs96 2023-10-24 12:59:11
理論上 A100 雖然貴 但是你的 job 已經準備好 他跑起來反而更省
gary96302000.eecs96 2023-10-24 12:59:28
A100 一小時會耗 13 credit
gary96302000.eecs96 2023-10-24 12:59:41
所以跑的速度有 7 倍以上的話
gary96302000.eecs96 2023-10-24 12:59:48
就反而更划算
但我的 job 好像會有一些下載的時間
gary96302000.eecs96 2023-10-24 13:00:01
歐歐
沒有寫成先下載到機器
gary96302000.eecs96 2023-10-24 13:00:37
可以考慮只用 CPU 先下載下來到 gdrive
喔他們都在 gcs 上
gary96302000.eecs96 2023-10-24 13:00:53
然後 mount 那個 gdrive 直接讀 就很快
是沒在機器
喔喔喔也可以
對齁可以 mount
gary96302000.eecs96 2023-10-24 13:01:07
歐歐 gcs 應該也行
好耶
gary96302000.eecs96 2023-10-24 13:01:18
顆顆
gary96302000.eecs96 2023-10-24 13:01:53
<<-- colab 省錢CP值高手
gary96302000.eecs96 2023-10-24 13:03:06
colab pro 那個收錢頁面很爛的就是不明寫每個 GPU 每小時花多少
gary96302000.eecs96 2023-10-24 13:04:00
感覺跟 S3 流程蠻像的
gary96302000.eecs96 2023-10-24 13:04:14
就是要裝一下他的 package 然後驗證
好像也可以測一下 faster-whisper
內建 vad
gary96302000.eecs96 2023-10-24 13:05:51
歐歐 CT2 蠻有名的 原來也有做 Whisper
gary96302000.eecs96 2023-10-24 13:06:46
這類就是針對 inference 加速的 framework LLM 那邊很多
gary96302000.eecs96 2023-10-24 13:07:07
搭配 GPU 速度扛扛得上去
默默又有免費的 credit 了,蹭起來
不下載直接 mount GCS + faster-whisper
整個箭步如飛耶
15min 70個影片 --> 1hr 估約 250 個影片
是之前的 4 倍快呢
有了 VAD 之後
Hallucination 大概下降到 2 成左右
Whisper 的是 1/3
gary96302000.eecs96 2023-10-24 14:46:38
對 這類 inference 是真的會快很多
gary96302000.eecs96 2023-10-24 14:47:47
不確定有沒有別的團隊做 whisper 像 LLM 最快的還不是 CT2 顆顆
免費額度又用完了
我要來課金試試看 A100 XDD
gary96302000.eecs96 2023-10-24 19:07:40
對要看時段 很多人在用的時候就沒有辦法分配到 可以等晚一點
gary96302000.eecs96 2023-10-24 19:08:07
台灣時間晚上6-10點通常都要搶
V100 每小時是 5.36 credit
我把「大量 RAM」關掉了
我的 RAM 連免費版的都沒用完
gary96302000.eecs96 2023-10-24 19:10:31
A100的話預設就是大量ram 沒得降低就是了
gary96302000.eecs96 2023-10-24 19:10:49
V100不確定
gary96302000.eecs96 2023-10-24 19:15:59
Whisper 這個模型我沒用過 但如果他是 memory bound 的 task 的話 可以用各張卡的 memory bandwidth 估算跑的速度

• T4: 320GB/s
• V100: 900GB/a
• A100 40GB VRAM: 1.55TB/s
• A100 80GB VRAM: 2 TB/a
V100 的速度:
7min 23 個影片
這樣一小時應該可以有 200 個影片
這樣看起來好像跟 T4 差不多(上面是估 250 video / 1hr)
Colab code: https://colab.research.google.com/drive/1bCntjgyv4uX5j92rWW600eYqN1khkeYp#scrollTo=bmJ6qVVegIbX
`transcribe_soundtrack` 沒在用,現在都是用 `transcribe_faster` (faster-whisper)
不知道 beam_size 是不是有讓速度變慢
把 beam_size 從 10 變成 5 (whisper default) 之後處理速度變成 300 item/hr
gary96302000.eecs96 2023-10-24 19:45:30
科科
約需要 20hr 轉完剩下的 6000 則歷史影片
應該會把 credit 用光光
剩下的用免費 quota 處理掉

2023-10-24

mrorz 11:08:40
昨天我試了一下 google speech to text v2 (Chirp)
影片與 whisper 幻出來的結果:https://cofacts.tw/article/sfTx-IoBAjOeMOklkePx

而 Google Chirp 模型的結果如圖
感覺比 Whisper 的 medium model 還差,錯字多到 Elasticsearch 的 bigram 也無法有效 index
image.png
cai 21:02:31
https://cofacts.tw/article/2sdpmvz6nahwq
為什麼亂碼還有12人問
這次的回報補充是正解
是這次 111 短碼簡訊前的亂碼無誤
cai 21:02:31
https://cofacts.tw/article/2sdpmvz6nahwq
為什麼亂碼還有12人問
這次的回報補充是正解
是這次 111 短碼簡訊前的亂碼無誤
yhsiang 21:53:55
亂碼12問,一問才人無行,二問紅顏薄命
😂 3
yhsiang 21:53:55
亂碼12問,一問才人無行,二問紅顏薄命

2023-10-25

mrorz 14:17:48
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FZOZrbHxEQV25eP7a4dxzYw
今天家裡有事需告假一次,謝謝~ 🙏
mrorz 14:17:48
今日議程
https://g0v.hackmd.io/@cofacts/meetings/%2FZOZrbHxEQV25eP7a4dxzYw

HackMD

Cofacts 會議記錄 - HackMD

# Cofacts 會議記錄 - [搜尋](<https://cse.google.com/cse?cx=71f4f7ee215d54fe6>)[target=_blank] ## 2023 -

今天家裡有事需告假一次,謝謝~ 🙏

2023-10-26

mrorz 01:29:54
關於 staging 測試時發現有 article 的 createdAt 欄位不存在、導致有些 article 點不開的問題
我發現過去還真有一批手動送入資料庫的訊息是沒有 createdAt 的
image.png
有 26 article (其中 articleReply.createdAt 亦可能為空)有這樣的狀況
與其把 API 的 non-null 再次放寬
我想要幫它設一個日期了事
但看起來好像不止 createdAt,這類 appId 為 BOT_LEGACY 的 document 的 user id 也可能是空的⋯⋯
好吧我小孬孬
我選擇拿掉 non-null
https://github.com/cofacts/rumors-api/pull/324/files
mrorz 01:30:00
令人傷腦筋
mrorz 01:30:00
令人傷腦經

2023-10-27

Teemo 09:58:09
隨著 AI 生成技術不斷進步,網路上也開始充斥著許多假的圖片。
Google 推出了 3 種新的方式來檢查圖片資訊和圖片來源。
https://blog.google/products/search/google-search-new-fact-checking-features/

生成式搜尋體驗(SGE)提供更多來源資訊
可以看到圖片歷史、其他網站如何使用這張圖片、 Metadata。

「事實查核搜尋器」新增圖片功能,幫助更快進行圖片事實查核。
https://toolbox.google.com/factcheck/explorer

Google

3 new ways to check images and sources online

Today, we’re announcing three new ways that you can get more context about the images and sources you’re finding online.

https://toolbox.google.com/factcheck/about#fce-image-search-icon
> The image search functionality is currently available only to beta testers
😢
總之先 apply beta tester 了
那個 An image’s history 感覺可以加進開場投影片,讚讚
事實查核搜尋器只有支援有照他們規範寫的網站而已,實際上要用這個查要先猜英文關鍵字
🙌 2
Teemo 09:58:09
隨著 AI 生成技術不斷進步,網路上也開始充斥著許多假的圖片。
Google 推出了 3 種新的方式來檢查圖片資訊和圖片來源。
https://blog.google/products/search/google-search-new-fact-checking-features/

生成式搜尋體驗(SGE)提供更多來源資訊
可以看到圖片歷史、其他網站如何使用這張圖片、 Metadata。

「事實查核搜尋器」新增圖片功能,幫助更快進行圖片事實查核。
https://toolbox.google.com/factcheck/explorer
https://toolbox.google.com/factcheck/about#fce-image-search-icon
> The image search functionality is currently available only to beta testers
😢
總之先 apply beta tester 了
那個 An image’s history 感覺可以加進開場投影片,讚讚
事實查核搜尋器只有支援有照他們規範寫的網站而已,實際上要用這個查要先猜英文關鍵字
mrorz 12:11:16
NextJS 14 出了,server action 也 stable 了 https://nextjs.org/blog/next-14
全面改寫網站的技術條件已經齊備

nextjs.org

Next.js 14

Next.js 14 includes included performance, stability for Server Actions, a new course teaching the App Router, and more.

🚑 1 1 2 1
mrorz 12:11:16
NextJS 14 出了,server action 也 stable 了 https://nextjs.org/blog/next-14
全面改寫網站的技術條件已經齊備
yhsiang 14:20:08
好猛喔
yhsiang 14:20:08
好猛喔
yhsiang 14:20:28
話說萌典也應該next一下了
yhsiang 14:20:28
話說萌典也應該next一下了

2023-10-28

tzu-sheng kuo 10:50:36
@tzushenk has joined the channel
mrorz 17:31:11
google ocr 中文手寫字也沒問題
不得不說真的猛
https://cofacts.tw/article/afouiIQBC7Q3lHuUrzzb
mrorz 17:31:11
google ocr 中文手寫字也沒問題
不得不說真的猛
https://cofacts.tw/article/afouiIQBC7Q3lHuUrzzb
mrorz 17:37:54
7,300 多則歷史影片訊息的 Whisper 逐字稿也已經完成了~
雖然三天前就全部轉完,但手動清除明顯的幻聽花了一些時間 XD
💯 2
cai 18:49:31
https://cofacts.tw/article/26s3b8615p2b1 為什麼這篇可以這麼多人問XDD
原始的也不少
https://cofacts.tw/article/13zcfijsxopvo

大概有一定比例的人因為網址與 hyperlink 一樣所以點去 https://cofacts.tw/article/26s3b8615p2b1
但那個「一定比例」真的有點大囧
cai 18:49:31
https://cofacts.tw/article/26s3b8615p2b1 為什麼這篇可以這麼多人問XDD
原始的也不少
https://cofacts.tw/article/13zcfijsxopvo

大概有一定比例的人因為網址與 hyperlink 一樣所以點去 https://cofacts.tw/article/26s3b8615p2b1
但那個「一定比例」真的有點大囧

2023-10-30

2023-10-31

維人 20:37:33
@anomalous has joined the channel