#itaigi
2020-07-03
d
11:18:13
@daryloid has joined the channel
2020-07-20
tmonk
14:22:38
tmonk
`已開放 KKTIX 報名`萌典松 08/15 第二十三松 moed23ct
本期共筆:https://g0v.hackmd.io/-KiPYTO3T96V-KJM_dRdyw
報名頁面:https://moe.kktix.cc/events/moed23ct
直播頁面:https://www.youtube.com/watch?v=QEpFIGzS8Zs
歡迎對萌典/字典/語文相關專案有興趣的朋友參與。當天也是 g0v Summit 2020 第三次工人大會,歡迎亂入/併松、遲到早退皆可。
- Forwarded from #general
- 2020-07-20 14:20:56
tmonk
15:20:50
tmonk
`已開放 KKTIX 報名` 🌱🌱 萌典松 08/15 第二十三松 moed23ct 🌱🌱
本期共筆:https://g0v.hackmd.io/-KiPYTO3T96V-KJM_dRdyw
報名頁面:https://moe.kktix.cc/events/moed23ct-20200815
直播頁面:https://www.youtube.com/watch?v=QEpFIGzS8Zs
歡迎對萌典/字典/語文相關專案有興趣的朋友參與。當天也是 g0v Summit 2020 第三次工人大會,歡迎亂入/併松、遲到早退皆可。
- Forwarded from #general
- 2020-07-20 15:20:19
2020-07-30
dang
00:53:44
@vulxj0j8j8 has joined the channel
amychen
02:48:18
@amy17519 has joined the channel
john
09:05:10
@john206 has joined the channel
john
09:05:10
@john206 has joined the channel
how-when
09:29:59
@howard.haowen has joined the channel
how-when
09:32:19
Haowen Jiang
👨🌾 大家好,我今天才加入這個社群。請問如果要揪有共同興趣的人完成自然語言處理的開源專案,要去哪裡徵人呢?目前想做的是台灣很多人在說、但是卻在自然語言處理這一塊相當薄弱的台(灣閩南)語。想在萌典所做的辭典數位化的基礎上,做自動斷詞、文章分類、問答、自動摘要等這一類的NLP計畫(更長遠、更高階的計畫就是讓Siri開口說台語😹)。
然而這一切的基礎是建立一個自動斷詞系統,目前就我所知並沒有一個開源的台語斷詞器。(使用人口較少的客語,卻倒是有一個。:scream:)根據這個網頁,已經有個國科會計畫作了斷詞及自動標記,但目前無法使用,似乎也沒有開源。該計畫使用的是BMM(逆向最大匹配)演算法來斷詞,而我想的是利用最近熱門的BERT演算架構,利用預先使用大量文本訓練出來的中文(即國語)詞向量基底,然後再餵入台語文本材料微調向量權重,藉以讓機器學習台語斷詞。這種遷移學習的方式,理論上是可行,但是訓練出來的模型需要有標記的文本(國語的例子在這)來驗證它的正確率,目前也沒有這種標記文本。
我本身的專業是語言學,機器學習的經驗還是相當少。所以這個計畫至少需要三類夥伴助力才可能完成。一、台語熱愛者,或看得懂台文(漢字或羅馬字)的人,協助建立標記文本。二、爬蟲高手,協助爬取大量台語文本。公視台語台或足英台三聲道磅米芳的影片字幕也是台文,但是沒有文字檔,所以也需要有人把影像字幕轉成純文字檔。三、機器學習(台大這學期的課表)專家,協助使用Tensorflow或PyTorch建立語言模型。
如果你是以上三類夥伴,或是純粹想透過動動手學點新東西(交朋友),歡迎跟我聯絡。最後附上一張以教育部閩南語辭典為訓練材料做出來的斷詞結果圖,正確率隨機目測還算可以,確切數字有待計算。
- Forwarded from #general
- 2020-07-29 23:44:59
how-when
2020-08-04 21:32:15
Thanks for sharing the awesome datasets!