#itaigi

d 11:18:13

@daryloid has joined the channel

tmonk 14:22:38

tmonk

`已開放 KKTIX 報名`萌典松 08/15 第二十三松 moed23ct
本期共筆：https://g0v.hackmd.io/-KiPYTO3T96V-KJM_dRdyw
報名頁面：https://moe.kktix.cc/events/moed23ct
直播頁面：https://www.youtube.com/watch?v=QEpFIGzS8Zs
歡迎對萌典/字典/語文相關專案有興趣的朋友參與。當天也是 g0v Summit 2020 第三次工人大會，歡迎亂入/併松、遲到早退皆可。

Forwarded from #general

2020-07-20 14:20:56

tmonk 15:20:50

tmonk

`已開放 KKTIX 報名` 🌱🌱 萌典松 08/15 第二十三松 moed23ct 🌱🌱
本期共筆：https://g0v.hackmd.io/-KiPYTO3T96V-KJM_dRdyw
報名頁面：https://moe.kktix.cc/events/moed23ct-20200815
直播頁面：https://www.youtube.com/watch?v=QEpFIGzS8Zs
歡迎對萌典/字典/語文相關專案有興趣的朋友參與。當天也是 g0v Summit 2020 第三次工人大會，歡迎亂入/併松、遲到早退皆可。

Forwarded from #general

2020-07-20 15:20:19

dang 00:53:44

@vulxj0j8j8 has joined the channel

amychen 02:48:18

@amy17519 has joined the channel

john 09:05:10

@john206 has joined the channel

john 09:05:10

@john206 has joined the channel

how-when 09:29:59

@howard.haowen has joined the channel

how-when 09:32:19

Haowen Jiang

👨‍🌾 大家好，我今天才加入這個社群。請問如果要揪有共同興趣的人完成自然語言處理的開源專案，要去哪裡徵人呢？目前想做的是台灣很多人在說、但是卻在自然語言處理這一塊相當薄弱的台（灣閩南）語。想在萌典所做的辭典數位化的基礎上，做自動斷詞、文章分類、問答、自動摘要等這一類的NLP計畫（更長遠、更高階的計畫就是讓Siri開口說台語😹）。
然而這一切的基礎是建立一個自動斷詞系統，目前就我所知並沒有一個開源的台語斷詞器。（使用人口較少的客語，卻倒是有一個。:scream:）根據這個網頁，已經有個國科會計畫作了斷詞及自動標記，但目前無法使用，似乎也沒有開源。該計畫使用的是BMM（逆向最大匹配）演算法來斷詞，而我想的是利用最近熱門的BERT演算架構，利用預先使用大量文本訓練出來的中文（即國語）詞向量基底，然後再餵入台語文本材料微調向量權重，藉以讓機器學習台語斷詞。這種遷移學習的方式，理論上是可行，但是訓練出來的模型需要有標記的文本（國語的例子在這）來驗證它的正確率，目前也沒有這種標記文本。
我本身的專業是語言學，機器學習的經驗還是相當少。所以這個計畫至少需要三類夥伴助力才可能完成。一、台語熱愛者，或看得懂台文（漢字或羅馬字）的人，協助建立標記文本。二、爬蟲高手，協助爬取大量台語文本。公視台語台或足英台三聲道磅米芳的影片字幕也是台文，但是沒有文字檔，所以也需要有人把影像字幕轉成純文字檔。三、機器學習（台大這學期的課表）專家，協助使用Tensorflow或PyTorch建立語言模型。
如果你是以上三類夥伴，或是純粹想透過動動手學點新東西（交朋友），歡迎跟我聯絡。最後附上一張以教育部閩南語辭典為訓練材料做出來的斷詞結果圖，正確率隨機目測還算可以，確切數字有待計算。

Forwarded from #general

2020-07-29 23:44:59

john 2020-08-02 11:04:25

https://zenodo.org/record/2631767
https://www.aclweb.org/anthology/O16-1026.pdf
http://www.isle.illinois.edu/speech_web_lg/pubs/2017/do17taslp.pdf

how-when 2020-08-04 21:32:15

Thanks for sharing the awesome datasets!

2020-07-03

2020-07-20

tmonk

tmonk

2020-07-30

Haowen Jiang