itaigi

Month: 2020-07

2020-07-03

d 11:18:13
@daryloid has joined the channel

2020-07-20

tmonk 14:22:38

`已開放 KKTIX 報名`萌典松 08/15 第二十三松 moed23ct 本期共筆:<https://g0v.hackmd.io/-KiPYTO3T96V-KJM_dRdyw> 報名頁面:<https://moe.kktix.cc/events/moed23ct> 直播頁面:<https://www.youtube.com/watch?v=QEpFIGzS8Zs> :moe: 歡迎對萌典/字典/語文相關專案有興趣的朋友參與。當天也是 g0v Summit 2020 第三次工人大會,歡迎亂入/併松、遲到早退皆可。

tmonk 15:20:50

`已開放 KKTIX 報名` :seedling::seedling: 萌典松 08/15 第二十三松 moed23ct :seedling::seedling: 本期共筆:<https://g0v.hackmd.io/-KiPYTO3T96V-KJM_dRdyw> 報名頁面:<https://moe.kktix.cc/events/moed23ct-20200815> 直播頁面:<https://www.youtube.com/watch?v=QEpFIGzS8Zs> :moe: 歡迎對萌典/字典/語文相關專案有興趣的朋友參與。當天也是 g0v Summit 2020 第三次工人大會,歡迎亂入/併松、遲到早退皆可。

2020-07-30

dang 00:53:44
@vulxj0j8j8 has joined the channel
amychen 02:48:18
@amy17519 has joined the channel
john 09:05:10
@john206 has joined the channel
john 09:05:10
@john206 has joined the channel
how-when 09:29:59
@howard.haowen has joined the channel
how-when 09:32:19

:male-farmer: 大家好,我今天才加入這個社群。請問如果要揪有共同興趣的人完成自然語言處理的開源專案,要去哪裡徵人呢?目前想做的是台灣很多人在說、但是卻在自然語言處理這一塊相當薄弱的台(灣閩南)語。想在萌典所做的辭典數位化的基礎上,做自動斷詞、文章分類、問答、自動摘要等這一類的NLP計畫(更長遠、更高階的計畫就是讓Siri開口說台語:joy_cat:)。 然而這一切的基礎是建立一個自動斷詞系統,目前就我所知並沒有一個開源的台語斷詞器。(使用人口較少的客語,卻倒是<https://github.com/ldkrsi/jieba-Hakka|有一個>。:scream:)根據這個<http://ip194097.ntcu.edu.tw/TGB/tagging/tagging.asp|網頁>,已經有個國科會計畫作了斷詞及自動標記,但目前無法使用,似乎也沒有開源。該計畫使用的是BMM(逆向最大匹配)演算法來斷詞,而我想的是利用最近熱門的<https://medium.com/我就問一句-怎麼寫/nlp-model-google-bert-149c02c24b6a|BERT>演算架構,利用預先使用大量文本訓練出來的中文(即國語)詞向量基底,然後再餵入台語文本材料微調向量權重,藉以讓機器學習台語斷詞。這種遷移學習的方式,理論上是可行,但是訓練出來的模型需要有標記的文本(國語的例子<https://github.com/Sologa/CWS_dlhlp|在這>)來驗證它的正確率,目前也沒有這種標記文本。 我本身的專業是語言學,機器學習的經驗還是相當少。所以這個計畫至少需要三類夥伴助力才可能完成。一、台語熱愛者,或看得懂台文(漢字或羅馬字)的人,協助建立標記文本。二、爬蟲高手,協助爬取大量台語文本。公視台語台或<https://www.facebook.com/MandarinIsJapanese/|足英台三聲道磅米芳>的影片字幕也是台文,但是沒有文字檔,所以也需要有人把影像字幕轉成純文字檔。三、機器學習(台大這學期的<http://speech.ee.ntu.edu.tw/~tlkagk/courses_DLHLP20.html|課表>)專家,協助使用Tensorflow或PyTorch建立語言模型。 如果你是以上三類夥伴,或是純粹想透過動動手學點新東西(交朋友),歡迎跟我聯絡。最後附上一張以教育部閩南語辭典為訓練材料做出來的斷詞結果圖,正確率隨機目測還算可以,確切數字有待計算。

Thanks for sharing the awesome datasets!