itaigi

Month: 2019-05

2019-05-26

buganini 05:51:25
@buganini has joined the channel

2019-05-27

buganini 02:06:26
https://zh.wikipedia.org/wiki/%E8%87%BA%E7%81%A3%E9%96%A9%E5%8D%97%E8%AA%9E%E7%BE%85%E9%A6%AC%E5%AD%97%E6%8B%BC%E9%9F%B3%E6%96%B9%E6%A1%88
請問一下 這邊的韻母列表在實務上是完整的嗎?
這邊寫臺羅不使用oa跟oe,不過我還是有看到,不知道還有沒有漏的

臺灣閩南語羅馬字拼音方案

臺灣閩南語羅馬字拼音方案(臺羅:Tâi-uân Bân-lâm-gú Lô-má-jī Phing-im Hong-àn),簡稱為台羅拼音或台羅(TL),為中華民國教育部公布的臺灣閩南語拼音方案。此套拼音並非完全新創,而是整合原有的白話字(POJ,以傳統羅馬字寫成)以及台灣語言音標方案(TLPA)的閩南語音標部份而來。台羅拼音方案與白話字的相容性良好,可以視為白話字的增補或發展上的分支。在臺灣,使用白話字的社群有較高的意願使用台羅拼音,同時,在官方地位方面台羅拼音方案取代了TLPA。然而,在台灣以外的國家或地區,台羅拼音未必能夠全面取代白話字。台灣亦仍有基於堅持傳統,繼續使用白話字的人。

buganini 02:16:01
https://github.com/buganini/tl-dr
寫了一個browser extension用來做台羅TTS (接意傳的api),想要能偵測台羅的字串又不要被歐語系字串干擾,所以打算把子母音給窮舉在regex裡面

GitHub

buganini/tl-dr

台羅用聽ē,無免讀規晡. Contribute to buganini/tl-dr development by creating an account on GitHub.

limhiantong 05:49:42
「臺羅不使用oa跟oe,不過我還是有看到」是啥乜意思?
buganini 06:28:10
就是 wiki上面說不使用,但是實際上還是看到有人用
我想可能是混雜了白話字的拼法
buganini 06:28:51
還有ch/chh也是
buganini 09:24:21
大約搞定了,拼出個143k長的regex XDD
buganini 11:03:30
壓到剩29k
sing5hong5 22:52:04
@buganini我判斷羅馬字ê方式 https://github.com/i3thuan5/tai5-uan5_gian5-gi2_hok8-bu7/blob/master/%E8%87%BA%E7%81%A3%E8%A8%80%E8%AA%9E%E6%9C%8D%E5%8B%99/%E6%96%87%E6%9C%AC%E4%BB%8B%E9%9D%A2.py#L20

GitHub

i3thuan5/tai5-uan5_gian5-gi2_hok8-bu7

臺灣言語服務. Contribute to i3thuan5/tai5-uan5_gian5-gi2_hok8-bu7 development by creating an account on GitHub.

這樣"cafe"也會match
我現在只處理2個以上的音節,反正1個音節也不太需要TTS
https://github.com/buganini/tl-dr/blob/master/tl_dr.js#L59

組出來結果是這樣
https://pastebin.com/7Ey4CaBH
只處理一個音節終究無法閃開歐語文字如 poo
https://pastebin.com/5cJU2QMT
再把聲調符跟韻尾提出來,不算unicode encode就剩不到2k了
sing5hong5 2019-05-29 20:43:28
我下底有另外檢查,提掉無合法ê羅馬字
sing5hong5 22:52:32
敢koh有欠sánn資料--bô?
目前沒有,感謝🙏

2019-05-28

2019-05-29