itaigi

Month: 2022-02

2022-02-09

irvin 00:38:49
有人有整理過教育部這張「閩南語推薦用字」成為結構化資料嗎?
pdf 實在是很難抓出來用…

https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf
這個有人做了嗎?我可以試著做看看。
還沒,歡迎動手
好的!感恩。

我這個禮拜處理。
如果順利的話會再接手下面那個正字表
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題
了解
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
能匯入試算表的 csv
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
我想想怎麼轉,可能會用不同的 delimiter
可考慮變成多行,如1號有兩行、六號有四行
多行合併很簡單,單行拆開比較複雜
了解
對應華語本身也是多值
json 的話就可以把例句變成 array
對,我想說 json 的話我就會把多值欄位變成 array
但沒關係,我先下手做出第一個版本我們在來討論細節~
@daryloid 提供的 extractor 已經很好用,我再繼續校對
😮 1
irvin 00:38:49
有人有整理過這張 「教育部這張閩南語推薦用字」成為結構化資料嗎?
pdf 實在是很難抓出來用…
https://ws.moe.edu.tw/001/Upload/userfiles/file/iongji/700iongji_1031222.pdf
這個有人做了嗎?我可以試著做看看。
還沒,歡迎動手
好的!感恩。

我這個禮拜處理。
如果順利的話會再接手下面那個正字表
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題
了解
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
能匯入試算表的 csv
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
我想想怎麼轉,可能會用不同的 delimiter
可考慮變成多行,如1號有兩行、六號有四行
多行合併很簡單,單行拆開比較複雜
了解
對應華語本身也是多值
json 的話就可以把例句變成 array
對,我想說 json 的話我就會把多值欄位變成 array
但沒關係,我先下手做出第一個版本我們在來討論細節~
@daryloid 提供的 extractor 已經很好用,我再繼續校對

2022-02-10

NZ 01:10:25
@shsp102003 has joined the channel

2022-02-15

irvin 13:00:51
https://bobtung.medium.com/%E7%94%A8ruby-%E5%AF%AB%E5%8F%B0%E8%AA%9E-3a1e3ed9bf3c

Medium

用Ruby,寫台語。

使用HTML Ruby標示注音,不僅能用於國語,也讓台語注音得以活化。

2022-02-17

irvin 01:58:22
算是部編本台語課本,如果可以結構化化,應該也可以有很多用處

有兩千個詞,800個句子左右
02語詞1.pdf
02語詞2.pdf
03語句1.pdf
03語句2.pdf
Ted 顥天 09:25:22
@ted.lu.tw has joined the channel

2022-02-18

irvin 16:37:12
先丟這邊,明天黑客松歡迎一起弄
https://github.com/irvin/moe-nan-tw-materials

irvin/moe-nan-tw-materials

教育部出版台語教材資料

結果有發生什麼嗎?看起來會有用的,但是licence呢?
這幾冊是教育部難得沒有標版權所有的出版品,所以應該沒有特別的版權問題。
跟謝!
irvin 16:37:12
先丟這邊,明天黑客松歡迎一起弄
https://github.com/irvin/moe-nan-tw-materials
結果有發生什麼嗎?看起來會有用的,但是licence呢?
這幾冊是教育部難得沒有標版權所有的出版品,所以應該沒有特別的版權問題。
跟謝!
irvin 16:50:22

開站了! <https://commonvoice.mozilla.org/nan-tw> 來錄台語吧!

irvin 16:50:22

開站了! <https://commonvoice.mozilla.org/nan-tw> 來錄台語吧!

irvin 16:50:48
如果大家有認識有編台語教材的老師,歡迎協助接洽,希望能多收集一些教材來捕進去。
現在網站上用的是 itaigi 的資料,不太符合日常對話的內容,但開站優先。
3
irvin 16:50:48
如果大家有認識有編台語教材的老師,歡迎協助接洽,希望能多收集一些教材來捕進去。
現在網站上用的是 itaigi 的資料,不太符合日常對話的內容,但開站優先。

2022-02-19

irvin 16:26:29
「咱來學臺灣閩南語」「卡拉OK正字表」這邊有人整理好了
https://github.com/orgs/Taiwanese-Corpus/repositories
1
irvin 16:26:29
「咱來學臺灣閩南語」「卡拉OK正字表」這邊有人整理好了
https://github.com/orgs/Taiwanese-Corpus/repositories
irvin 16:26:47
而且還有其他可用的 corpus!
irvin 16:26:47
而且還有其他可用的 corpus!
1

2022-02-21

irvin 01:59:04
發現卡拉OK正字字表還是只有空白(數目不一)分隔的 txt 檔,仍然需要人工處理成 .csv
irvin 01:59:04
發現卡拉OK正字字表還是只有空白(數目不一)分隔的 txt 檔,仍然需要人工處理成 .csv
https://github.com/Taiwanese-Corpus/moe_minkalaok

Taiwanese-Corpus/moe_minkalaok

臺灣閩南語卡拉OK正字字表

1