irvin
有人有整理過教育部這張「閩南語推薦用字」成為結構化資料嗎?
pdf 實在是很難抓出來用…
https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf
pdf 實在是很難抓出來用…
https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf
SansWord
這個有人做了嗎?我可以試著做看看。
irvin
還沒,歡迎動手
SansWord
好的!感恩。
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
SansWord
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
完成後我會再檢查一下
irvin
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
另需注意台語這兩個資料是 CC 授權,非開放授權。
irvin
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題
SansWord
了解
SansWord
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
irvin
能匯入試算表的 csv
SansWord
好
SansWord
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
用例這個欄位本身其實又類似於是一個多值欄位
SansWord
我想想怎麼轉,可能會用不同的 delimiter
irvin
可考慮變成多行,如1號有兩行、六號有四行
irvin
多行合併很簡單,單行拆開比較複雜
SansWord
了解
SansWord
對應華語本身也是多值
irvin
json 的話就可以把例句變成 array
SansWord
對,我想說 json 的話我就會把多值欄位變成 array
SansWord
但沒關係,我先下手做出第一個版本我們在來討論細節~
SansWord
@daryloid 提供的 extractor 已經很好用,我再繼續校對
😮 1