irvin
有人有整理過教育部這張「閩南語推薦用字」成為結構化資料嗎?
pdf 實在是很難抓出來用…
https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf
pdf 實在是很難抓出來用…
https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf

SansWord
這個有人做了嗎?我可以試著做看看。

irvin
還沒,歡迎動手

SansWord
好的!感恩。
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
我這個禮拜處理。
如果順利的話會再接手下面那個正字表

SansWord
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
完成後我會再檢查一下

irvin
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
另需注意台語這兩個資料是 CC 授權,非開放授權。

irvin
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題

SansWord
了解

SansWord
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?

irvin
能匯入試算表的 csv

SansWord
好

SansWord
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
用例這個欄位本身其實又類似於是一個多值欄位

SansWord
我想想怎麼轉,可能會用不同的 delimiter

irvin
可考慮變成多行,如1號有兩行、六號有四行

irvin
多行合併很簡單,單行拆開比較複雜

SansWord
了解

SansWord
對應華語本身也是多值

irvin
json 的話就可以把例句變成 array

SansWord
對,我想說 json 的話我就會把多值欄位變成 array

SansWord
但沒關係,我先下手做出第一個版本我們在來討論細節~

SansWord
@daryloid 提供的 extractor 已經很好用,我再繼續校對
😮 1