#itaigi
2022-02-09
irvin
00:38:49
有人有整理過教育部這張「閩南語推薦用字」成為結構化資料嗎?
pdf 實在是很難抓出來用…
https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf
pdf 實在是很難抓出來用…
https://language.moe.gov.tw/files/people_files/700iongji_109.12.02.pdf
- 😮1
SansWord
2022-02-15 02:14:02
這個有人做了嗎?我可以試著做看看。
irvin
2022-02-15 02:21:48
還沒,歡迎動手
SansWord
2022-02-15 02:22:56
好的!感恩。
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
SansWord
2022-02-15 02:24:06
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
完成後我會再檢查一下
irvin
2022-02-15 02:24:25
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
另需注意台語這兩個資料是 CC 授權,非開放授權。
irvin
2022-02-15 02:25:36
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題
SansWord
2022-02-15 02:25:44
了解
SansWord
2022-02-15 02:26:23
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
irvin
2022-02-15 02:26:58
能匯入試算表的 csv
SansWord
2022-02-15 02:27:02
好
SansWord
2022-02-15 02:27:53
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
用例這個欄位本身其實又類似於是一個多值欄位
SansWord
2022-02-15 02:28:46
我想想怎麼轉,可能會用不同的 delimiter
irvin
2022-02-15 02:28:52
可考慮變成多行,如1號有兩行、六號有四行
irvin
2022-02-15 02:29:16
多行合併很簡單,單行拆開比較複雜
SansWord
2022-02-15 02:29:23
了解
SansWord
2022-02-15 02:29:28
對應華語本身也是多值
irvin
2022-02-15 02:29:39
json 的話就可以把例句變成 array
SansWord
2022-02-15 02:29:52
對,我想說 json 的話我就會把多值欄位變成 array
SansWord
2022-02-15 02:30:12
但沒關係,我先下手做出第一個版本我們在來討論細節~
SansWord
2022-02-15 02:33:27
@daryloid 提供的 extractor 已經很好用,我再繼續校對
irvin
00:38:49
有人有整理過這張 「教育部這張閩南語推薦用字」成為結構化資料嗎?
pdf 實在是很難抓出來用…
https://ws.moe.edu.tw/001/Upload/userfiles/file/iongji/700iongji_1031222.pdf
pdf 實在是很難抓出來用…
https://ws.moe.edu.tw/001/Upload/userfiles/file/iongji/700iongji_1031222.pdf
SansWord
2022-02-15 02:14:02
這個有人做了嗎?我可以試著做看看。
irvin
2022-02-15 02:21:48
還沒,歡迎動手
SansWord
2022-02-15 02:22:56
好的!感恩。
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
SansWord
2022-02-15 02:24:06
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
完成後我會再檢查一下
irvin
2022-02-15 02:24:25
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
另需注意台語這兩個資料是 CC 授權,非開放授權。
irvin
2022-02-15 02:25:36
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題
SansWord
2022-02-15 02:25:44
了解
SansWord
2022-02-15 02:26:23
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
irvin
2022-02-15 02:26:58
能匯入試算表的 csv
SansWord
2022-02-15 02:27:02
好
SansWord
2022-02-15 02:27:53
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
用例這個欄位本身其實又類似於是一個多值欄位
SansWord
2022-02-15 02:28:46
我想想怎麼轉,可能會用不同的 delimiter
irvin
2022-02-15 02:28:52
可考慮變成多行,如1號有兩行、六號有四行
irvin
2022-02-15 02:29:16
多行合併很簡單,單行拆開比較複雜
SansWord
2022-02-15 02:29:23
了解
SansWord
2022-02-15 02:29:28
對應華語本身也是多值
irvin
2022-02-15 02:29:39
json 的話就可以把例句變成 array
SansWord
2022-02-15 02:29:52
對,我想說 json 的話我就會把多值欄位變成 array
SansWord
2022-02-15 02:30:12
但沒關係,我先下手做出第一個版本我們在來討論細節~
SansWord
2022-02-15 02:33:27
@daryloid 提供的 extractor 已經很好用,我再繼續校對
2022-02-10
NZ
01:10:25
@shsp102003 has joined the channel
2022-02-15
SansWord
02:14:02
這個有人做了嗎?我可以試著做看看。
irvin
02:21:48
還沒,歡迎動手
SansWord
02:22:56
好的!感恩。
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
我這個禮拜處理。
如果順利的話會再接手下面那個正字表
SansWord
02:24:06
最底下的勘誤修正應該是已經有修正了只是類似 patch log.
完成後我會再檢查一下
完成後我會再檢查一下
irvin
02:24:25
可轉好檔校對後丟去 github,例如先前我整理的其他資料這樣放:https://github.com/irvin/moe-common-phrases-of-zhtw
另需注意台語這兩個資料是 CC 授權,非開放授權。
另需注意台語這兩個資料是 CC 授權,非開放授權。
irvin
02:25:36
上方的校對是指轉檔的過程中可能也會產生一些錯誤,例如從 pdf 拉出來時出錯,或者斷行造成問題
SansWord
02:25:44
了解
SansWord
02:26:23
有對成果有什麼期待嗎?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
我直覺會想轉成一個 json 檔,但有沒有其他方便你使用的格式?
irvin
02:26:58
能匯入試算表的 csv
SansWord
02:27:02
好
SansWord
02:27:53
`綴人講、綴人 時行、綴袂著陣`
用例這個欄位本身其實又類似於是一個多值欄位
用例這個欄位本身其實又類似於是一個多值欄位
SansWord
02:28:46
我想想怎麼轉,可能會用不同的 delimiter
irvin
02:28:52
可考慮變成多行,如1號有兩行、六號有四行
irvin
02:29:16
多行合併很簡單,單行拆開比較複雜
SansWord
02:29:23
了解
SansWord
02:29:28
對應華語本身也是多值
irvin
02:29:39
json 的話就可以把例句變成 array
SansWord
02:29:52
對,我想說 json 的話我就會把多值欄位變成 array
SansWord
02:30:12
但沒關係,我先下手做出第一個版本我們在來討論細節~
SansWord
02:33:27
@daryloid 提供的 extractor 已經很好用,我再繼續校對
irvin
13:00:51
2022-02-17
Ted 顥天
09:25:22
@ted.lu.tw has joined the channel
2022-02-18
irvin
16:37:12
先丟這邊,明天黑客松歡迎一起弄
https://github.com/irvin/moe-nan-tw-materials
https://github.com/irvin/moe-nan-tw-materials
a-chioh
2022-03-01 05:59:49
結果有發生什麼嗎?看起來會有用的,但是licence呢?
irvin
2022-03-01 16:25:46
@a-chioh 發現有人整理,因此已經上線了: https://github.com/moztw/cc0-sentences/tree/master/nan-TW#咱來學臺灣閩南語
irvin
2022-03-01 17:12:49
這幾冊是教育部難得沒有標版權所有的出版品,所以應該沒有特別的版權問題。
a-chioh
2022-03-03 01:31:16
跟謝!
irvin
16:37:12
先丟這邊,明天黑客松歡迎一起弄
https://github.com/irvin/moe-nan-tw-materials
https://github.com/irvin/moe-nan-tw-materials
a-chioh
2022-03-01 05:59:49
結果有發生什麼嗎?看起來會有用的,但是licence呢?
irvin
2022-03-01 16:25:46
@a-chioh 發現有人整理,因此已經上線了: https://github.com/moztw/cc0-sentences/tree/master/nan-TW#咱來學臺灣閩南語
irvin
2022-03-01 17:12:49
這幾冊是教育部難得沒有標版權所有的出版品,所以應該沒有特別的版權問題。
a-chioh
2022-03-03 01:31:16
跟謝!
irvin
16:50:48
如果大家有認識有編台語教材的老師,歡迎協助接洽,希望能多收集一些教材來捕進去。
現在網站上用的是 itaigi 的資料,不太符合日常對話的內容,但開站優先。
現在網站上用的是 itaigi 的資料,不太符合日常對話的內容,但開站優先。
2022-02-19
irvin
16:26:29
「咱來學臺灣閩南語」「卡拉OK正字表」這邊有人整理好了
https://github.com/orgs/Taiwanese-Corpus/repositories
https://github.com/orgs/Taiwanese-Corpus/repositories
irvin
16:26:47
而且還有其他可用的 corpus!
2022-02-21
irvin
01:59:04
發現卡拉OK正字字表還是只有空白(數目不一)分隔的 txt 檔,仍然需要人工處理成 .csv
irvin
01:59:04
發現卡拉OK正字字表還是只有空白(數目不一)分隔的 txt 檔,仍然需要人工處理成 .csv
https://github.com/Taiwanese-Corpus/moe_minkalaok
https://github.com/Taiwanese-Corpus/moe_minkalaok
1