itaigi

Month: 2018-09

2018-09-03

johnny 22:16:00
來這邊問一下,正則表示式要用什麼來匹配台羅阿? \w 匹配不到 û 這種
ronnywang 22:27:18
\w 只包含 [a-zA-Z0-9_]
ronnywang 22:35:21
剛查了一下,台羅用的字都會在 ascii 以內,所以應該可以用 /[\x00-\xFF]/u 來 match
ronnywang 22:35:50
後面要加 /u ,表示用 unicode ,那這樣 û 的字會被當作 \xFB 獨立 match 到
ronnywang 22:39:39
更準確一點可以用 [\xC0-\xFF] ,可以參考 https://unicode-table.com/en/blocks/latin-1-supplement/ 會用到的字元是從 C0 開始的

unicode-table.com

Latin-1 Supplement

Block: Latin-1 Supplement, Range: U+0080...U+00FF, Number of characters: 128, €, , ‚, ƒ, „, …, †, ‡, ˆ, ‰

johnny 22:42:33
喔喔可以ㄟ,在對應候選人的時候碰到的問題
孫博萮 Phok-Jû Sun
張舒婷 Tiunn Su-tîng
王映心 Ông Iòng-sim
蕭筱臻 Siau Siáu-chin
ronnywang 22:43:03
應該可以用 /[a-zA-Z-\xC0-\XFF]*/u
johnny 22:45:51
話說姓寫在前或後有什麼派別嗎?
sing5hong5 22:51:20
C0-ff無全部的調--iooh。親像ā, a̍h, a̋. 阮進前直接貼全部 https://github.com/i3thuan5/tai5-uan5_gian5-gi2_hok8-bu7/blob/master/臺灣言語服務/文本介面.py#L20

2018-09-04

johnny 01:19:14
這個沒有在上面 Ô 王映心的

2018-09-07

fly 20:46:23
g0v在google剛開放的datasetsearch 中只有這份 https://zenodo.org/record/1308746#.W5JytNB-Wh8

Zenodo

《國臺對照活用辭典》XML-TEI

《國臺對照活用辭典》(Mandarin-Taiwanese Dictionary) by 吳守禮 (re-)digitization and conversion to XML-TEI by 阿石 (Pierre Magistry) In collaboration with Wikimedia Taiwan and <http://g0v.tw|g0v.tw> See <https://meta.wikimedia.org/wiki/Wikimedia_Taiwan/OpenWuDict> Alpha version (trying Zenodo), contact Pierre Magistry for de   <https://meta.wikimedia.org/wiki/Wikimedia_Taiwan/OpenWuDict>

2018-09-08

sing5hong5 21:42:54
@johnny ignorecase,無就用toupper()轉