以下憑印象,實驗不是我做的。
看過某個 blog 還是什麼的,幾個數字大概是:
1. 英文的「問/答」搭配,十萬組 (一問一答為一組) 資料可以達到 76% 的 F1.
2. 日文的「實體辨識」(也就是挑出句子裡的名詞),需要 2 萬篇 (未提及長短) 日文文章。可達 91% 的 F1.
3. 同樣以 2 萬篇 (未提及長短) 英文文章,卻只能達到76% 的 F1 (這個數字的印象有點模糊,不過大概是 73~76% 之間。我就取大數吧)。
以 BERT 的運作原理,我推估大概是學到了 "の" 這一類「前後都名詞」的日文結構特色。這裡的「結構」在語言學裡就是 "syntax" (句法),或是 BERTer 們說的「這個 LM 學會了文法 (grammar)」。
同樣的資料量級下,可以看到日文和英文會因為「語言特色」而有這麼大的 F1 差異。我想應該是 2 萬這個量級的資料,還不足以讓 BERT 方法產生的模型搞懂英文的名詞前後會是什麼?(a, the, of 的下一個一定就是名詞嗎?或是英文裡某個字的前一個字,一定就是名詞嗎?) 。
以下是個人意見…
BERT 利用 MASK 的設計在學習(死記) [MASK] (被遮字) 的前後是什麼,日文裡可以遇到 "の" 被 MASK 或是它的前後字被 MASK 的情況,而學會某些詞是實體 (就先理解成名詞吧)。但英文裡沒有這樣的功能詞,所以同一個量級下就學不會這件事。
這個實驗讓我看到的是「同一個方法 (BERT),同一個資料量級,在遇到不同的語言時,竟然會有這麼大的差異 (有親手在做 NLP 研究和實驗的應該都有親身的體會,要能爬個 1% 的 F1,都不是容易的事。何況是 76% 到 91% 之間的差距)。
以上還不是斷詞這種「整個句子的斷點都要處理對」的工作,只是一個小小的「我已經斷好了,請辨識這個詞是不是一個實體」的工作而已。
我沒辦法回答「台語的資料要累積到多少,才能用 BERT 來學習詞彙斷點」。但我知道「台語 (和其它漢語一樣) 有個特點 - 詞綴非常少」。它既無法像英文那樣有人稱、時態、數量的變化,讓你可以知道 two [MASK] 的這個被遮字,在所有的候選字裡,不是複數型的,大概都沒機會。因此 two bookS 是有機會的,而 two book 是沒機會的。BERTer 說這個叫「LM 學會了 grammer」。
回到台文 "tsit tsiah [MASK]" 那個被遮字,可以是什麼?這似乎不是少少的 2 萬篇文章就能學會的事情。
另外,
https://leemeng.tw/attack_on_bert_transfer_learning_in_nlp.html 這篇文章裡有提到「要訓練好一個有 1.1 億參數的 12 層 *BERT-BASE* 得用 16 個
TPU chips 跑上整整 4 天,
花費 500 鎂;24 層的 *BERT-LARGE* 則有 3.4 億個參數,得用 64 個 TPU chips(約 7000 鎂)訓練」每調一次參數,再測試一次,就是要再花一次 500 ~ 7000 美金的意思。有人算過最近推出的 GPT-3 一次訓練大概要花掉 1200 萬美金的 GPU 租用費。
我不覺得用 BERT 來處理資料量少,語言特性又離英文太遠的語言是個好方向,一部份的原因大概是貧窮限制了我的想像吧。
這只是我的看法,如果您有資源 ($),覺得 rule-based 太 low 了,對 data-driven approaches 有一定的信仰的話,那麼試試也無妨。不過我還是要提出一點點為 "rule-base" 的說明:「懂語言學,寫語言 rule 並不等同於許多人想的 "寫一堆 if...else... 就是 rule based"」。至少在 Articut 三千行的原始碼裡,if...else... 就不是重點,所以「懂語言和不懂語言」的人,寫出來的 "rule-based" 的程式碼是差很多的。
leemeng.tw
進擊的 BERT:NLP 界的巨人之力與遷移學習
這篇是給所有人的 BERT 科普文以及操作入門手冊。文中將簡單介紹知名的語言代表模型 BERT 以及如何用其實現兩階段的遷移學習。讀者將有機會透過 PyTorch 的程式碼來直觀理解 BERT 的運作方式並實際 fine tune 一個真實存在的假新聞分類任務。閱讀完本文的讀者將能把 BERT 與遷移學習運用到其他自己感興趣的 NLP 任務。
Google Cloud Platform Blog
Cloud TPU now offers preemptible pricing and global availability
By Brennan Saeta, TensorFlow Tech Lead for Cloud TPUs Deep neural networks have enabled breakthroughs across a variety of business and ...
Medium
The Staggering Cost of Training SOTA AI Models
While it is exhilarating to see AI researchers pushing the performance of cutting-edge models to new heights, the costs of such processes…