#medicineeasy
2026-03-01
Ann
12:37:59
@jcwung.pharm2021 不好意思,我太晚訂回台北的車票,開會時還在外移動,只能先缺席一次,想請 JC 主持,謝謝 QQ
JC Wung
13:12:55
我來試試看🙂
想問要螢幕錄影,以利確認會議記錄嗎?
下次會議我可以的時間有
3/20 (五) 到 3/23 (一) 的晚上,週日白日也可以。
再請Ann提供可以的時段喔
謝謝
@imtinahsieh
想問要螢幕錄影,以利確認會議記錄嗎?
下次會議我可以的時間有
3/20 (五) 到 3/23 (一) 的晚上,週日白日也可以。
再請Ann提供可以的時段喔
謝謝
@imtinahsieh
Ann
14:22:43
我如果到家來得及就上線;不用錄影,就煩請幫忙做會議記錄了~
我 3/21(六)20:00、3/22(日)全天可以開會,謝謝 JC!
我 3/21(六)20:00、3/22(日)全天可以開會,謝謝 JC!
JC Wung
23:11:02
*20260301 Meeting*
📝 *會議記錄* 看這~
*`Action Items`*
• @jcwung.pharm2021 在 Slack 上通知 Shadowing 見面地點時間
• @jcwung.pharm2021 安排 Shadowing 受訪的藥師
• @jcwung.pharm2021 2/22 前提供 15 個藥品跟問項給 @alix2t7
• @alix2t7 2/22 內讓模型成為可使用狀態 & RAG 掛載
• 大家 2/22 前提供 @annie84080 訪綱 Feedback
*`Next Time`*
• *2026/3/1(日)20:00-21:30 @ google meet*
📝 *會議記錄* 看這~
*`Action Items`*
• @jcwung.pharm2021 在 Slack 上通知 Shadowing 見面地點時間
• @jcwung.pharm2021 安排 Shadowing 受訪的藥師
• @jcwung.pharm2021 2/22 前提供 15 個藥品跟問項給 @alix2t7
• @alix2t7 2/22 內讓模型成為可使用狀態 & RAG 掛載
• 大家 2/22 前提供 @annie84080 訪綱 Feedback
*`Next Time`*
• *2026/3/1(日)20:00-21:30 @ google meet*
JC Wung
23:11:02
*20260301 Meeting*
📝 *會議記錄* 看這~
*`Action Items`*
• MVP for 4/12(日)零時小學校孵化計畫 成果發表
◦ @alix2t7 給JC、Yu:(以Excel表格)提供 9 個藥品、問題、答案
◦ @annie84080 LINE prototype design
◦ @jcwung.pharm2021 background: 拿到Excel表格後,至少難/適中/易特殊劑型各一,4種模型,共12次的專家評估
◦ @annie84080 design - 希望也可以包含服務設計
• @jcwung.pharm2021 定稿專家五維度評分、一般人易讀性評分; 估計專家與一般受試者的母數; 準備IRB送審文件
• @alix2t7 粗略計算4個語言model在三種難易度產出的字數分布
• @alix2t7 @kuanwei.dev RAG來源不是電子仿單(XML)的解決方法
*`Next Time`*
• *2026/3/22(日)20:00-21:30 @ google meet*
今天代班@imtinahsieh ,謝謝大家協助會議記錄,疏漏之處歡迎補充唷:blush:
📝 *會議記錄* 看這~
*`Action Items`*
• MVP for 4/12(日)零時小學校孵化計畫 成果發表
◦ @alix2t7 給JC、Yu:(以Excel表格)提供 9 個藥品、問題、答案
◦ @annie84080 LINE prototype design
◦ @jcwung.pharm2021 background: 拿到Excel表格後,至少難/適中/易特殊劑型各一,4種模型,共12次的專家評估
◦ @annie84080 design - 希望也可以包含服務設計
• @jcwung.pharm2021 定稿專家五維度評分、一般人易讀性評分; 估計專家與一般受試者的母數; 準備IRB送審文件
• @alix2t7 粗略計算4個語言model在三種難易度產出的字數分布
• @alix2t7 @kuanwei.dev RAG來源不是電子仿單(XML)的解決方法
*`Next Time`*
• *2026/3/22(日)20:00-21:30 @ google meet*
今天代班@imtinahsieh ,謝謝大家協助會議記錄,疏漏之處歡迎補充唷:blush:
- 4
3
1
2026-03-03
Yu Chiang
13:23:19
[關於字數]每則回覆的字數長度也可考慮段落和手機螢幕的閱讀性
> 「手機螢幕」剛好塞得下兩個段落的長度,來組成一個完整的段落,一個段落在120~180字之間
參考資料來源: https://readingoutpost.com/write-invest/
> 「手機螢幕」剛好塞得下兩個段落的長度,來組成一個完整的段落,一個段落在120~180字之間
參考資料來源: https://readingoutpost.com/write-invest/
- 👍2
- 👌1
2026-03-06
Ann
18:30:29
google 也有衛教建議欸
https://www.facebook.com/share/p/17oaLPMFYA/?mibextid=wwXIfr
https://www.facebook.com/share/p/17oaLPMFYA/?mibextid=wwXIfr
facebook.com
你我手機上的「健康存摺」變聰明了!:robot_face: Gemini 技術正式進駐,讓台灣成為全球首例導入全民規模 AI 醫療應用的地方。 從現在開始,第二型糖尿病友能漸漸透過 AI 獲得個人化的衛教建議,管理日常健康;基層醫師也能參考「家醫大平台」的風險分級,實現及早介入與治療。:hospital: 為了讓這份守護不留遺漏,<http://Google.org|Google.org> 也支援數位人道協會培訓專才走入全台 300...
JC Wung
2026-03-06 22:49:37
這是2025總統盃前五名
我們是特殊劑型,有市場區隔😂
我們是特殊劑型,有市場區隔😂
Yu Chiang
2026-03-08 15:39:58
如果之後我們也導入食藥署官方服務,是不是也應該也考慮健康存摺為接觸點
JC Wung
2026-03-08 15:48:21
很希望啊
我們先努力一陣子 💪
我們先努力一陣子 💪
Ann
18:30:29
google 也有衛教建議欸
https://www.facebook.com/share/p/17oaLPMFYA/?mibextid=wwXIfr
https://www.facebook.com/share/p/17oaLPMFYA/?mibextid=wwXIfr
facebook.com
你我手機上的「健康存摺」變聰明了!:robot_face: Gemini 技術正式進駐,讓台灣成為全球首例導入全民規模 AI 醫療應用的地方。 從現在開始,第二型糖尿病友能漸漸透過 AI 獲得個人化的衛教建議,管理日常健康;基層醫師也能參考「家醫大平台」的風險分級,實現及早介入與治療。:hospital: 為了讓這份守護不留遺漏,<http://Google.org|Google.org> 也支援數位人道協會培訓專才走入全台 300...
- 👍2
JC Wung
2026-03-06 22:49:37
這是2025總統盃前五名
我們是特殊劑型,有市場區隔😂
我們是特殊劑型,有市場區隔😂
Yu Chiang
2026-03-08 15:39:58
如果之後我們也導入食藥署官方服務,是不是也應該也考慮健康存摺為接觸點
JC Wung
2026-03-08 15:48:21
很希望啊
我們先努力一陣子 💪
我們先努力一陣子 💪
JC Wung
22:49:37
這是2025總統盃前五名
我們是特殊劑型,有市場區隔😂
我們是特殊劑型,有市場區隔😂
2026-03-07
alix2t7
22:51:38
嗨~大家,跟各位更新一下模型的狀況:
• Gemma 3 4B 與 MedGemma 1.5 4B 因為模型本身小,又是英文母語,所以 *認不出任何台灣藥品的名字 ;*意即,丟藥品問題給他們,他們都只會幻想回答給你,*毫無正確性* 可言。相關的問答結果,可參見:https://drive.google.com/drive/folders/1HtZQ8R9ptmI96ld9O_XCXwgAX-s35dkP?usp=sharing
• 有去測了下別人部署的 MedGemma 27B。因為模型大,所以它可以對接台灣的藥品資料庫,是認得出台灣藥品的。另外有用艾敏釋測試了下,該模型還是會有差錯及微小的幻覺。
• 目前正在用英文裸測 Gemma 3 4B 與 MedGemma 1.5 4B,期望能真的測出兩者在藥品問題上,誰回答得更好。
結論:要解決我們使用的小模型幻覺問題,RAG 勢在必行;預計可解決他們不認得台灣藥品的問題。
我與 @gosienna 會盡快將 RAG 完成~:saluting_face:
• Gemma 3 4B 與 MedGemma 1.5 4B 因為模型本身小,又是英文母語,所以 *認不出任何台灣藥品的名字 ;*意即,丟藥品問題給他們,他們都只會幻想回答給你,*毫無正確性* 可言。相關的問答結果,可參見:https://drive.google.com/drive/folders/1HtZQ8R9ptmI96ld9O_XCXwgAX-s35dkP?usp=sharing
• 有去測了下別人部署的 MedGemma 27B。因為模型大,所以它可以對接台灣的藥品資料庫,是認得出台灣藥品的。另外有用艾敏釋測試了下,該模型還是會有差錯及微小的幻覺。
• 目前正在用英文裸測 Gemma 3 4B 與 MedGemma 1.5 4B,期望能真的測出兩者在藥品問題上,誰回答得更好。
結論:要解決我們使用的小模型幻覺問題,RAG 勢在必行;預計可解決他們不認得台灣藥品的問題。
我與 @gosienna 會盡快將 RAG 完成~:saluting_face:
JC Wung
2026-03-08 05:52:35
謝謝Wei和ke-wei的用心努力
跨專業不懂亂問😂
1. 如果prompt不只給中文商品名,同時提供英文商品名、英文學名 (成分名,仿單資料庫的對應欄位),結果會改善嗎?
2. 15個藥品有全部測試嗎?有些近年才上市的藥-胰妥讚,會不會還沒在Gemma或MedGemma內有的資料庫呢?優泌樂筆、使肺泰、止膿敏上市比較久,會不會回答的問題表現比較好呢?
3. 在提供英文商品名、英文學名 (成分名) 的條件下,兩種語言模型會因為操作難易度,例如止膿敏比較簡單操作,會表現的比較好嗎?
4. MedGemma 27B比較大表現比較好,我們現有資源與設備有機會升級到這裡嗎?
測試資料請先保留,以學術角度出發,結果產出是中性的,後續分析、整理與解讀可以留下寶貴的經驗喔。
歡迎大家提出想法和回饋喔
如果方便,今天可以跟Wei約個快速討論的時間嗎?以15-30分鐘結束為目標😂
謝謝
@alix2t7 @imtinahsieh @annie84080
跨專業不懂亂問😂
1. 如果prompt不只給中文商品名,同時提供英文商品名、英文學名 (成分名,仿單資料庫的對應欄位),結果會改善嗎?
2. 15個藥品有全部測試嗎?有些近年才上市的藥-胰妥讚,會不會還沒在Gemma或MedGemma內有的資料庫呢?優泌樂筆、使肺泰、止膿敏上市比較久,會不會回答的問題表現比較好呢?
3. 在提供英文商品名、英文學名 (成分名) 的條件下,兩種語言模型會因為操作難易度,例如止膿敏比較簡單操作,會表現的比較好嗎?
4. MedGemma 27B比較大表現比較好,我們現有資源與設備有機會升級到這裡嗎?
測試資料請先保留,以學術角度出發,結果產出是中性的,後續分析、整理與解讀可以留下寶貴的經驗喔。
歡迎大家提出想法和回饋喔
如果方便,今天可以跟Wei約個快速討論的時間嗎?以15-30分鐘結束為目標😂
謝謝
@alix2t7 @imtinahsieh @annie84080
alix2t7
2026-03-08 13:56:21
1. 在Trial 10、11再讓模型回答問題前,有引入藥品英文名、成分、劑型、仿單編號等簡單基本資訊給他。但出來的結果約僅只是從百分百幻覺將到九十八幻覺的程度。
2. 沒有測試15個藥品。但有測試上次挑出的9個藥品,止膿敏是其中一項。我大略看了結果,其實Gemma們幻覺的方向、結構都相當一致:從藥名抓一兩個字(例:胰妥讚 就預設是與『胰』島素相關的藥),匹配成相近但非本要的藥物,然後一個勁以該藥物為標的回答五個問題。
3. 我自己看不太出來會不會… 因為大多時候,MedGemma都是認錯藥,甚至捏造一款藥出來的。所以也更難判定兩者在操作說明上的表現。
4. 只要有錢,就有機會… 簡算一下,假設一個月需要120小時的GPU時間,那勉勉強強壓預算也要約 100 USD/m;真的要穩定點,那就是 兩百鎂/月 起跳。但也必須誠實說:1) 對方是經驗非常豐富的工程師;所以我們換模型,不代表就會有同等成果。然後MedGemma有些關鍵的侷限,所以不管要不要升級,我都打算找他請益。2) 與其直上 27B,RAG 可能是舊成本而言更可行的方案;簡單來說,如果 RAG 可以減少八成幻覺,何必花大錢用還有不確定性的大模型呢?
5. 記得有走完的trial更多。但有許多trial是失敗在使用免費的部署資源,系統不穩crach上。但從有成功產出答案的trial來看,所有問題目前的確九成以上是幻覺。
是的!測試資料都會保留。
我今天四點半以前,六點半後都有空。可以隨時私訊我~
2. 沒有測試15個藥品。但有測試上次挑出的9個藥品,止膿敏是其中一項。我大略看了結果,其實Gemma們幻覺的方向、結構都相當一致:從藥名抓一兩個字(例:胰妥讚 就預設是與『胰』島素相關的藥),匹配成相近但非本要的藥物,然後一個勁以該藥物為標的回答五個問題。
3. 我自己看不太出來會不會… 因為大多時候,MedGemma都是認錯藥,甚至捏造一款藥出來的。所以也更難判定兩者在操作說明上的表現。
4. 只要有錢,就有機會… 簡算一下,假設一個月需要120小時的GPU時間,那勉勉強強壓預算也要約 100 USD/m;真的要穩定點,那就是 兩百鎂/月 起跳。但也必須誠實說:1) 對方是經驗非常豐富的工程師;所以我們換模型,不代表就會有同等成果。然後MedGemma有些關鍵的侷限,所以不管要不要升級,我都打算找他請益。2) 與其直上 27B,RAG 可能是舊成本而言更可行的方案;簡單來說,如果 RAG 可以減少八成幻覺,何必花大錢用還有不確定性的大模型呢?
5. 記得有走完的trial更多。但有許多trial是失敗在使用免費的部署資源,系統不穩crach上。但從有成功產出答案的trial來看,所有問題目前的確九成以上是幻覺。
是的!測試資料都會保留。
我今天四點半以前,六點半後都有空。可以隨時私訊我~
Yu Chiang
2026-03-08 15:37:56
為什麼先轉成英文藥名還是會有幻覺~
alix2t7
2026-03-08 16:02:40
兩個原因:
1. 4B 模型爲了輕量化,捨棄很多東西,並將資訊精煉到極致。所以像是「特定特殊藥物的具體使用方式」這樣有限領域特定物品的特定細節,模型反而沒有先備知識。同樣道理也適用在MedGemma的語言能力上;Gemma可全程以繁中回答的問題,MedGemma在同樣參數量(4B=40億)塞了語言能力、又塞了醫療知識,可以想見MedGemma的語言能力是會較差的。
2. MedGemma特化方向是醫療圖像(X光片等)及醫療文獻(論文、病歷)。單純藥物的知識,反而不是他有受過特訓的項目。所以強行要求他以極少的不熟悉資訊(藥名)推衍答案,模型其實是在做盲答,幻覺就無可避免。
1. 4B 模型爲了輕量化,捨棄很多東西,並將資訊精煉到極致。所以像是「特定特殊藥物的具體使用方式」這樣有限領域特定物品的特定細節,模型反而沒有先備知識。同樣道理也適用在MedGemma的語言能力上;Gemma可全程以繁中回答的問題,MedGemma在同樣參數量(4B=40億)塞了語言能力、又塞了醫療知識,可以想見MedGemma的語言能力是會較差的。
2. MedGemma特化方向是醫療圖像(X光片等)及醫療文獻(論文、病歷)。單純藥物的知識,反而不是他有受過特訓的項目。所以強行要求他以極少的不熟悉資訊(藥名)推衍答案,模型其實是在做盲答,幻覺就無可避免。
alix2t7
2026-03-08 16:15:46
補充一下:
為了去掉「語言」這個實驗變因,我有用純英文測了兩個模型。目前結論是指向:無論 Gemma 3 或 MedGemma 1.5,在藥品回答上都沒有及格表現(=兩個模型都沒有藥品知識)。然後 MedGemma 因為有做過安全特訓,所以一些問題會以安全為由拒答——或更糟的,直接開始講gibberish。
完整報告我會再要AI整理下。但這看似失敗的結果,我覺得蠻有實證價值的!
為了去掉「語言」這個實驗變因,我有用純英文測了兩個模型。目前結論是指向:無論 Gemma 3 或 MedGemma 1.5,在藥品回答上都沒有及格表現(=兩個模型都沒有藥品知識)。然後 MedGemma 因為有做過安全特訓,所以一些問題會以安全為由拒答——或更糟的,直接開始講gibberish。
完整報告我會再要AI整理下。但這看似失敗的結果,我覺得蠻有實證價值的!
alix2t7
22:51:38
嗨~大家,跟各位更新一下模型的狀況:
• Gemma 3 4B 與 MedGemma 1.5 4B 因為模型本身小,又是英文母語,所以 *認不出任何台灣藥品的名字 ;*意即,丟藥品問題給他們,他們都只會幻想回答給你,*毫無正確性* 可言。相關的問答結果,可參見:https://drive.google.com/drive/folders/1HtZQ8R9ptmI96ld9O_XCXwgAX-s35dkP?usp=sharing
• 有去測了下別人部署的 MedGemma 27B。因為模型大,所以它可以對接台灣的藥品資料庫,是認得出台灣藥品的。另外有用艾敏釋測試了下,該模型還是會有差錯及微小的幻覺。
• 目前正在用英文裸測 Gemma 3 4B 與 MedGemma 1.5 4B,期望能真的測出兩者在藥品問題上,誰回答得更好。
結論:要解決我們使用的小模型幻覺問題,RAG 勢在必行;預計可解決他們不認得台灣藥品的問題。
我與 @gosienna 會盡快將 RAG 完成~:saluting_face:
p.s. 有借用了甘蔗汁gmail帳號的免費GPU額度來測試… 所以現在他的硬碟裡放了顆模型,有點滿。如果有大容量需求的話,敬請刪掉沒關係~XDD
• Gemma 3 4B 與 MedGemma 1.5 4B 因為模型本身小,又是英文母語,所以 *認不出任何台灣藥品的名字 ;*意即,丟藥品問題給他們,他們都只會幻想回答給你,*毫無正確性* 可言。相關的問答結果,可參見:https://drive.google.com/drive/folders/1HtZQ8R9ptmI96ld9O_XCXwgAX-s35dkP?usp=sharing
• 有去測了下別人部署的 MedGemma 27B。因為模型大,所以它可以對接台灣的藥品資料庫,是認得出台灣藥品的。另外有用艾敏釋測試了下,該模型還是會有差錯及微小的幻覺。
• 目前正在用英文裸測 Gemma 3 4B 與 MedGemma 1.5 4B,期望能真的測出兩者在藥品問題上,誰回答得更好。
結論:要解決我們使用的小模型幻覺問題,RAG 勢在必行;預計可解決他們不認得台灣藥品的問題。
我與 @gosienna 會盡快將 RAG 完成~:saluting_face:
p.s. 有借用了甘蔗汁gmail帳號的免費GPU額度來測試… 所以現在他的硬碟裡放了顆模型,有點滿。如果有大容量需求的話,敬請刪掉沒關係~XDD
- 👍1
JC Wung
2026-03-08 05:52:35
謝謝Wei和ke-wei的用心努力
跨專業不懂亂問😂
1. 如果prompt不只給中文商品名,同時提供英文商品名、英文學名 (成分名,仿單資料庫的對應欄位),結果會改善嗎?
2. 15個藥品有全部測試嗎?有些近年才上市的藥-胰妥讚,會不會還沒在Gemma或MedGemma內有的資料庫呢?優泌樂筆、使肺泰、止膿敏上市比較久,會不會回答的問題表現比較好呢?
3. 在提供英文商品名、英文學名 (成分名) 的條件下,兩種語言模型會因為操作難易度,例如止膿敏比較簡單操作,會表現的比較好嗎?
4. MedGemma 27B比較大表現比較好,我們現有資源與設備有機會升級到這裡嗎?
測試資料請先保留,以學術角度出發,結果產出是中性的,後續分析、整理與解讀可以留下寶貴的經驗喔。
歡迎大家提出想法和回饋喔
如果方便,今天可以跟Wei約個快速討論的時間嗎?以15-30分鐘結束為目標😂
謝謝
@alix2t7 @imtinahsieh @annie84080
跨專業不懂亂問😂
1. 如果prompt不只給中文商品名,同時提供英文商品名、英文學名 (成分名,仿單資料庫的對應欄位),結果會改善嗎?
2. 15個藥品有全部測試嗎?有些近年才上市的藥-胰妥讚,會不會還沒在Gemma或MedGemma內有的資料庫呢?優泌樂筆、使肺泰、止膿敏上市比較久,會不會回答的問題表現比較好呢?
3. 在提供英文商品名、英文學名 (成分名) 的條件下,兩種語言模型會因為操作難易度,例如止膿敏比較簡單操作,會表現的比較好嗎?
4. MedGemma 27B比較大表現比較好,我們現有資源與設備有機會升級到這裡嗎?
測試資料請先保留,以學術角度出發,結果產出是中性的,後續分析、整理與解讀可以留下寶貴的經驗喔。
歡迎大家提出想法和回饋喔
如果方便,今天可以跟Wei約個快速討論的時間嗎?以15-30分鐘結束為目標😂
謝謝
@alix2t7 @imtinahsieh @annie84080
alix2t7
2026-03-08 13:56:21
1. 在Trial 10、11再讓模型回答問題前,有引入藥品英文名、成分、劑型、仿單編號等簡單基本資訊給他。但出來的結果約僅只是從百分百幻覺將到九十八幻覺的程度。
2. 沒有測試15個藥品。但有測試上次挑出的9個藥品,止膿敏是其中一項。我大略看了結果,其實Gemma們幻覺的方向、結構都相當一致:從藥名抓一兩個字(例:胰妥讚 就預設是與『胰』島素相關的藥),匹配成相近但非本要的藥物,然後一個勁以該藥物為標的回答五個問題。
3. 我自己看不太出來會不會… 因為大多時候,MedGemma都是認錯藥,甚至捏造一款藥出來的。所以也更難判定兩者在操作說明上的表現。
4. 只要有錢,就有機會… 簡算一下,假設一個月需要120小時的GPU時間,那勉勉強強壓預算也要約 100 USD/m;真的要穩定點,那就是 兩百鎂/月 起跳。但也必須誠實說:1) 對方是經驗非常豐富的工程師;所以我們換模型,不代表就會有同等成果。然後MedGemma有些關鍵的侷限,所以不管要不要升級,我都打算找他請益。2) 與其直上 27B,RAG 可能是舊成本而言更可行的方案;簡單來說,如果 RAG 可以減少八成幻覺,何必花大錢用還有不確定性的大模型呢?
5. 記得有走完的trial更多。但有許多trial是失敗在使用免費的部署資源,系統不穩crach上。但從有成功產出答案的trial來看,所有問題目前的確九成以上是幻覺。
是的!測試資料都會保留。
我今天四點半以前,六點半後都有空。可以隨時私訊我~
2. 沒有測試15個藥品。但有測試上次挑出的9個藥品,止膿敏是其中一項。我大略看了結果,其實Gemma們幻覺的方向、結構都相當一致:從藥名抓一兩個字(例:胰妥讚 就預設是與『胰』島素相關的藥),匹配成相近但非本要的藥物,然後一個勁以該藥物為標的回答五個問題。
3. 我自己看不太出來會不會… 因為大多時候,MedGemma都是認錯藥,甚至捏造一款藥出來的。所以也更難判定兩者在操作說明上的表現。
4. 只要有錢,就有機會… 簡算一下,假設一個月需要120小時的GPU時間,那勉勉強強壓預算也要約 100 USD/m;真的要穩定點,那就是 兩百鎂/月 起跳。但也必須誠實說:1) 對方是經驗非常豐富的工程師;所以我們換模型,不代表就會有同等成果。然後MedGemma有些關鍵的侷限,所以不管要不要升級,我都打算找他請益。2) 與其直上 27B,RAG 可能是舊成本而言更可行的方案;簡單來說,如果 RAG 可以減少八成幻覺,何必花大錢用還有不確定性的大模型呢?
5. 記得有走完的trial更多。但有許多trial是失敗在使用免費的部署資源,系統不穩crach上。但從有成功產出答案的trial來看,所有問題目前的確九成以上是幻覺。
是的!測試資料都會保留。
我今天四點半以前,六點半後都有空。可以隨時私訊我~
Yu Chiang
2026-03-08 15:37:56
為什麼先轉成英文藥名還是會有幻覺~
alix2t7
2026-03-08 16:02:40
兩個原因:
1. 4B 模型爲了輕量化,捨棄很多東西,並將資訊精煉到極致。所以像是「特定特殊藥物的具體使用方式」這樣有限領域特定物品的特定細節,模型反而沒有先備知識。同樣道理也適用在MedGemma的語言能力上;Gemma可全程以繁中回答的問題,MedGemma在同樣參數量(4B=40億)塞了語言能力、又塞了醫療知識,可以想見MedGemma的語言能力是會較差的。
2. MedGemma特化方向是醫療圖像(X光片等)及醫療文獻(論文、病歷)。單純藥物的知識,反而不是他有受過特訓的項目。所以強行要求他以極少的不熟悉資訊(藥名)推衍答案,模型其實是在做盲答,幻覺就無可避免。
1. 4B 模型爲了輕量化,捨棄很多東西,並將資訊精煉到極致。所以像是「特定特殊藥物的具體使用方式」這樣有限領域特定物品的特定細節,模型反而沒有先備知識。同樣道理也適用在MedGemma的語言能力上;Gemma可全程以繁中回答的問題,MedGemma在同樣參數量(4B=40億)塞了語言能力、又塞了醫療知識,可以想見MedGemma的語言能力是會較差的。
2. MedGemma特化方向是醫療圖像(X光片等)及醫療文獻(論文、病歷)。單純藥物的知識,反而不是他有受過特訓的項目。所以強行要求他以極少的不熟悉資訊(藥名)推衍答案,模型其實是在做盲答,幻覺就無可避免。
alix2t7
2026-03-08 16:15:46
補充一下:
為了去掉「語言」這個實驗變因,我有用純英文測了兩個模型。目前結論是指向:無論 Gemma 3 或 MedGemma 1.5,在藥品回答上都沒有及格表現(=兩個模型都沒有藥品知識)。然後 MedGemma 因為有做過安全特訓,所以一些問題會以安全為由拒答——或更糟的,直接開始講gibberish。
完整報告我會再要AI整理下。但這看似失敗的結果,我覺得蠻有實證價值的!
為了去掉「語言」這個實驗變因,我有用純英文測了兩個模型。目前結論是指向:無論 Gemma 3 或 MedGemma 1.5,在藥品回答上都沒有及格表現(=兩個模型都沒有藥品知識)。然後 MedGemma 因為有做過安全特訓,所以一些問題會以安全為由拒答——或更糟的,直接開始講gibberish。
完整報告我會再要AI整理下。但這看似失敗的結果,我覺得蠻有實證價值的!
2026-03-08
JC Wung
05:52:35
謝謝Wei和ke-wei的用心努力
跨專業不懂亂問😂
1. 如果prompt不只給中文商品名,同時提供英文商品名、英文學名 (成分名,仿單資料庫的對應欄位),結果會改善嗎?
2. 15個藥品有全部測試嗎?有些近年才上市的藥-胰妥讚,會不會還沒在Gemma或MedGemma內有的資料庫呢?優泌樂筆、使肺泰、止膿敏上市比較久,會不會回答的問題表現比較好呢?
3. 在提供英文商品名、英文學名 (成分名) 的條件下,兩種語言模型會因為操作難易度,例如止膿敏比較簡單操作,會表現的比較好嗎?
4. MedGemma 27B比較大表現比較好,我們現有資源與設備有機會升級到這裡嗎?
測試資料請先保留,以學術角度出發,結果產出是中性的,後續分析、整理與解讀可以留下寶貴的經驗喔。
歡迎大家提出想法和回饋喔
如果方便,今天可以跟Wei約個快速討論的時間嗎?以15-30分鐘結束為目標😂
謝謝
@alix2t7 @imtinahsieh @annie84080
跨專業不懂亂問😂
1. 如果prompt不只給中文商品名,同時提供英文商品名、英文學名 (成分名,仿單資料庫的對應欄位),結果會改善嗎?
2. 15個藥品有全部測試嗎?有些近年才上市的藥-胰妥讚,會不會還沒在Gemma或MedGemma內有的資料庫呢?優泌樂筆、使肺泰、止膿敏上市比較久,會不會回答的問題表現比較好呢?
3. 在提供英文商品名、英文學名 (成分名) 的條件下,兩種語言模型會因為操作難易度,例如止膿敏比較簡單操作,會表現的比較好嗎?
4. MedGemma 27B比較大表現比較好,我們現有資源與設備有機會升級到這裡嗎?
測試資料請先保留,以學術角度出發,結果產出是中性的,後續分析、整理與解讀可以留下寶貴的經驗喔。
歡迎大家提出想法和回饋喔
如果方便,今天可以跟Wei約個快速討論的時間嗎?以15-30分鐘結束為目標😂
謝謝
@alix2t7 @imtinahsieh @annie84080
alix2t7
13:56:21
1. 在Trial 10、11再讓模型回答問題前,有引入藥品英文名、成分、劑型、仿單編號等簡單基本資訊給他。但出來的結果約僅只是從百分百幻覺將到九十八幻覺的程度。
2. 沒有測試15個藥品。但有測試上次挑出的9個藥品,止膿敏是其中一項。我大略看了結果,其實Gemma們幻覺的方向、結構都相當一致:從藥名抓一兩個字(例:胰妥讚 就預設是與『胰』島素相關的藥),匹配成相近但非本要的藥物,然後一個勁以該藥物為標的回答五個問題。
3. 我自己看不太出來會不會… 因為大多時候,MedGemma都是認錯藥,甚至捏造一款藥出來的。所以也更難判定兩者在操作說明上的表現。
4. 只要有錢,就有機會… 簡算一下,假設一個月需要120小時的GPU時間,那勉勉強強壓預算也要約 100 USD/m;真的要穩定點,那就是 兩百鎂/月 起跳。但也必須誠實說:1) 對方是經驗非常豐富的工程師;所以我們換模型,不代表就會有同等成果。然後MedGemma有些關鍵的侷限,所以不管要不要升級,我都打算找他請益。2) 與其直上 27B,RAG 可能是舊成本而言更可行的方案;簡單來說,如果 RAG 可以減少八成幻覺,何必花大錢用還有不確定性的大模型呢?
5. 記得有走完的trial更多。但有許多trial是失敗在使用免費的部署資源,系統不穩crach上。但從有成功產出答案的trial來看,所有問題目前的確九成以上是幻覺。
是的!測試資料都會保留。
我今天四點半以前,六點半後都有空。可以隨時私訊我~
2. 沒有測試15個藥品。但有測試上次挑出的9個藥品,止膿敏是其中一項。我大略看了結果,其實Gemma們幻覺的方向、結構都相當一致:從藥名抓一兩個字(例:胰妥讚 就預設是與『胰』島素相關的藥),匹配成相近但非本要的藥物,然後一個勁以該藥物為標的回答五個問題。
3. 我自己看不太出來會不會… 因為大多時候,MedGemma都是認錯藥,甚至捏造一款藥出來的。所以也更難判定兩者在操作說明上的表現。
4. 只要有錢,就有機會… 簡算一下,假設一個月需要120小時的GPU時間,那勉勉強強壓預算也要約 100 USD/m;真的要穩定點,那就是 兩百鎂/月 起跳。但也必須誠實說:1) 對方是經驗非常豐富的工程師;所以我們換模型,不代表就會有同等成果。然後MedGemma有些關鍵的侷限,所以不管要不要升級,我都打算找他請益。2) 與其直上 27B,RAG 可能是舊成本而言更可行的方案;簡單來說,如果 RAG 可以減少八成幻覺,何必花大錢用還有不確定性的大模型呢?
5. 記得有走完的trial更多。但有許多trial是失敗在使用免費的部署資源,系統不穩crach上。但從有成功產出答案的trial來看,所有問題目前的確九成以上是幻覺。
是的!測試資料都會保留。
我今天四點半以前,六點半後都有空。可以隨時私訊我~
Yu Chiang
15:37:56
為什麼先轉成英文藥名還是會有幻覺~
Yu Chiang
15:39:58
如果之後我們也導入食藥署官方服務,是不是也應該也考慮健康存摺為接觸點
JC Wung
15:48:21
很希望啊
我們先努力一陣子 💪
我們先努力一陣子 💪
alix2t7
16:02:40
兩個原因:
1. 4B 模型爲了輕量化,捨棄很多東西,並將資訊精煉到極致。所以像是「特定特殊藥物的具體使用方式」這樣有限領域特定物品的特定細節,模型反而沒有先備知識。同樣道理也適用在MedGemma的語言能力上;Gemma可全程以繁中回答的問題,MedGemma在同樣參數量(4B=40億)塞了語言能力、又塞了醫療知識,可以想見MedGemma的語言能力是會較差的。
2. MedGemma特化方向是醫療圖像(X光片等)及醫療文獻(論文、病歷)。單純藥物的知識,反而不是他有受過特訓的項目。所以強行要求他以極少的不熟悉資訊(藥名)推衍答案,模型其實是在做盲答,幻覺就無可避免。
1. 4B 模型爲了輕量化,捨棄很多東西,並將資訊精煉到極致。所以像是「特定特殊藥物的具體使用方式」這樣有限領域特定物品的特定細節,模型反而沒有先備知識。同樣道理也適用在MedGemma的語言能力上;Gemma可全程以繁中回答的問題,MedGemma在同樣參數量(4B=40億)塞了語言能力、又塞了醫療知識,可以想見MedGemma的語言能力是會較差的。
2. MedGemma特化方向是醫療圖像(X光片等)及醫療文獻(論文、病歷)。單純藥物的知識,反而不是他有受過特訓的項目。所以強行要求他以極少的不熟悉資訊(藥名)推衍答案,模型其實是在做盲答,幻覺就無可避免。
alix2t7
16:15:46
補充一下:
為了去掉「語言」這個實驗變因,我有用純英文測了兩個模型。目前結論是指向:無論 Gemma 3 或 MedGemma 1.5,在藥品回答上都沒有及格表現(=兩個模型都沒有藥品知識)。然後 MedGemma 因為有做過安全特訓,所以一些問題會以安全為由拒答——或更糟的,直接開始講gibberish。
完整報告我會再要AI整理下。但這看似失敗的結果,我覺得蠻有實證價值的!
為了去掉「語言」這個實驗變因,我有用純英文測了兩個模型。目前結論是指向:無論 Gemma 3 或 MedGemma 1.5,在藥品回答上都沒有及格表現(=兩個模型都沒有藥品知識)。然後 MedGemma 因為有做過安全特訓,所以一些問題會以安全為由拒答——或更糟的,直接開始講gibberish。
完整報告我會再要AI整理下。但這看似失敗的結果,我覺得蠻有實證價值的!
2026-03-12
alix2t7
14:31:24
今年LLM在醫療領域的幾個重要進展:
• Google 實驗室的 AMIE 被用在心臟次專科(比單純心臟科更專精的子專科)醫師的診斷、治療決策輔助上,*直接接觸極為專業化的臨床實務*。有 AMIE 輔助的次專科醫師,確切指出 AMIE 顯著提升他們的決策品質。O’Sullivan et al., 2026
• 哈佛同樣將 AMIE,局部運用在急診門診的診斷上;應為有嚴謹審核的論文中,首次記載的 *LLM於臨床情境直接以文字與病人接觸互動*。安全性上100組僅有3組觸發審核人員輕微備註,參與對話之患者明顯對 AI 好感提升。目前成本與可行性雖不如真人醫師,但指出了 LLM 的確有處理第一線臨床需求的潛力。Brodeur et al., 2026
• 猶他州與 Doctronic 公司合作,全面開放 *AI 在沒有醫師審核情況下提供慢性病藥物的續領處方簽*。雖然此項成果目前還未有足夠同儕審核認可(aka 沒論文發表),但在法規、醫療責任、過失保險與 AI 醫療上,立下了應用的先例。
暫時還沒想到這些進展對與我們的計劃會有什麼樣的影響,但不管是論文撰寫、應用設計、落地經驗上,這些資訊似乎都有很高的參考價值!🤔
https://www.facebook.com/share/p/1C2r2RGeP8/
• Google 實驗室的 AMIE 被用在心臟次專科(比單純心臟科更專精的子專科)醫師的診斷、治療決策輔助上,*直接接觸極為專業化的臨床實務*。有 AMIE 輔助的次專科醫師,確切指出 AMIE 顯著提升他們的決策品質。O’Sullivan et al., 2026
• 哈佛同樣將 AMIE,局部運用在急診門診的診斷上;應為有嚴謹審核的論文中,首次記載的 *LLM於臨床情境直接以文字與病人接觸互動*。安全性上100組僅有3組觸發審核人員輕微備註,參與對話之患者明顯對 AI 好感提升。目前成本與可行性雖不如真人醫師,但指出了 LLM 的確有處理第一線臨床需求的潛力。Brodeur et al., 2026
• 猶他州與 Doctronic 公司合作,全面開放 *AI 在沒有醫師審核情況下提供慢性病藥物的續領處方簽*。雖然此項成果目前還未有足夠同儕審核認可(aka 沒論文發表),但在法規、醫療責任、過失保險與 AI 醫療上,立下了應用的先例。
暫時還沒想到這些進展對與我們的計劃會有什麼樣的影響,但不管是論文撰寫、應用設計、落地經驗上,這些資訊似乎都有很高的參考價值!🤔
https://www.facebook.com/share/p/1C2r2RGeP8/
facebook.com
2026年,醫療生成式 AI 反曲點(Inflection point)的三個訊號 2024 年醫療生成式 AI 的話題圍繞在「LLM 能不能通過醫學考試」,2025 年見證了生成式 AI 以 Ambient scribe 為切入點,大規模地在醫院落地,2026年,我們將見證另一個重要的反曲點。 2026 年 Q1 的三個重要訊號:LLM 的臨床隨機對照試驗(RCT)開始出現、LLM...
alix2t7
14:31:24
今年LLM在醫療領域的幾個重要進展:
• Google 實驗室的 AMIE 被用在心臟次專科(比單純心臟科更專精的子專科)醫師的診斷、治療決策輔助上,*直接接觸極為專業化的臨床實務*。有 AMIE 輔助的次專科醫師,確切指出 AMIE 顯著提升他們的決策品質。O’Sullivan et al., 2026
• 哈佛同樣將 AMIE,局部運用在急診門診的診斷上;應為有嚴謹審核的論文中,首次記載的 *LLM於臨床情境直接以文字與病人接觸互動*。安全性上100組僅有3組觸發審核人員輕微備註,參與對話之患者明顯對 AI 好感提升。目前成本與可行性雖不如真人醫師,但指出了 LLM 的確有處理第一線臨床需求的潛力。Brodeur et al., 2026
• 猶他州與 Doctronic 公司合作,全面開放 *AI 在沒有醫師審核情況下提供慢性病藥物的續領處方簽*。雖然此項成果目前還未有足夠同儕審核認可(aka 沒論文發表),但在法規、醫療責任、過失保險與 AI 醫療上,立下了應用的先例。
暫時還沒想到這些進展對與我們的計劃會有什麼樣的影響,但不管是論文撰寫、應用設計、落地經驗上,這些資訊似乎都有很高的參考價值!🤔
https://www.facebook.com/share/p/1C2r2RGeP8/
• Google 實驗室的 AMIE 被用在心臟次專科(比單純心臟科更專精的子專科)醫師的診斷、治療決策輔助上,*直接接觸極為專業化的臨床實務*。有 AMIE 輔助的次專科醫師,確切指出 AMIE 顯著提升他們的決策品質。O’Sullivan et al., 2026
• 哈佛同樣將 AMIE,局部運用在急診門診的診斷上;應為有嚴謹審核的論文中,首次記載的 *LLM於臨床情境直接以文字與病人接觸互動*。安全性上100組僅有3組觸發審核人員輕微備註,參與對話之患者明顯對 AI 好感提升。目前成本與可行性雖不如真人醫師,但指出了 LLM 的確有處理第一線臨床需求的潛力。Brodeur et al., 2026
• 猶他州與 Doctronic 公司合作,全面開放 *AI 在沒有醫師審核情況下提供慢性病藥物的續領處方簽*。雖然此項成果目前還未有足夠同儕審核認可(aka 沒論文發表),但在法規、醫療責任、過失保險與 AI 醫療上,立下了應用的先例。
暫時還沒想到這些進展對與我們的計劃會有什麼樣的影響,但不管是論文撰寫、應用設計、落地經驗上,這些資訊似乎都有很高的參考價值!🤔
https://www.facebook.com/share/p/1C2r2RGeP8/
facebook.com
2026年,醫療生成式 AI 反曲點(Inflection point)的三個訊號 2024 年醫療生成式 AI 的話題圍繞在「LLM 能不能通過醫學考試」,2025 年見證了生成式 AI 以 Ambient scribe 為切入點,大規模地在醫院落地,2026年,我們將見證另一個重要的反曲點。 2026 年 Q1 的三個重要訊號:LLM 的臨床隨機對照試驗(RCT)開始出現、LLM...
- 👍2
- 💡1
1
2026-03-21
JC Wung
13:24:04
3/22 (日) 8pm 甘蔗汁會議
大家好
3/22 (日) 晚上8-9點半是甘蔗汁會議,歡迎頻道的每一位朋友一起來榨甘蔗汁。
有想分享或討論的事,可以先回覆本訊息,方便 Ann 安排會議喔,謝謝☺️
p.s. 麻煩 Wei 揪好友參加唷
@imtinahsieh @annie84080 @alix2t7 @yomokan1991 @yu850709 @kuanwei.dev
甘蔗汁會議
3月22日 星期日 · 下午8時 - 9:30
如何加入 Google Meet 會議
視訊通話連結:https://meet.google.com/vfn-qfmu-egh
或撥打下列電話號碼:<tel:+13049689298|+1 304-968-9298> PIN 碼:547214555
大家好
3/22 (日) 晚上8-9點半是甘蔗汁會議,歡迎頻道的每一位朋友一起來榨甘蔗汁。
有想分享或討論的事,可以先回覆本訊息,方便 Ann 安排會議喔,謝謝☺️
p.s. 麻煩 Wei 揪好友參加唷
@imtinahsieh @annie84080 @alix2t7 @yomokan1991 @yu850709 @kuanwei.dev
甘蔗汁會議
3月22日 星期日 · 下午8時 - 9:30
如何加入 Google Meet 會議
視訊通話連結:https://meet.google.com/vfn-qfmu-egh
或撥打下列電話號碼:<tel:+13049689298|+1 304-968-9298> PIN 碼:547214555
JC Wung
2026-03-21 15:38:48
先做1個藥品的專家評估表單,若要試用,名字可以輸入test、本名或暱稱都可以☺️
想徵詢使用上是否友善 (評估流程是否順暢、閱讀是否順眼等),調整後再發給專家評分唷~
https://forms.gle/9nswCpJvKArMU1x46
https://forms.gle/o4bh2x71FbPBzcDL8
想徵詢使用上是否友善 (評估流程是否順暢、閱讀是否順眼等),調整後再發給專家評分唷~
https://forms.gle/9nswCpJvKArMU1x46
https://forms.gle/o4bh2x71FbPBzcDL8
Shaoyu Lee
2026-03-21 19:44:23
各位抱歉,我週日晚上有工作安排,所以這週需要請假一次QQ,祝會議順利🙏
yomokan1991
2026-03-21 22:44:30
抱歉我明天晚上要上班,所以先pass,辛苦大家了
已開好會議記錄,若有進度可以先上傳,我們這次優先討論 4/12 POC 的內容~
Yu Chiang
2026-03-22 19:41:51
等等會先用手機參加,晚點才到家(北返塞車中)
alix2t7
2026-03-22 19:44:14
• 模型開發狀態更新
◦ 04.12 PoC:掛有RAG的模型回答已準備好,交給JC做成專家評分問卷。
◦ 模型裸測:4B 大小的 Gemma3 及 MedGemma1.5 無法認出藥品在台灣使用的商品名,以致回答皆為模型各自原生知識構成(可視為:4B 裸測的回答皆為幻覺)。
◦ RAG掛載:TFDA 官版的 xml 轉為RAG吃的 md 格式順利完成。實測兩模型九項藥品皆可以認出,但回答正確性、完整性、實用性皆仍待提升。產出了什麼答案,可參考JC的兩份表格,或 Model Training 資料夾下 RAG_building 資料夾。
◦ *沒有xml格式的仿單*: @gosienna 有提出以appscript+Google Doc 將 PDF 轉成純文字的方案。另外,此前測試過的 OCR(類似將 PDF 圖轉文)方案,也可作爲備案。但這兩者是否適合進行大量仿單處理?會遇上什麼問題?測試後才會知道。
◦ 仿單中的*圖示*、*化學式*處理:與 ke-wei 討論後,此兩者目前技術要求過高,暫時延後處理。可能以前述兩方案,也可能以其他待發掘之新方式處理。
◦ 04.12 PoC:掛有RAG的模型回答已準備好,交給JC做成專家評分問卷。
◦ 模型裸測:4B 大小的 Gemma3 及 MedGemma1.5 無法認出藥品在台灣使用的商品名,以致回答皆為模型各自原生知識構成(可視為:4B 裸測的回答皆為幻覺)。
◦ RAG掛載:TFDA 官版的 xml 轉為RAG吃的 md 格式順利完成。實測兩模型九項藥品皆可以認出,但回答正確性、完整性、實用性皆仍待提升。產出了什麼答案,可參考JC的兩份表格,或 Model Training 資料夾下 RAG_building 資料夾。
◦ *沒有xml格式的仿單*: @gosienna 有提出以appscript+Google Doc 將 PDF 轉成純文字的方案。另外,此前測試過的 OCR(類似將 PDF 圖轉文)方案,也可作爲備案。但這兩者是否適合進行大量仿單處理?會遇上什麼問題?測試後才會知道。
◦ 仿單中的*圖示*、*化學式*處理:與 ke-wei 討論後,此兩者目前技術要求過高,暫時延後處理。可能以前述兩方案,也可能以其他待發掘之新方式處理。
JC Wung
13:24:04
3/22 (日) 8pm 甘蔗汁會議
大家好
3/22 (日) 晚上8-9點半是甘蔗汁會議,歡迎頻道的每一位朋友一起來榨甘蔗汁。
有想分享或討論的事,可以先回覆本訊息,方便 Ann 安排會議喔,謝謝☺️
p.s. 麻煩 Wei 揪好友參加唷
@imtinahsieh @annie84080 @alix2t7 @yomokan1991 @yu850709 @kuanwei.dev
甘蔗汁會議
3月22日 星期日 · 下午8時 - 9:30
如何加入 Google Meet 會議
視訊通話連結:https://meet.google.com/vfn-qfmu-egh
或撥打下列電話號碼:<tel:+13049689298|+1 304-968-9298> PIN 碼:547214555
大家好
3/22 (日) 晚上8-9點半是甘蔗汁會議,歡迎頻道的每一位朋友一起來榨甘蔗汁。
有想分享或討論的事,可以先回覆本訊息,方便 Ann 安排會議喔,謝謝☺️
p.s. 麻煩 Wei 揪好友參加唷
@imtinahsieh @annie84080 @alix2t7 @yomokan1991 @yu850709 @kuanwei.dev
甘蔗汁會議
3月22日 星期日 · 下午8時 - 9:30
如何加入 Google Meet 會議
視訊通話連結:https://meet.google.com/vfn-qfmu-egh
或撥打下列電話號碼:<tel:+13049689298|+1 304-968-9298> PIN 碼:547214555
meet.google.com
Real-time meetings by Google. Using your browser, share your video, desktop, and presentations with teammates and customers.
- 🙌2
1
JC Wung
2026-03-21 15:38:48
先做1個藥品的專家評估表單,若要試用,名字可以輸入test、本名或暱稱都可以☺️
想徵詢使用上是否友善 (評估流程是否順暢、閱讀是否順眼等),調整後再發給專家評分唷~
https://forms.gle/9nswCpJvKArMU1x46
https://forms.gle/o4bh2x71FbPBzcDL8
想徵詢使用上是否友善 (評估流程是否順暢、閱讀是否順眼等),調整後再發給專家評分唷~
https://forms.gle/9nswCpJvKArMU1x46
https://forms.gle/o4bh2x71FbPBzcDL8
Shaoyu Lee
2026-03-21 19:44:23
各位抱歉,我週日晚上有工作安排,所以這週需要請假一次QQ,祝會議順利🙏
yomokan1991
2026-03-21 22:44:30
抱歉我明天晚上要上班,所以先pass,辛苦大家了
已開好會議記錄,若有進度可以先上傳,我們這次優先討論 4/12 POC 的內容~
Yu Chiang
2026-03-22 19:41:51
等等會先用手機參加,晚點才到家(北返塞車中)
alix2t7
2026-03-22 19:44:14
• 模型開發狀態更新
◦ 04.12 PoC:掛有RAG的模型回答已準備好,交給JC做成專家評分問卷。
◦ 模型裸測:4B 大小的 Gemma3 及 MedGemma1.5 無法認出藥品在台灣使用的商品名,以致回答皆為模型各自原生知識構成(可視為:4B 裸測的回答皆為幻覺)。
◦ RAG掛載:TFDA 官版的 xml 轉為RAG吃的 md 格式順利完成。實測兩模型九項藥品皆可以認出,但回答正確性、完整性、實用性皆仍待提升。產出了什麼答案,可參考JC的兩份表格,或 Model Training 資料夾下 RAG_building 資料夾。
◦ *沒有xml格式的仿單*: @gosienna 有提出以appscript+Google Doc 將 PDF 轉成純文字的方案。另外,此前測試過的 OCR(類似將 PDF 圖轉文)方案,也可作爲備案。但這兩者是否適合進行大量仿單處理?會遇上什麼問題?測試後才會知道。
◦ 仿單中的*圖示*、*化學式*處理:與 ke-wei 討論後,此兩者目前技術要求過高,暫時延後處理。可能以前述兩方案,也可能以其他待發掘之新方式處理。
◦ 04.12 PoC:掛有RAG的模型回答已準備好,交給JC做成專家評分問卷。
◦ 模型裸測:4B 大小的 Gemma3 及 MedGemma1.5 無法認出藥品在台灣使用的商品名,以致回答皆為模型各自原生知識構成(可視為:4B 裸測的回答皆為幻覺)。
◦ RAG掛載:TFDA 官版的 xml 轉為RAG吃的 md 格式順利完成。實測兩模型九項藥品皆可以認出,但回答正確性、完整性、實用性皆仍待提升。產出了什麼答案,可參考JC的兩份表格,或 Model Training 資料夾下 RAG_building 資料夾。
◦ *沒有xml格式的仿單*: @gosienna 有提出以appscript+Google Doc 將 PDF 轉成純文字的方案。另外,此前測試過的 OCR(類似將 PDF 圖轉文)方案,也可作爲備案。但這兩者是否適合進行大量仿單處理?會遇上什麼問題?測試後才會知道。
◦ 仿單中的*圖示*、*化學式*處理:與 ke-wei 討論後,此兩者目前技術要求過高,暫時延後處理。可能以前述兩方案,也可能以其他待發掘之新方式處理。
JC Wung
15:38:48
先做1個藥品的專家評估表單,若要試用,名字可以輸入test、本名或暱稱都可以☺️
想徵詢使用上是否友善 (評估流程是否順暢、閱讀是否順眼等),調整後再發給專家評分唷~
https://forms.gle/9nswCpJvKArMU1x46
https://forms.gle/o4bh2x71FbPBzcDL8
想徵詢使用上是否友善 (評估流程是否順暢、閱讀是否順眼等),調整後再發給專家評分唷~
https://forms.gle/9nswCpJvKArMU1x46
https://forms.gle/o4bh2x71FbPBzcDL8
Shaoyu Lee
19:44:23
各位抱歉,我週日晚上有工作安排,所以這週需要請假一次QQ,祝會議順利🙏
yomokan1991
22:44:30
抱歉我明天晚上要上班,所以先pass,辛苦大家了
2026-03-22
Ann
18:20:56
已開好會議記錄,若有進度可以先上傳,我們這次優先討論 4/12 POC 的內容~
Yu Chiang
19:41:51
等等會先用手機參加,晚點才到家(北返塞車中)
alix2t7
19:44:14
• 模型開發狀態更新
◦ 04.12 PoC:掛有RAG的模型回答已準備好,交給JC做成專家評分問卷。
◦ 模型裸測:4B 大小的 Gemma3 及 MedGemma1.5 無法認出藥品在台灣使用的商品名,以致回答皆為模型各自原生知識構成(可視為:4B 裸測的回答皆為幻覺)。
◦ RAG掛載:TFDA 官版的 xml 轉為RAG吃的 md 格式順利完成。實測兩模型九項藥品皆可以認出,但回答正確性、完整性、實用性皆仍待提升。產出了什麼答案,可參考JC的兩份表格,或 Model Training 資料夾下 RAG_building 資料夾。
◦ *沒有xml格式的仿單*: @gosienna 有提出以appscript+Google Doc 將 PDF 轉成純文字的方案。另外,此前測試過的 OCR(類似將 PDF 圖轉文)方案,也可作爲備案。但這兩者是否適合進行大量仿單處理?會遇上什麼問題?測試後才會知道。
◦ 仿單中的*圖示*、*化學式*處理:與 ke-wei 討論後,此兩者目前技術要求過高,暫時延後處理。可能以前述兩方案,也可能以其他待發掘之新方式處理。
◦ 04.12 PoC:掛有RAG的模型回答已準備好,交給JC做成專家評分問卷。
◦ 模型裸測:4B 大小的 Gemma3 及 MedGemma1.5 無法認出藥品在台灣使用的商品名,以致回答皆為模型各自原生知識構成(可視為:4B 裸測的回答皆為幻覺)。
◦ RAG掛載:TFDA 官版的 xml 轉為RAG吃的 md 格式順利完成。實測兩模型九項藥品皆可以認出,但回答正確性、完整性、實用性皆仍待提升。產出了什麼答案,可參考JC的兩份表格,或 Model Training 資料夾下 RAG_building 資料夾。
◦ *沒有xml格式的仿單*: @gosienna 有提出以appscript+Google Doc 將 PDF 轉成純文字的方案。另外,此前測試過的 OCR(類似將 PDF 圖轉文)方案,也可作爲備案。但這兩者是否適合進行大量仿單處理?會遇上什麼問題?測試後才會知道。
◦ 仿單中的*圖示*、*化學式*處理:與 ke-wei 討論後,此兩者目前技術要求過高,暫時延後處理。可能以前述兩方案,也可能以其他待發掘之新方式處理。
2026-03-23
JC Wung
10:09:13
Google Docs
各位專家好 再次謝謝大家,願意參與甘蔗汁活動。 評估說明如下 1. 止膿敏生成式教材 是本次評估的教材。 2. 每個藥品統一問5個問題,請將5個對應的回答一起評估 (1個藥1個評估)。 3. 正確性、完整性是以衛福部的藥品仿單查詢平台作為標準答案,連結: 仿單-標準答案。回答出現 (§3.1) 是指引用仿單網頁的第3.1段落,但相關答案可能散落在其他的段落。 4. 第3題精簡性,請以整體的感受來評估。 5. 每一個藥有22題評估。 有任何問題,都可以line我唷,謝謝。 如潔 敬上![]()
Google Docs
各位專家好 再次謝謝大家,願意參與甘蔗汁活動。 評估說明如下 1. 止膿敏生成式教材 是本次評估的教材。 2. 每個藥品統一問5個問題,請將5個對應的回答一起評估 (1個藥1個評估)。 3. 正確性、完整性是以衛福部的藥品仿單查詢平台作為標準答案,連結: 仿單-標準答案。回答出現 (§3.1) 是指引用仿單網頁的第3.1段落,但相關答案可能散落在其他的段落。 4. 第3題精簡性,請以整體的感受來評估。 5. 每一個藥有22題評估。 有任何問題,都可以line我唷,謝謝。 如潔 敬上![]()
JC Wung
10:14:35
專家問卷-評估流程友善意見蒐集
大家好
3/31 (二) 前,請以專家視角,試用問卷。歡迎提出介面如何調整,才能更舒適順暢的評分唷
請回覆此留言串,感謝🙏
• https://forms.gle/9nswCpJvKArMU1x46
• https://forms.gle/o4bh2x71FbPBzcDL8
大家好
3/31 (二) 前,請以專家視角,試用問卷。歡迎提出介面如何調整,才能更舒適順暢的評分唷
請回覆此留言串,感謝🙏
• https://forms.gle/9nswCpJvKArMU1x46
• https://forms.gle/o4bh2x71FbPBzcDL8
Google Docs
各位專家好 再次謝謝大家,願意參與甘蔗汁活動。 評估說明如下 1. 止膿敏生成式教材 是本次評估的教材。 2. 每個藥品統一問5個問題,請將5個對應的回答一起評估 (1個藥1個評估)。 3. 正確性、完整性是以衛福部的藥品仿單查詢平台作為標準答案,連結: 仿單-標準答案。回答出現 (§3.1) 是指引用仿單網頁的第3.1段落,但相關答案可能散落在其他的段落。 4. 第3題精簡性,請以整體的感受來評估。 5. 每一個藥有22題評估。 有任何問題,都可以line我唷,謝謝。 如潔 敬上![]()
Google Docs
各位專家好 再次謝謝大家,願意參與甘蔗汁活動。 評估說明如下 1. 止膿敏生成式教材 是本次評估的教材。 2. 每個藥品統一問5個問題,請將5個對應的回答一起評估 (1個藥1個評估)。 3. 正確性、完整性是以衛福部的藥品仿單查詢平台作為標準答案,連結: 仿單-標準答案。回答出現 (§3.1) 是指引用仿單網頁的第3.1段落,但相關答案可能散落在其他的段落。 4. 第3題精簡性,請以整體的感受來評估。 5. 每一個藥有22題評估。 有任何問題,都可以line我唷,謝謝。 如潔 敬上![]()
JC Wung
10:14:35
專家問卷-評估流程友善意見蒐集
大家好
3/31 (二) 前,請以專家視角,試用問卷。歡迎提出介面如何調整,才能更舒適順暢的評分唷
請回覆此留言串,感謝🙏
• https://forms.gle/9nswCpJvKArMU1x46
• https://forms.gle/o4bh2x71FbPBzcDL8
大家好
3/31 (二) 前,請以專家視角,試用問卷。歡迎提出介面如何調整,才能更舒適順暢的評分唷
請回覆此留言串,感謝🙏
• https://forms.gle/9nswCpJvKArMU1x46
• https://forms.gle/o4bh2x71FbPBzcDL8