大型語言模型的介紹與醫療應用
大型語言模型的介紹與醫療應用
邱義閔
什麼是大型語言模型(Large Language Models; LLMs)
隨著技術的迅速發展,人工智慧(AI)正在重新定義多個行業,日常生活中已有許多應用建立在AI的基礎之上,如停車場的車牌辨識、個人智慧終端裝置的行動助理、社群媒體的文章影音推播等皆是。醫療AI應用在這波2010年開始至今的AI浪潮不斷被提及,但直到2022年末由OpenAI推出以大型語言模型(Large Language Models; LLMs)為基礎的生成式AI聊天機器人ChatGPT後[1],許多醫療工作者才感受到AI真的來了!
LLM是一種深度學習模型,目標是理解並生成如人類使用一般的自然語言。這類模型通常帶有數百億的參數,使用造價昂貴的GPU運算設備與龐大的數據集如網路文章、書籍和各種文本等進行訓練。LLM可以進行各種語言任務,如問答、文章生成、語言翻譯等等。除了由OpenAI開發的GPT系列模型外,幾家數位巨頭亦在近年投入大量資源開發自己的LLM,如Google的PaLM (Pathways Language Model)系列、Meta(原Facebook)的Llama模型等,在醫療應用上已有不少相關分析發表。
LLM的訓練方式
現在主流的LLM和數年前在醫療研究領域掀起一番熱潮的語言模型有些許不同,雖然過往的語言模型如BERT (Bidirectional Encoder Representations from Transformers)和現在的ChatGPT、PaLM等同樣都是使用Google在2018年發表的Transfomer架構作為基礎進行開發,但當時模型設計多是以遮蔽文句(Masked Language Model)作為訓練方式,意即訓練時將文本中部分段落遮蔽,讓模型基於段落上下文,使用雙向進行來訓練預測遮蔽內容[2],使用方式多用作文句的特徵提取,與其他模型結合進行下游任務,醫療應用上常見以BERT分析病歷寫來預測診斷、預後等等;現在的LLM則多以自迴歸模型(Autoregressive Model)為基礎,訓練時僅提供前半文本要求模型單向方式預測下一個字,進而完成後半文句,使用上有更多的彈性,可用作對答、文字生成。ChatGPT在模型訓練時亦加入了人類回饋的強化學習步驟(Reinforcement Learning from Human Feedback, RLHF),使其在理解和生成語言時表現得更加自然和精確。
LLM在醫療上的應用潛力
除此之外,現在的LLM比起過往模型架構與參數都大上許多,對於文字的理解能力有顯著提升,由於模型相當龐大,已有不少學者研究使用詠唱工程(Prompt Engineering)來進行目標任務的開發,使其在各領域一般化的能力備受期待。Google今年於Nature期刊發表一文「Large Language Model Encode Clinical Knowledge」即是一項關於醫療應用的分析,研究團隊以PaLM為基礎,借助專門的提示策略來微調模型(Instruction Tuning),同時利用各類詠唱工程方式訓練出Flan-PaLM,測試時成功通過美國醫師國家考試,震撼醫療界[3]。而ChatGPT最新的GPT-4版本作為LLM的代表,在初步分析上也展示了其潛在的臨床價值,包含藉由醫師問診內容解析醫學案例並生成相關筆記,在現場衛教諮詢中提供支援,甚至近期提供多模態輸入,讓使用者提供圖像與文字來進行問答,ChatGPT都證明了自己是醫學和人工智慧結合的新方向[4]。
LLM的限制
但LLM展示出大幅度的進步,目前要能直接應用在醫療實戰上仍有許多不足之處。Google在Nature期刊發表的一文即指出,雖然其Flan-PaLM模型能通過美國醫師考試,但在民眾醫療問題諮詢的題庫中與醫師相比更常出現答非所問的情形,而使用ChatGPT在擷取醫療資訊產生病歷的同時,研究人員也發現它容易出現幻覺(Hallucination)而在病歷上填入不存在的資訊[3]。除了模型本身的表現外,在醫療領域中使用LLMs不僅是技術問題,還涉及一系列的道德考量。要如何確定這類模型的使用界限、病患隱私如何確保、如何平衡AI輔助與醫療人員使用依賴,都將是我們即將面對的一大難題。這種情境下,確保醫療法規的進步與全面性評估變得更為重要。
作為AI發展的重要里程碑,包含LLM在內的生成式AI技術終將改變醫療行為模式,它們的出現帶來臨床流程創新、醫病互動變化等各種想像。身為醫療科技的第一線,我們必須更積極的認識它們,了解其優點與限制。當科技和醫學的界線日益模糊時,將創新與病患安全相結合變得尤為重要。只有通過這種方法,我們才能確保基於AI的工具能夠有效地支持臨床照護,同時維護醫學專業的高度標準。
參考文獻
- Introducing ChatGPT [https://openai.com/blog/chatgpt]
- Devlin J, Chang M-W, Lee K, Toutanova K: Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:181004805 2018.
- Singhal K, Azizi S, Tu T, Mahdavi SS, Wei J, Chung HW, Scales N, Tanwani A, Cole-Lewis H, Pfohl S et al: Large language models encode clinical knowledge. Nature 2023, 620(7972):172-180.
- Lee P, Bubeck S, Petro J: Benefits, Limits, and Risks of GPT-4 as an AI Chatbot for Medicine. N Engl J Med 2023, 388(13):1233-1239.
作者資訊
邱義閔
Cedars-Sinai Medical Center 博士後研究員
高雄長庚醫院急診醫學部 助理教授