文章來(lái)源:機(jī)器之心
圖片來(lái)源:由無(wú)界 AI生成
人工智能(AI)在醫(yī)學(xué)影像診斷方面的應(yīng)用已經(jīng)有了長(zhǎng)足的進(jìn)步,。然而,在未經(jīng)嚴(yán)格測(cè)試的情況下,,醫(yī)生往往難以采信人工智能的診斷結(jié)果,。對(duì)于他們來(lái)說(shuō),理解人工智能根據(jù)醫(yī)學(xué)影像給出的判別,,需要增加額外的認(rèn)知成本,。
為了增強(qiáng)醫(yī)生對(duì)輔助醫(yī)療的人工智能之間的信任,讓 AI 通過(guò)一個(gè)醫(yī)生必須通過(guò)的資格考試或許是一個(gè)有效的方法,。醫(yī)學(xué)執(zhí)照考試是用來(lái)評(píng)估醫(yī)生專業(yè)知識(shí)和技能的標(biāo)準(zhǔn)化考試,,是衡量一個(gè)醫(yī)生是否有能力安全有效地護(hù)理患者的基礎(chǔ)。
在最新的研究中,,來(lái)自馬薩諸塞大學(xué),、復(fù)旦大學(xué)的跨學(xué)科研究人員團(tuán)隊(duì)利用生成式多模態(tài)預(yù)訓(xùn)練模型 GPT-4V (ision) 突破了人工智能在醫(yī)學(xué)問(wèn)答中的最佳水平。研究測(cè)試了 GPT-4V 回答美國(guó)醫(yī)學(xué)執(zhí)照考試題的能力,,特別是題目包含圖像的考題?—— 這對(duì)醫(yī)療人工智能系統(tǒng)來(lái)說(shuō)一直以來(lái)都是一項(xiàng)挑戰(zhàn),。
該研究表明,GPT-4V 不僅超越了 GPT-4 和 ChatGPT 等前輩,,還超越了大部分醫(yī)學(xué)生,,為人工智能能夠作為輔助診斷和臨床決策的工具提供了理論上的可能。該研究分析了 GPT-4V 在不同醫(yī)學(xué)子領(lǐng)域的性能,。
同時(shí),,該研究還指出了醫(yī)療人工智能在一致解釋方面的局限性,強(qiáng)調(diào)了人機(jī)協(xié)作在未來(lái)醫(yī)療診斷中的重要性,。
論文鏈接:https://www.medrxiv.org/content/10.1101/2023.10.26.23297629v3
測(cè)試問(wèn)題收集
該研究中,,用來(lái)測(cè)試人工智能醫(yī)學(xué)執(zhí)照考試的題型為涉及不同醫(yī)學(xué)領(lǐng)域,、難度各異的帶有圖像的選擇題。論文作者們選擇了來(lái)自美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE),、醫(yī)學(xué)生考試題庫(kù)(AMBOSS)和診斷放射學(xué)資格核心考試(DRQCE)的三套選擇題,,共計(jì) 226 道題(28 個(gè)醫(yī)學(xué)領(lǐng)域),來(lái)測(cè)試 GPT-4V 的準(zhǔn)確性,。
其中 AMBOSS 和 DRQCE 的數(shù)據(jù)未公開(kāi),,需要用戶注冊(cè)后才能獲取。AMBOSS 數(shù)據(jù)集中的每個(gè)問(wèn)題都設(shè)定有對(duì)應(yīng)的難度,。問(wèn)題按難易程度分五級(jí),,1、2、3,、4 和 5 級(jí)分別代表學(xué)生第一次作答時(shí)最容易答對(duì)的 20%,、20%-50%、50%-80%,、80%-95% 和 95%-100% 的問(wèn)題,。
此外,作者們還收集了醫(yī)療專業(yè)人士的偏好,,用以評(píng)估 GPT-4V 的解釋是否違背醫(yī)學(xué)常識(shí),。當(dāng) GPT-4V 做錯(cuò)的時(shí)候,作者們還收集了來(lái)自醫(yī)療專業(yè)人士的反饋,,用來(lái)改善 GPT-4V,。
用美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE)中包含圖像的考題測(cè)試 GPT-4V,。
準(zhǔn)確性
結(jié)果顯示,GPT-4V 在帶有圖像的醫(yī)學(xué)執(zhí)照考試題上表現(xiàn)出了很高的準(zhǔn)確率,,分別在 USMLE,、AMBOSS 和 DRQCE 上達(dá)到了 86.2%、62.0% 和 73.1%,,遠(yuǎn)遠(yuǎn)超過(guò)了 ChatGPT 和 GPT-4,。與準(zhǔn)備考試的學(xué)生相比,GPT-4V 的大致排名能達(dá)到前 20-30% 的水平,。
而在 2022 年,,美國(guó)醫(yī)學(xué)執(zhí)照考試大約有前 90% 的考生通過(guò)了考試,這意味著 GPT-4V 想要獲得通過(guò),,也相對(duì)較為輕松,。GPT-4V 的準(zhǔn)確率反映了它掌握大量生物醫(yī)學(xué)和臨床科學(xué)知識(shí),也能夠解決醫(yī)患相處中遇到的問(wèn)題,。這些都是進(jìn)入醫(yī)學(xué)臨床實(shí)踐的必備技能,。
GPT-4V在美國(guó)醫(yī)學(xué)執(zhí)照考試(USMLE)的測(cè)試表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)了 ChatGPT 和 GPT-4,。
在使用提示和不使用提示的情況下,GPT-4V 在 AMBOSS 的準(zhǔn)確率分別為 86% 和 63%,。隨著問(wèn)題難度的增加,,不使用提示時(shí) GPT-4V 的表現(xiàn)呈現(xiàn)下降趨勢(shì)(卡方檢驗(yàn),顯著性水平 0.05),。然而,,當(dāng)使用提示提問(wèn)時(shí),,這種下降趨勢(shì)并未明顯觀察到。這表明,,來(lái)自醫(yī)療專業(yè)人士的提示可以很好的幫助 GPT-4 做出正確的決策,。
GPT-4V 和學(xué)生在不同難度 AMBOSS 考試上的準(zhǔn)確率
解釋性
在解釋質(zhì)量方面,,作者們發(fā)現(xiàn),當(dāng) GPT-4V 回答正確時(shí),,醫(yī)療專業(yè)人士對(duì) GPT-4V 給出的解釋與專家給出的解釋的偏好相差不大。這說(shuō)明 GPT-4V 的解釋具有可信度和專業(yè)性,。作者們還發(fā)現(xiàn),,在 GPT-4V 的解釋中,有超過(guò) 80% 的回答包含了對(duì)題目中圖像和文本的解讀,,這說(shuō)明 GPT-4V 能夠利用多模態(tài)的數(shù)據(jù)來(lái)生成回答,。
然而,當(dāng) GPT-4V 回答錯(cuò)誤時(shí),,它的解釋中也存在一些嚴(yán)重的問(wèn)題,,例如圖像誤解(Image misunderstanding)、文本幻覺(jué)(Text hallucination),、推理錯(cuò)誤(Reasoning error)等,,這些問(wèn)題可能會(huì)影響 GPT-4V 的可靠性和可解釋性。
針對(duì)每道考試題,醫(yī)療專業(yè)人員從專家生成的解釋和 GPT-4V 生成的解釋中選擇偏好,??荚嚪譃?Step1, Step2CK, Step3 共 3 個(gè)階段。每個(gè)階段抽取 50 道題目進(jìn)行測(cè)試,。
作者發(fā)現(xiàn)許多 GPT-4V 回答錯(cuò)誤的解釋是圖像誤解,。在 55 個(gè)錯(cuò)誤回答中,有 42 個(gè)回答(76.3%)是由圖像理解錯(cuò)誤所導(dǎo)致的,。相比之下,,只有 10 個(gè)回答(18.2%)錯(cuò)誤歸因于文本幻覺(jué)。
針對(duì)圖像誤解,,作者建議使用以圖像或者文字為形式的提示,。例如,醫(yī)生可以用箭頭指示圖中重要的位置,,或者用一兩句話來(lái)解釋圖像的意義來(lái)提示模型,。當(dāng)醫(yī)生使用文字提示的時(shí)候,,就有 40.5% (17/42 個(gè)) 之前錯(cuò)誤的回答被 GPT-4V 改正了。
輔助診斷的潛力
作者還展示了使用 GPT-4V 作為影像診斷輔助工具的可能性,?;谝粋€(gè)高血壓病人的病例報(bào)告,醫(yī)生對(duì) GPT-4V 進(jìn)行提問(wèn),。定性分析表明,,GPT-4V 能夠根據(jù) CT 掃描圖像、化驗(yàn)單和病人癥狀等其他信息,,提供鑒別診斷和后續(xù)檢查的建議,。詳細(xì)分析請(qǐng)參考原論文。
結(jié)論與展望
作者們認(rèn)為,,GPT-4V 在帶有圖像的醫(yī)學(xué)執(zhí)照考試題上展現(xiàn)了非凡的準(zhǔn)確率,,在臨床決策支持方面,GPT-4V 具備無(wú)窮的潛力,。然而,,GPT-4V 還需要改進(jìn)它的解釋質(zhì)量和可靠性,才能真正適用于臨床場(chǎng)景,。
論文中嘗試使用提示來(lái)改進(jìn) GPT-4V 的判斷,,取得了不錯(cuò)的效果,這為未來(lái)的研究提出了一個(gè)有希望的方向:開(kāi)發(fā)更精細(xì)的人類人工智能協(xié)作系統(tǒng),,使得其成為臨床環(huán)境中更可靠的工具,。隨著技術(shù)的不斷進(jìn)步和研究不斷深入,我們有理由相信,,AI 將在提高醫(yī)療質(zhì)量,、減輕醫(yī)生工作負(fù)擔(dān)和促進(jìn)醫(yī)療服務(wù)普及化方面繼續(xù)發(fā)揮重要作用。
免責(zé)聲明:本文來(lái)自網(wǎng)絡(luò)收錄或投稿,,觀點(diǎn)僅代表作者本人,,不代表芒果財(cái)經(jīng)贊同其觀點(diǎn)或證實(shí)其描述,版權(quán)歸原作者所有,。轉(zhuǎn)載請(qǐng)注明出處:http://lequren.com/1079850.html
溫馨提示:投資有風(fēng)險(xiǎn),,入市須謹(jǐn)慎。本資訊不作為投資理財(cái)建議,。