由哈佛醫學院和斯坦福大學組成的科研團隊近日對OpenAI的o1-preview模型進行了深入評估,發現該模型在診斷復雜醫療案例時表現出色,準確率顯著高于人類醫生。
研究報告顯示,o1-preview模型在78.3%的測試案例中做出了正確診斷,在70個特定案例的對比測試中,準確率更是高達88.6%,遠超其前身GPT-4的72.9%。此外,使用醫學推理質量評估標準量表R-IDEA,o1-preview在80個案例中取得了78個滿分,而經驗豐富的醫生僅在28個案例中獲得滿分,住院醫生則僅為16例。
在25位專家設計的復雜案例中,o1-preview模型的得分高達86%,是使用GPT-4的醫生(41%)和使用傳統工具的醫生(34%)的兩倍多。
盡管如此,研究人員也承認該測試存在局限性,部分測試案例可能包含在o1-preview的訓練數據中,且測試主要集中于系統單獨工作,并未充分考慮其與人類醫生協同工作的場景。此外,o1-preview建議的診斷測試成本高昂,在實際應用中存在局限性。
這一研究結果引發了關于AI在醫療領域應用的廣泛討論,盡管AI在診斷準確性上表現出色,但其高昂的成本和與人類醫生協同工作的挑戰仍需進一步解決。