オープンソースLLMの放射線診断性能評価

2025年4月25日（金） m3.com AI Lab （植田大樹）

オープンソースの大型言語モデル（LLM）15種類とクローズドソース1種類（GPT-4o）を、合計1933件の放射線症例で検証した結果、GPT-4oが79.6％、次いでMetaのLlama-3-70Bが73.2％の正答率であった。

本研究では、ヨーロッパ放射線学会（ESR）が管理するEuroradライブラリの1933件の放射線症例を用い、放射線診断の観点から16種類のLLMの性能が評価されている。具体的には、臨床所見と画像...