臨床課題を網羅する医療LLMの実践的評価

2025年3月6日（木） m3.com AI Lab （植田大樹）

臨床課題を統合評価するMedS-Benchと大規模指示学習データMedS-Insを用いて、新たな医療LLMを開発し多面評価した研究である。

診断や治療計画、要約や情報抽出など多岐にわたる臨床的課題への対応力を測る評価基盤MedS-Benchを提示し、主流の大規模言語モデル（LLM）9種を横断的に比較したものである。多くのモデルが多肢...