DeepSeekによる医療タスクと臨床推論性能

2025年6月5日（木） m3.com AI Lab （植田大樹）

DeepSeek-R1を含む複数の大規模言語モデルが、医療試験問題や臨床ケース解析などで異なる強みを示す一方、要約精度や再現性に課題を残す結果となった。

本研究はDeepSeek-R1、ChatGPT-o1、Llama 3.1-405Bの三種類の大規模言語モデルを対象に、医療分野での能力を四つのタスクで比較したものである。第一に、米国医師国家試験...