救急外来での臨床判断におけるGPT-4/3.5の性能評価研究

2025年1月10日（金） m3.com AI Lab （植田大樹）

救急外来の臨床記録1万件を用いてGPT-3.5-turboとGPT-4-turboの臨床判断能力を検証した結果、両モデルとも医師と比べて8-24%低い判断精度を示し、過剰に慎重な判断を下す傾向を明らかにした研究である。

本研究は、救急外来における臨床判断の場面で大規模言語モデル(LLM)の性能を評価した研究である。研究チームは救急外来の臨床記録1万件を用いて、GPT-3.5-turboとGPT-4-turboの...