医療分野のLLM評価における新フレームワーク「QUEST」

2024年12月13日（金） m3.com AI Lab （植田大樹）

医療分野における大規模言語モデル（LLM）の人間による評価について、142の研究論文をレビューし、5つの主要原則（情報の質、理解と推論、表現スタイルと人格、安全性と有害性、信頼性と確信）から成る包括的な評価フレームワーク「QUEST」を提案した研究である。

本研究は、医療分野における大規模言語モデル（LLM）の人間による評価方法について、142の研究論文を対象とした包括的なレビューを行い、新たな評価フレームワーク「QUEST」を提案したものである。