2024年12月13日(金) m3.com AI Lab (植田大樹)
医療分野における大規模言語モデル(LLM)の人間による評価について、142の研究論文をレビューし、5つの主要原則(情報の質、理解と推論、表現スタイルと人格、安全性と有害性、信頼性と確信)から成る包括的な評価フレームワーク「QUEST」を提案した研究である。
本研究は、医療分野における大規模言語モデル(LLM)の人間による評価方法について、142の研究論文を対象とした包括的なレビューを行い、新たな評価フレームワーク「QUEST」を提案したものである。