m3.com
AI Lab
視覚言語モデルは否定語を理解できない

視覚言語モデルは否定語を理解できない

2025年5月28日（水） m3.com AI Lab （The Medical AI Times）

マサチューセッツ工科大学、米OpenAI社、英オックスフォード大学の新しい共同研究によると、画像と言語を組み合わせた機械学習モデル（VLM：Vision-language models）は「ない」「～しない」といった否定表現をほとんど理解できず、実世界の応用で重大な誤診リスクがはらんでいる可能性があるという。たとえば、胸部X線画像に「組織の腫れはあるが心臓の拡大はない」と記載されている場合、本来は心臓疾患以外の鑑別が必要であるにも関わらず、VLMは「腫れ」「拡大」というキーワードだけを重視し、誤った類似症例を提示する可能性がある。

研究チームはまず、既存データセットの画像キャプションを大規模言語モデル（LLM）で再生成し、「～が写っていない」といった否定文を付加。その上で、VLMに対し「ある物体は写っているが別の物体は写っ...