医療用大規模言語モデルにおけるデータ汚染攻撃の脅威と対策

2025年2月10日（月） m3.com AI Lab （植田大樹）

ごくわずかな偽情報を訓練データに混入させることで、有用そうに見えるものの実際には有害な医療内容を生成するモデルへと変質しうることが示された。

本研究では、ウェブ上から収集した大規模テキストを学習する医療向け言語モデルに対し、データ改ざん攻撃がどの程度の影響を及ぼすかを検証している。具体的には、学習データ総量のわずか0.001％の虚偽の...