2023年5月24日(水) m3.com AIラボ (The Medical AI Times) 転載元の記事
過去5年間、LLMの指数関数的な成長が観察され、多様なタスクの実行が可能となっている。しかし、2017年以前は、ほとんどの自然言語モデルが1つの特定タスクのために訓練されていた。この限界は、Transformerとして知られる「自己注意ネットワークアーキテクチャ」の開発によって克服された。2018年、このコンセプトは2つの革命的なモデル、すなわち「Generative Pretrained Transformer(GPT)」と「Bidirectional Encoder Representations from Transformers(BERT)」の開発につながる。
GPTとBERTの汎化能力を実現するため、教師ありの微調整と教師なしの事前学習の組み合わせが用いられた。このアプローチにより、事前に訓練された言語表現を下流タスクの実行に適用することが可能となっ...