事前学習
読み: じぜんがくしゅう
概要
事前学習は、AI(特にLLMなど)が「本番の用途」に入る前に、インターネット文章や書籍、コードなどの大量データから、言語のパターンや一般知識を幅広く学ぶ学習工程です。 この段階でモデルは「文章の続き方」「単語の関係」「よくある説明の型」などを身につけ、あとから用途に合わせて調整しやすい土台を作ります。何のためにやる?
どうやって学ぶ?(代表例)
自己教師あり学習
自己教師あり学習(ジコキョウシアリガクシュウ:正解ラベルを人が付けず、データ自身から学習信号を作る方法)を使うことが多いです。- 次の単語予測:文の続きを当てる(LLMで典型的)
- マスク予測:一部を隠して当てる(BERT系で典型的)
事前学習とファインチューニングの違い
事前学習
ファインチューニング
ファインチューニング(ファインチューニング:特定用途に合わせて追加学習し、振る舞いを整えること)事前学習の限界と注意点
ハルシネーション(ハルシネーション:もっともらしいが誤りの生成)実務での使い分け
- 最新情報・根拠が必要:RAG(アールエージー:検索で根拠を取り込み生成する手法)が有効
- 社内ルールや定型回答に強くしたい:ファインチューニングやプロンプト設計
- 安全性や文体の統一:指示データや評価で調整(RLHFなど)
用語ミニ辞典(コピペ用)
- 事前学習|じぜんがくしゅう|汎用知識を先に学ぶ工程|大量データで言語規則や一般知識を獲得する
- 自己教師あり学習|じこきょうしありがくしゅう|データから正解を作る学習|ラベル付けなしで予測課題を解く
- ファインチューニング|ふぁいんちゅーにんぐ|用途に合わせた追加学習|特定タスク向けにモデルを調整する
- ハルシネーション|はるしねーしょん|もっともらしい誤り生成|根拠なく間違いを断定してしまうこと
- RAG|あーるえーじー|検索+生成の仕組み|外部情報を根拠に回答を作る