事前学習

読み: じぜんがくしゅう

ジゼンガクシュウ:大量データで汎用的な知識や言語規則を先に学ぶ、AIモデルの基礎学習工程

事前学習

概要

事前学習は、AI(特にLLMなど)が「本番の用途」に入る前に、インターネット文章や書籍、コードなどの大量データから、言語のパターンや一般知識を幅広く学ぶ学習工程です。 この段階でモデルは「文章の続き方」「単語の関係」「よくある説明の型」などを身につけ、あとから用途に合わせて調整しやすい土台を作ります。

何のためにやる?

  • 汎用性の高い土台を作る(いろんなタスクに転用できる)
  • 個別用途のデータが少なくても、そこそこ対応できるようにする
  • 「ゼロから学習」より効が良い(学習コストデータ量の節約)

どうやって学ぶ?(代表例)

自己教師あり学習

自己教師あり学習(ジコキョウシアリガクシュウ:正解ラベルを人が付けず、データ自身から学習信号を作る方法)を使うことが多いです。
  • 次の単語予測:文の続きを当てる(LLMで典型的)
  • マスク予測:一部を隠して当てる(BERT系で典型的)

事前学習とファインチューニングの違い

事前学習

  • 目的:汎用的な知識・言語能力を獲得
  • データ:広く大量(一般文章、コードなど)
  • 出力:そのままだと「一般向けに話せる」程度

ファインチューニング

ファインチューニング(ファインチューニング:特定用途に合わせて追加学習し、振る舞いを整えること)
  • 目的:特定の業務・ドメイン・口調に最適化
  • データ:狭く少なめ(社内FAQ、業務ログ、専門文書など)
  • 出力:用途に強くなるが、偏りや過学習に注意

事前学習の限界と注意点

  • 学習後の出来事(最新ニュースなど)は、そのままだと反映されない
  • 学習データの偏りにより、出力にも偏りが出ることがある
  • 事前学習で覚えた「それっぽい文章」を根拠なく出す(ハルシネーション)ことがある
ハルシネーションハルシネーション:もっともらしいが誤りの生成)

実務での使い分け

  • 最新情報・根拠が必要RAG(アールエージー:検索で根拠を取り込み生成する手法)が有効
  • 社内ルールや定型回答に強くしたい:ファインチューニングやプロンプト設計
  • 安全性や文体の統一:指示データや評価で調整(RLHFなど)

用語ミニ辞典(コピペ用)

  • 事前学習|じぜんがくしゅう|汎用知識を先に学ぶ工程|大量データで言語規則や一般知識を獲得する
  • 自己教師あり学習|じこきょうしありがくしゅう|データから正解を作る学習|ラベル付けなしで予測課題を解く
  • ファインチューニング|ふぁいんちゅーにんぐ|用途に合わせた追加学習|特定タスク向けにモデルを調整する
  • ハルシネーション|はるしねーしょん|もっともらしい誤り生成|根拠なく間違いを断定してしまうこと
  • RAG|あーるえーじー|検索+生成の仕組み|外部情報を根拠に回答を作る

まとめ

事前学習は、AIモデルが幅広く使える「基礎体力」を作る工程です。 ただし最新情報の反映や根拠提示は苦手になりやすいので、用途によってRAGや追加学習と組み合わせて使い分けます。