事前学習

概要

事前学習は、AI（特にLLMなど）が「本番の用途」に入る前に、インターネット文章や書籍、コードなどの大量データから、言語のパターンや一般知識を幅広く学ぶ学習工程です。この段階でモデルは「文章の続き方」「単語の関係」「よくある説明の型」などを身につけ、あとから用途に合わせて調整しやすい土台を作ります。

何のためにやる？

汎用性の高い土台を作る（いろんなタスクに転用できる）
個別用途のデータが少なくても、そこそこ対応できるようにする
「ゼロから学習」より効率が良い（学習コスト・データ量の節約）

どうやって学ぶ？（代表例）

自己教師あり学習

自己教師あり学習（ジコキョウシアリガクシュウ：正解ラベルを人が付けず、データ自身から学習信号を作る方法）を使うことが多いです。

次の単語予測：文の続きを当てる（LLMで典型的）
マスク予測：一部を隠して当てる（BERT系で典型的）

事前学習とファインチューニングの違い

目的：汎用的な知識・言語能力を獲得
データ：広く大量（一般文章、コードなど）
出力：そのままだと「一般向けに話せる」程度

ファインチューニング

ファインチューニング（ファインチューニング：特定用途に合わせて追加学習し、振る舞いを整えること）

目的：特定の業務・ドメイン・口調に最適化
データ：狭く少なめ（社内FAQ、業務ログ、専門文書など）
出力：用途に強くなるが、偏りや過学習に注意

事前学習の限界と注意点

学習後の出来事（最新ニュースなど）は、そのままだと反映されない
学習データの偏りにより、出力にも偏りが出ることがある
事前学習で覚えた「それっぽい文章」を根拠なく出す（ハルシネーション）ことがある

ハルシネーション（ハルシネーション：もっともらしいが誤りの生成）

実務での使い分け

最新情報・根拠が必要：RAG（アールエージー：検索で根拠を取り込み生成する手法）が有効
社内ルールや定型回答に強くしたい：ファインチューニングやプロンプト設計
安全性や文体の統一：指示データや評価で調整（RLHFなど）

用語ミニ辞典（コピペ用）

事前学習｜じぜんがくしゅう｜汎用知識を先に学ぶ工程｜大量データで言語規則や一般知識を獲得する
自己教師あり学習｜じこきょうしありがくしゅう｜データから正解を作る学習｜ラベル付けなしで予測課題を解く
ファインチューニング｜ふぁいんちゅーにんぐ｜用途に合わせた追加学習｜特定タスク向けにモデルを調整する
ハルシネーション｜はるしねーしょん｜もっともらしい誤り生成｜根拠なく間違いを断定してしまうこと
RAG｜あーるえーじー｜検索＋生成の仕組み｜外部情報を根拠に回答を作る

まとめ

事前学習は、AIモデルが幅広く使える「基礎体力」を作る工程です。ただし最新情報の反映や根拠提示は苦手になりやすいので、用途によってRAGや追加学習と組み合わせて使い分けます。