自己教師あり学習
読み: じこきょうしありがくしゅう
ジコキョウシアリガクシュウ:ラベル付け不要で、データから正解を作って学ぶ機械学習手法
概要
自己教師あり学習は、人が「正解ラベル」を付けなくても、手元のデータそのものから学習用の問題(入力)と答え(教師信号)を作り出して学ぶ方法です。 大量データを集めやすい領域(文章・画像・音声・ログなど)で特に強く、LLMの事前学習でも代表的に使われます。何が「教師」なの?
「教師あり学習」は、犬/猫のように「正解ラベル」が付いたデータで学びます。 一方、自己教師あり学習は、データの一部を隠したり、変形したりして「当てさせる」ことで、ラベルの代わりになる正解を自動生成します。- 例:文章の一部を隠して当てる → 正解は隠す前の元の文章
- 例:次に来る単語を当てる → 正解は実際の次の単語
代表的なやり方
次トークン予測(言語モデル型)
文の続きを予測させる方法です。- 入力:これまでの文章
- 正解:次の単語(トークン)
LLMはこのタイプが典型です。
マスク言語モデル(穴埋め型)
文章の一部をマスク(隠す)して、元の単語を当てさせます。- 入力:一部が [MASK] になった文章
- 正解:元の単語
画像・音声の例(イメージ)
- 画像の一部を隠して復元する
- 別の角度・切り抜きでも同じ対象だと学習する(対照学習)
- 音声の欠けた区間を予測する
メリット
デメリット/注意点
「教師あり学習」「教師なし学習」との違い
教師あり学習
- 人が付けたラベルが正解(例:犬/猫分類)
教師なし学習
- 正解を与えず、データの構造を見つける(例:クラスタリング)
自己教師あり学習
- 人のラベルは不要だが、自動で正解を作って「予測問題」として学ぶ
- 実務では「教師なし」に含められることもあるが、目的や設計はかなり違う
用語ミニ辞典(コピペ用)
- 自己教師あり学習|じこきょうしありがくしゅう|データから正解を作る学習|ラベルなしで予測課題を解き表現を学ぶ
- 教師信号|きょうししんごう|学習の正解データ|損失計算の基準になる答え
- トークン|とーくん|モデルが扱う文章単位|単語や文字列を分割した単位
- 対照学習|たいしょうがくしゅう|似ている/違うを学ぶ手法|同一対象の近さを学んで表現を整える