自己教師あり学習

読み: じこきょうしありがくしゅう

ジコキョウシアリガクシュウ:ラベル付け不要で、データから正解を作って学ぶ機械学習手法

自己教師あり学習

概要

自己教師あり学習は、人が「正解ラベル」を付けなくても、手元のデータそのものから学習用の問題(入力)と答え(教師信号)を作り出して学ぶ方法です。 大量データを集めやすい領域(文章・画像・音声・ログなど)で特に強く、LLM事前学習でも代表的に使われます。

何が「教師」なの?

「教師あり学習」は、犬/猫のように「正解ラベル」が付いたデータで学びます。 一方、自己教師あり学習は、データの一部を隠したり、変形したりして「当てさせる」ことで、ラベルの代わりになる正解を自動生成します。
  • 例:文章の一部を隠して当てる → 正解は隠す前の元の文章
  • 例:次に来る単語を当てる → 正解は実際の次の単語

代表的なやり方

トークン予測(言語モデル型)

文の続きを予測させる方法です。
  • 入力:これまでの文章
  • 正解:次の単語(トークン
トークントークン:文章をモデルが扱いやすい単位に分割したもの)

LLMはこのタイプが典型です。

マスク言語モデル(穴埋め型)

文章の一部をマスク(隠す)して、元の単語を当てさせます。
  • 入力:一部が [MASK] になった文章
  • 正解:元の単語
BERT系で典型です。

画像・音声の例(イメージ)

  • 画像の一部を隠して復元する
  • 別の角度・切り抜きでも同じ対象だと学習する(対照学習)
  • 音声の欠けた区間を予測する

メリット

  • ラベル付けコストが低い(人手がいらない/少ない)
  • 大量データを活かせるため、汎用的な表現を学びやすい
  • 事前学習として強力で、後から特定用途に合わせやすい

デメリット/注意点

  • 学習課題の作り方が悪いと、役に立つ特徴を学べない
  • 大量データと計算資源が必要になりやすい
  • 学習データの偏りが、そのままモデルの偏りにつながることがある

「教師あり学習」「教師なし学習」との違い

教師あり学習

  • 人が付けたラベルが正解(例:犬/猫分類)

教師なし学習

  • 正解を与えず、データの構造を見つける(例:クラスタリング)

自己教師あり学習

  • 人のラベルは不要だが、自動で正解を作って「予測問題」として学ぶ
  • 実務では「教師なし」に含められることもあるが、目的や設計はかなり違う

用語ミニ辞典(コピペ用)

  • 自己教師あり学習|じこきょうしありがくしゅう|データから正解を作る学習|ラベルなしで予測課題を解き表現を学ぶ
  • 教師信号|きょうししんごう|学習の正解データ|損失計算の基準になる答え
  • トークン|とーくん|モデルが扱う文章単位|単語や文字列を分割した単位
  • 対照学習|たいしょうがくしゅう|似ている/違うを学ぶ手法|同一対象の近さを学んで表現を整える

まとめ

自己教師あり学習は、データを加工して「当てる問題」を作り、ラベル付けなしで学ぶ方法です。 大量データを活かして汎用的な力を付けやすく、LLM事前学習を支える中心的な技術です。