Skip to content

半教師あり学習(Semi-supervised Learning, SSL)

半教師あり学習は、少量のラベル付きデータと大量のラベルなしデータを併用して、分類・回帰モデルの汎化性能を高める学習枠組みである。材料科学では、ラベル付与(相同定・状態判定・物性測定)が高コストである一方、未ラベルの測定データや計算データが大量に得られる状況に適合する。

参考ドキュメント

1. 問題設定(記法)

入力空間を X、出力(クラスまたは連続値)を Y とする。

  • ラベル付きデータDL={(xi,yi)}i=1nL,xiX, yiY
  • ラベルなしデータDU={uj}j=1nU,ujX

学習するモデルを fθ:XY とすると、代表的な目的関数は

L(θ)=Lsup(θ;DL)+λLunsup(θ;DU)

で表される。λ は未ラベル項の強さを制御する重みである。

補足(評価の型)

  • transductive:学習時に見た DU の個体を主に当てに行く設定である
  • inductive:未知の新規データにも一般化する設定である(材料応用ではこちらが重要である)

2. SSLが成立しやすい仮定

SSLは、未ラベルデータが「入力空間の構造」を教えるという立場に立つ。典型的に次の仮定が用いられる。

  • smoothness assumption:近い x は近い y を持つべきである
    例:類似したXAFSスペクトルは近い局所構造指標を持つ、などである
  • cluster assumption:決定境界は低密度領域を避けるべきである
    例:相図上で相境界付近は少数で、相内部は密に観測される場合がある
  • manifold assumption:データは低次元多様体上に乗る
    例:装置条件やバックグラウンドの自由度は限定的で、スペクトルは低次元因子で説明できる場合がある

これらの仮定が崩れる(外れ値混入、ドメインシフト、ラベル定義の曖昧さ)とSSLは悪化しやすい点に注意が必要である。

3. 代表的アプローチと数式

3.1 自己学習(Self-training)と擬似ラベル(Pseudo-labeling)

ラベルなし点 u に対し、現モデルの予測から擬似ラベル y^ を作る。

  • 分類の例(しきい値付き)y^=argmaxcpθ(cu),maxcpθ(cu)>τ のときのみ採用Lunsup=EuDU[1{maxpθ>τ}CE(y^,pθ(u))]

材料での要点

  • 擬似ラベルは誤りが自己増幅するため、(i) 高信頼のみ採用、(ii) 外れ値検出、(iii) 校正(calibration)を併用するのが実用的である
  • 相同定・状態判定のようにクラス境界が曖昧なラベルでは、しきい値 τ を高めに取り、ラベル定義を明確化するのが基本である

3.2 一貫性正則化(Consistency regularization)

入力摂動(ノイズや拡張)に対して予測が一貫することを促す。

  • 基本形

    Lunsup=EuDU[D(pθ(a1(u)), pθ(a2(u)))]

    ここで a1,a2 はデータ拡張、D はKL距離やMSEなどである。

  • Teacher–Student(Mean Teacherの型) Teacher重み θ を Student重み θ の指数移動平均で更新する。

    θαθ+(1α)θ

    StudentはTeacher予測に整合するよう学習する。

  • 強拡張+擬似ラベル(FixMatchの型) 弱拡張で擬似ラベル、強拡張で整合を取るという設計である。

    q=pθ(aweak(u)),y^=argmaxq,max(q)>τLunsup=CE(y^,pθ(astrong(u)))

材料での拡張設計(物理妥当性が最重要である)

  • XRD:ピーク強度スケーリング、背景加算、統計ノイズ、わずかな 2θ オフセット、部分マスクなどが候補である
  • XAFS/XPS:エネルギー軸の微小シフト、ノイズ、ベースライン変動、部分窓マスクなどが候補である
  • 顕微鏡画像:回転・反転・コントラスト変動・ノイズなどが候補である(ただし方位情報が意味を持つ場合は回転不変が破綻する)

3.3 グラフベースSSL(ラベル伝播・ラプラシアン正則化)

データ点をノード、類似度をエッジ重み wij とする近傍グラフを構成し、滑らかなラベル関数 f を求める。

  • 典型目的minf iLfiyi2+μi,jwijfifj2グラフラプラシアン L=DW を用いるとi,jwijfifj2=2fLfとなる。

材料での対応

  • スペクトル間の類似度、組成記述子の距離、構造指紋(fingerprint)の距離などで wij を定義できる
  • 近傍グラフは「どの距離を信じるか」を暗に固定するため、距離設計が性能を支配しやすい

3.4 生成モデル系SSL(概念レベル)

VAEなどで p(x)p(x,y) の構造を学び、少数ラベルで条件付き予測を補強する考え方である。現在の実務では、(i) 一貫性正則化、(ii) 擬似ラベル、(iii) 自己教師あり事前学習+少数微調整、の方が扱いやすいことが多い。

4. 典型ユースケース

材料分野では「大量にあるが未ラベル」なデータが多い。SSLの適用候補は次の通りである。

データラベル例未ラベルが多い理由SSLの狙い
XRD(粉末・薄膜・その場)相、格子系、結晶系、結晶子サイズ区間相同定は人手と知識を要する相同定・異常検知・自動分類の省力化
XAFS/XPS/XMCD酸化数、配位、局所環境クラス高品質ラベルは解析が高コスト状態推定、クラスタリング支援
顕微鏡画像(SEM/TEM/Kerr等)組織クラス、欠陥有無、ドメイン状態アノテーションが重い欠陥検出、状態分類、物性代理
DFT/MD計算相安定、生成エネルギー、磁気状態計算条件統一や後処理が負担未整備データを活かして性能向上
合成ログ成功/失敗、収率カテゴリ成果の定義が揺れやすい早期のスクリーニング精度向上

5. 実務で効きやすい設計指針

  1. ラベルの定義を先に固めるべきである
    相・状態・成功判定の基準が揺れると、未ラベルの利用が逆効果になりやすい。

  2. 物理妥当なデータ拡張を作るべきである
    スペクトルの拡張は「装置由来の揺らぎ」と「物性由来の差」を混同しない範囲で設計すべきである。

  3. データ分割は材料リーク対策を優先すべきである
    同一物質の条件違い、近縁組成・近縁構造が学習・評価にまたがると見かけ性能が上がりやすい。組成ブロック分割、系ブロック分割、条件ブロック分割を検討すべきである。

  4. 外れ値(open-set)を想定すべきである
    ラベルなしデータに未知相・未知状態が混入しやすい。擬似ラベルの採用条件、外れ値検出、オープンセットSSLの発想を導入すべきである。

  5. 学習曲線を「ラベル予算」で描くべきである
    $ n_L $ を増やしたときの性能曲線を比較し、SSLの実利(ラベル削減量)を示すのが材料応用では説得力が高い。

6. まとめ

  • 半教師あり学習は、少量ラベルと大量未ラベルを併用して性能を上げる枠組みであり、材料科学の高コストラベリング問題に適合する方法である。代表格は擬似ラベル(自己学習)と一貫性正則化であり、グラフベースSSLも距離設計次第で強力である。
  • 材料応用での鍵は、モデル選択よりも、ラベル定義、物理妥当な拡張、リークのない分割、外れ値混入への備えにある。これらを先に設計した上でSSLを導入するのが実務的である。