非線形次元削減
非線形次元削減(Nonlinear Dimensionality Reduction)は、高次元データが低次元多様体(manifold)上に分布するという仮定の下で、近傍関係や確率的類似度を保ちながら低次元へ埋め込む方法群である。材料科学では、スペクトル・回折・構造記述子・画像特徴などの複雑な変動を、相・欠陥・局所構造・プロセス軌跡として可視化・整理するために用いられる。
参考ドキュメント
- van der Maaten & Hinton, Visualizing Data using t-SNE (JMLR, 2008) https://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf
- McInnes, Healy, Melville, UMAP: Uniform Manifold Approximation and Projection (arXiv, 2018) https://arxiv.org/abs/1802.03426
- Tenenbaum, de Silva, Langford, A Global Geometric Framework for Nonlinear Dimensionality Reduction (Science, 2000) https://www.science.org/doi/10.1126/science.290.5500.2319
1. 位置づけ
- 目的
- 可視化(2D/3D)による相分離、混相、外れ値、ドリフトの検出
- 低次元特徴の抽出(クラスタリング、回帰、分類の前処理)
- 連続変化の抽出(組成スイープ、熱処理条件、時系列測定の軌跡)
- 材料データで非線形が効きやすい例
- XRD/XAFS/XPS/Ramanのスペクトル変化が線形和では表せない(ピーク位置移動、形状変化、混相)
- 組成・プロセス・微細組織が階層構造を持ち、局所的には連続だが全球的には分岐する
- 構造記述子(SOAP/ACSF等)や画像特徴が高次元で、局所近傍だけが意味を持つ
2. 近傍グラフと埋め込み最適化
データ点を
- 近傍を定義する(
近傍、または半径 近傍) - 類似度(重み)を作る:
(距離、カーネル、確率など) - 低次元座標
( )を、 を保つように求める
材料科学では、(1)(2) を支配するのが表現と距離である。
- スペクトル:相関距離、コサイン距離、Wasserstein距離など
- 組成ベクトル:L1/L2、元素類似度を含む距離
- 構造記述子(SOAP等):既定のカーネル距離 距離が変わると「似ている定義」が変わり、埋め込みも変わるためである。
3. 代表的手法
| 手法 | 何を保つか | 得意 | 苦手・注意 |
|---|---|---|---|
| t-SNE | 近傍の確率的類似度 | クラスタの分離可視化 | グローバル距離の解釈が難しい、パラメータ依存 |
| UMAP | 近傍グラフの位相(ファジー連結) | 局所とある程度の大域の両立、スケール性 | パラメータで形が変わる、距離の解釈に節度が必要 |
| Isomap | 近傍グラフ上の測地距離 | 大域形状(曲がった多様体) | 近傍グラフが切れる・穴があると破綻 |
| LLE | 局所線形再構成重み | 局所が線形な多様体 | 非一様サンプリングやノイズで不安定 |
| Laplacian Eigenmaps | 近傍の滑らかさ(グラフラプラシアン) | 局所構造保持、クラスタ傾向 | 大域の距離情報は弱い |
| Diffusion Maps | 拡散過程に基づく距離(拡散距離) | ノイズに比較的頑健、連続変化の抽出 | パラメータと拡散時間の選択が必要 |
| Kernel PCA | カーネル空間でのPCA | 非線形特徴を線形分解 | カーネル設計と計算量(n×n)が支配 |
4. 各手法の要点
4.1 t-SNE:近傍確率のKL最小化
高次元での近傍関係を条件付き確率
- 高次元側(ガウス)
- 距離
を用いて を定義し、perplexity(有効近傍数)で局所スケールを決める
- 距離
- 低次元側(スチューデントt分布)
を t分布型の重い裾で定義し、crowding問題を緩和する
- 目的関数(代表形)
材料科学での使い方
- 目的:混相・相分離の可視化、異常測定(外れ)検出、ラベルの分離度評価
- 注意:図上のクラスタ間距離や軸方向に物理的意味を過剰に与えないことが重要である
4.2 UMAP:近傍グラフのクロスエントロピー最適化
UMAPは、データが多様体上にあるという仮定の下で、近傍関係を表すグラフ構造を低次元でも保つように最適化する。実装的には
- kNNグラフを作り、点ごとに局所スケールを調整して近傍の連結度を定義する
- 低次元での近傍確率
を定義し、クロスエントロピー型目的関数で一致させる
概念的な目的関数は
のような形で表される(
材料科学で重要なパラメータ設計
- n_neighbors:局所から大域へ、どのスケールの構造を見たいか
- min_dist:クラスタの詰まり具合(混相の連続性を見たい場合は大きめが有利なことがある)
- metric:材料表現に合う距離を選ぶ(スペクトルなら相関距離、組成ならL1等)
4.3 Isomap:測地距離(グラフ最短路)をMDSで保存
Isomapは、近傍グラフ上の最短路距離で測地距離を近似し、その距離を保つように古典MDSで埋め込む。 手順は
- kNNグラフを構成(辺重みは元空間距離)
- 最短路距離
を計算(測地距離の近似) を入力に古典MDSで座標を得る
材料科学での読み替え
- 組成スイープや処理条件スイープで、連続に変化する「大域的な曲がり」を見たい場合に有効である
- グラフが切れる(測定条件が混在、表現が不適切、kが小さい)と破綻しやすい
4.4 LLE:局所線形再構成を保つ
各点
- 重み推定
- 埋め込み
材料科学での要点
- 局所がほぼ線形(小さな条件変化でスペクトルが滑らかに変わる等)なら良い座標を与えやすい
- ノイズが大きい、サンプリングが疎・非一様、近傍が誤ると不安定になりやすい
4.5 Laplacian Eigenmaps:局所滑らかさを保つ
近傍グラフの重み
これはグラフラプラシアン L = D-W(Dは次数行列)を用いた固有値問題につながる。 局所構造保持が強く、クラスタ傾向の可視化に向く。
材料科学での使い方
- 近傍が意味を持つデータ(類似スペクトル、類似構造、類似顕微鏡特徴)で効きやすい
- 大域距離の再現より、局所関係の保持を重視する用途に向く
4.6 Diffusion Maps:拡散過程に基づく幾何
近傍カーネルからマルコフ遷移行列 P を作り、拡散(ランダムウォーク)で近い点を近くする。 固有値・固有ベクトル
のように定義する。
材料科学での読み替え
- 組成やプロセスが連続に変化する「反応座標」や「代表モード」を抽出したい場合に相性が良い
- ノイズに対して比較的頑健な傾向があり、連続軌跡の可視化に使われることが多い
4.7 Kernel PCA:カーネルで非線形PCA
非線形写像
5. 入力設計:何を点として埋め込むか
- 組成・プロセス表:元素含有量+工程条件(温度、時間、雰囲気)を連結し、標準化して距離を設計する
- スペクトル:前処理(背景、正規化、エネルギー軸整列)後に、相関距離やcosine距離で近傍を定義する
- 回折:ピークリスト(位置・強度・幅)をトークン化して距離を定義する、あるいは全プロファイルを用いる
- 構造:SOAP/ACSF等の不変記述子を使うか、グラフ埋め込み(GNN)後のベクトルを使う
- 画像:CNN等で特徴抽出してから非線形次元削減する(生画像をそのまま距離に入れると不安定になりやすい)
6. 注意点
距離・前処理を先に固定する スペクトルの正規化方法や距離の設計が、埋め込みの結果を支配する。
複数seed・複数パラメータで安定性を確認する t-SNE/UMAPはパラメータで見え方が変わるため、同じ結論が保たれる範囲を確認する。
目的に応じて手法を選ぶ
- クラスタの見えを優先:t-SNE, UMAP
- 大域の曲がりを優先:Isomap
- 局所線形を仮定:LLE
- 連続座標(反応座標)を重視:Diffusion Maps
- 解釈の節度を守る
- t-SNE/UMAPの軸やクラスタ間距離は、因果や物理座標を直接意味しない場合が多い
- 可視化は仮説生成に用い、相同定・追加測定・計算で裏を取る設計が必要である
まとめ
非線形次元削減は、多様体仮説と近傍関係の保持を軸に、高次元材料データを可視化・整理するための中核技術である。材料科学での成否は、モデルそのものよりも表現・距離・前処理・安定性確認に依存し、目的(クラスタ分離か、連続軌跡か、大域形状か)に応じて t-SNE/UMAP/Isomap/LLE/Diffusion Maps などを使い分けることが要点である。
参考資料
- データ解析入門10 <t-SNEによる次元削減>(日本語, PDF) https://www.orist.jp/dl/22-14.pdf
- データ解析入門11 <UMAPによる次元削減>(日本語, PDF) https://orist.jp/technicalsheet/22-16.pdf