変分オートエンコーダー(VAE: Variational Autoencoder)
VAEは、データを連続な潜在変数に圧縮し、その潜在空間から新しいデータを確率的に生成できる深層生成モデルである。材料科学では、分子・結晶・微細組織・スペクトルなどを表現し、逆設計(候補生成→スクリーニング)に使われる基盤技術である。
参考ドキュメント
- Kingma, D. P. and Welling, M., Auto-Encoding Variational Bayes, arXiv:1312.6114 (2013) https://arxiv.org/abs/1312.6114
- Xie, T. et al., Crystal Diffusion Variational Autoencoder for Periodic Material Generation, OpenReview (NeurIPS 2021 WS) https://openreview.net/forum?id=03RLpj-tc_
- 深層学習技術による結晶探索の現状と今後(結晶成長関連の解説、VAE/GAN等の生成モデルに言及), J-STAGE(PDF) https://www.jstage.jst.go.jp/article/jjacg/49/1/49_49-1-02/_pdf/-char/en
1. VAEは何ができるのか
VAEで狙う価値は次の3点である。
- 生成:潜在空間から新しい候補(組成、構造、組織、スペクトルの形状など)を提案できる
- 圧縮:高次元データ(構造、画像、スペクトル)を低次元の連続ベクトルに写像できる
- 連続最適化:潜在空間上で補間・探索ができ、逆問題(所望特性→候補生成)と相性が良い
2. 潜在変数モデルとELBO
観測データを
- 事前分布:
(典型例: ) - 尤度(デコーダ):
で定義する。
ただし真の事後分布
(エンコーダ)を導入し、次の目的関数(ELBO: Evidence Lower BOund)を最大化する。
- 第1項:再構成(データを復元できるか)
- 第2項:正則化(潜在分布を事前分布に近づけ、サンプリング可能にする)
3. 再パラメータ化トリック
典型的に、近似事後をガウス分布で表す:
このとき
と変形して、サンプリングを含む計算を微分可能にする(再パラメータ化)ことで学習が進む。
4. AEとVAEの違い
| 項目 | 通常のオートエンコーダ(AE) | VAE |
|---|---|---|
| 潜在表現 | 1点(決定論) | 分布(確率論) |
| 生成 | 原則できない(潜在が整形されない) | |
| 目的関数 | 再構成誤差が中心 | 再構成 + KL正則化(ELBO) |
| 典型用途 | 次元削減、ノイズ除去 | 生成、逆設計、表現学習 |
5. 材料データに対する「表現(representation)」設計
VAEの成否は、入力
代表的な入力例
- 組成:元素比ベクトル、one-hot+連続量、組成埋め込み
- 結晶構造:格子定数+分率座標+元素種(周期境界・対称性の扱いが難所)
- 分子:SMILES、分子グラフ、3D配座
- 微細組織:SEM/TEM/EBSD画像、位相場画像、セグメンテーションマスク
- スペクトル:XRD/XAFS/XPS/XMCDなどの強度列
結晶・原子配置で重要な制約・不変性
- 並進不変性(原点の取り方)
- 回転不変性(座標系)
- 原子の入れ替え不変性(同種原子の順序)
- 周期境界条件(PBC)
- 化学的妥当性(価数・結合距離・局所配位)
これらをモデル側(等変性ネットワーク、物理帰納バイアス)か、表現側(グラフ化、局所環境記述子化、対称性の付与)で扱う設計が必要である。
6. 代表的な活用パターン
6.1 逆設計(候補生成→スクリーニング)
- 既知データ(安定相、実験成功例、既存材料)でVAEを学習
- 潜在空間からサンプリングして候補を生成
- 物理・化学の妥当性フィルタ(組成制約、距離、相安定性など)
- 高速ML予測→上位のみDFT/実験で検証
- 検証結果を学習に戻し、探索を反復する
6.2 条件付きVAE(cVAE)で“狙い撃ち生成”
目的特性
を学習し、所望
6.3 結晶生成:VAEを核にした手法(例:CDVAE系)
結晶の周期性や局所配位の制約を取り込みつつ、潜在空間から安定な結晶候補を生成する枠組みが提案されている。 VAE単体で完結させるより、拡散過程(段階的な“整形”)と組み合わせて妥当性を上げる方向が強い。
7. 生成品質の評価指標
材料の生成では「それっぽい」より「物理的に成立する」が重要である。
- 再構成性能:再構成誤差、ELBO
- 妥当性(validity):制約(組成和、距離、PBC、価数など)を満たす割合
- 一意性(uniqueness):同一候補の重複率
- 新規性(novelty):学習データにない候補の割合
- 分布整合:既知データの分布(元素頻度、格子体積、配位数、スペクトル形状)との一致
- 下流評価:DFT/実験での成功率、性能分布
8. 実装・運用上の注意
事後崩壊(posterior collapse):KL項が強すぎて
になり、潜在が意味を失う問題である
対策:KLアニーリング、-VAE(KL重み調整)、free-bits、デコーダ能力の調整などが有効である 物理制約の無視:結晶や組成は制約が強く、単純なデコーダでは不正候補が増える
対策:表現の工夫(対称性・PBC)、制約付き生成、事後フィルタ、VAE+拡散・フローなどの併用が現実的であるデータバイアス:学習データに偏りがあると、生成候補も偏る
対策:負例(不安定相)を扱う設計、再重み付け、ドメイン分割での検証が有効である評価コストの爆発:生成が増えるほどDFT/実験が足りなくなる
対策:高速スクリーニング、段階評価、AL/BOと統合して取得予算を制御するのが有効である
まとめ
VAEは、潜在変数モデルと変分推論に基づく生成AIであり、材料の表現学習・逆設計・候補生成に有効である。材料特有の制約(周期性、対称性、化学妥当性)を扱うため、表現設計と制約処理、下流検証(DFT/実験)を統合した運用が肝要である。