分子動力学(MD)と機械学習
MDは時間発展を直接追跡できる一方、精度と計算規模の両立が常に制約となる。機械学習は、原子間相互作用の近似、希少事象のサンプリング、トラジェクトリ解析の各層でこの制約を再配分する技術である。
参考ドキュメント
- S. Batzner et al., E(3)-Equivariant Graph Neural Networks for Data-Efficient and Accurate Interatomic Potentials (NequIP), Nature Communications (2022) https://www.nature.com/articles/s41467-022-29939-5
- B. Deng et al., CHGNet as a pretrained universal neural network potential for charge-informed atomistic modelling, Nature Machine Intelligence (2023) https://www.nature.com/articles/s42256-023-00716-3
- 慶應義塾大学 プレスリリース「氷はなぜ滑る? 分子動力学計算と機械学習手法により…」(2024/06/24) https://www.keio.ac.jp/ja/press-releases/2024/6/24/28-160036/
1. MDで何が決まり、どこが難しいか
MDは原子配置
で決まる。
しかし実際には、(i)
機械学習の役割は概ね次の3類型に整理できる。
- 代替ポテンシャル:第一原理計算に近い
を学習し、長時間・大規模MDを可能にする - サンプリング支援:反応座標(CV)や生成モデルで、希少事象を効率よく引き出す
- 解析支援:特徴抽出・状態分割・遷移モデル化(MSM等)を自動化し、物理量へ還元する
2. 学習ポテンシャル(MLIP)の基本原理
2.1 教師データと学習目標
多くのMLIPは、第一原理計算(主にDFT)で得たエネルギー
で表される。ここで重要なのは、力がエネルギーの勾配として整合することであり、エネルギー保存と数値安定性に直結する。
2.2 対称性の取り込み
原子系のUは、少なくとも次を満たす必要がある。
- 並進不変性:全原子を同じだけ平行移動しても
は不変 - 回転(鏡映を含む)に対する整合:座標系の取り方に依らない
- 同種原子の置換(粒子ラベル)に対する不変性
- 局所性(多くの固体・液体で有効):遠方の寄与は減衰し近傍環境で支配される
MLIPは、記述子設計またはネットワーク構造でこれらを満たすように作られる。
3. MLIPの系統と選び分け
3.1 代表的ファミリー
| 系統 | 代表例 | 中核アイデア | 強み | 注意点 |
|---|---|---|---|---|
| 記述子+回帰(ガウス過程等) | GAP(SOAP) など | 局所環境を記述子に写像し回帰 | 高精度・不確かさ指標を得やすい場合がある | 高次元でコスト増、外挿に弱い |
| 高次元NN(原子分解型) | Behler–Parrinello NNP | 局所原子環境→原子エネルギーの和 | 古典より高精度、設計が成熟 | データ設計に強く依存 |
| Deep Potential系 | DeePMD | 局所表現を学習しエネルギーと力を再現 | 大規模並列・ワークフローが整う | 参照データ外で破綻しうる |
| 同変GNN(E(3) equivariant) | NequIP, MACE | 回転に対して同変な特徴を伝播 | データ効率と精度が高い傾向 | 学習/推論コスト、実装の複雑さ |
| 汎用・事前学習モデル | M3GNet, CHGNet, PFP等 | 大規模データで事前学習 | 探索の入口として強い | 目的現象の追加検証が必須 |
3.2 選定の基本方針
選定は「対象現象が、学習の含む配置空間に入っているか」でほぼ決まる。
- 欠陥拡散や相変態:遷移状態近傍・非平衡配置がデータに入っている必要がある
- 高温液体・アモルファス:融解近傍や多様な配位統計がデータに入っている必要がある
- 表面・界面・反応:切断/生成や電荷移動を含む配置を十分に含む必要がある
汎用モデルは「候補探索を速くする」用途で強く、最終結論(障壁、相安定、輸送係数など)には専用データでの補強が効く場合が多い。
4. 信頼性確保:外挿(未知領域)をどう扱うか
4.1 外挿が起きる典型例
- 高いひずみ、極端な圧力、欠陥密度が高い状態
- 未学習の化学環境(配位数、局所組成、短距離秩序)
- 反応経路の遷移状態、照射損傷の高エネルギー衝突状態
4.2 不確かさ推定とアクティブラーニング
代表的な考え方は「不確かさが大きい配置を見つけ、第一原理で追加ラベルして学習を更新する」である。 反復構造は次の4段に整理できる。
- 学習(training)
- 探索(exploration:MLIP-MDで広くサンプル)
- 選別(selection:不確かさや異常を検出)
- 付与(labeling:第一原理で追加計算)
この循環で、目的現象を覆う配置空間へモデルを拡張していく。
5. MLによるサンプリング強化
MDが苦手な核生成・活性化過程は、自由エネルギー障壁によりイベント頻度が低いことが原因である。 機械学習は次の形で介入する。
5.1 反応座標(CV)推定
- トラジェクトリから低次元表現
を学習し、遷移に効く自由度を抽出する - 学習したCVをもとに、アンブレラサンプリング、メタダイナミクス等のバイアスを設計する
5.2 生成モデルによるサンプリング
- 平衡分布を直接サンプルする生成モデル(例:正規化フロー系)により、希少状態を効率よく生成する
- 生成分布と物理分布の整合(再重み付け)を組み合わせ、自由エネルギー差を評価する
6. MLによるトラジェクトリ解析(状態分割と動力学モデル)
原子配置は非常に高次元であり、「状態」「遷移」「時間スケール」を定義して初めて物理像になる。
6.1 状態の定義とクラスタリング
- 手作業の特徴量(RDF、配位多面体、局所秩序パラメータ等)
- 表現学習(オートエンコーダ、対比学習など)による特徴抽出
- 潜在空間でのクラスタリングにより、準安定状態を定義する
6.2 Markov状態モデル(MSM)と深層化
状態間遷移を確率過程として表現し、遷移行列から緩和時間や主要遷移経路を得る。 深層学習は、分割からMSM推定までを端から端へ最適化する枠組みを提供しうる。
7. 典型ワークフロー
- 目的現象の定義(相、欠陥、温度圧力範囲、観測量)
- 初期データ作成(結晶・欠陥・液体・界面の代表配置)
- MLIP学習(
/ / を中心に) - 予備検証
- 0 K:格子定数、弾性定数、相の順位
- 有限T:密度、RDF、拡散係数のオーダー
- 外挿検知 → 追加DFT → 再学習(必要に応じ反復)
- 生産計算(大規模MD、長時間統計)
- 解析(局所構造・遷移ネットワーク・自由エネルギー評価)
- 必要に応じて物性モデルへ還元(有効ハミルトニアン、粗視化モデル)
8. 注意点
- 検証が構造最適化だけで終わり、輸送・障壁・欠陥の記述が未確認のまま結論に進む
- 学習データが平衡近傍に偏り、遷移状態を外挿してしまう
- 長距離相互作用(クーロン、分極)や磁性寄与が支配的なのに、局所モデルに押し込む
- モデル間比較で、同一条件(セルサイズ、カットオフ、サンプル法)を揃えていない
まとめ
MDと機械学習の統合は、原子間ポテンシャルの高精度化だけでなく、希少事象の加速とトラジェクトリ解析の自動化まで含む枠組みへ拡張している。鍵は、対象現象を覆う配置空間をデータとして確保し、外挿を検知しながら反復的にモデルを強化する設計にある。これにより、欠陥・界面・アモルファス・相変態のような複雑系で、精度とスケールの両立を段階的に達成できるようになる。