シンボリック回帰(Symbolic Regression)
シンボリック回帰は、データから回帰式そのもの(数式の形)を探索し、人間が読める閉形式モデルを得る手法である。材料科学では、物性予測の高精度化だけでなく、解釈可能な記述子(descriptor)や支配因子の発見、外挿の足場づくりに使われる。
参考ドキュメント
- Wang et al., Symbolic regression in materials science (MRS Communications, 2019) https://link.springer.com/article/10.1557/mrc.2019.85
- Cranmer, Interpretable Machine Learning for Science with PySR and SymbolicRegression.jl (MLST, 2023; arXiv版) https://arxiv.org/abs/2305.01582
- PySR: シンボリック回帰とは何か?(日本語解説) https://www.codemajin.net/symbolic-regression-with-pysr/
1. 位置づけ
シンボリック回帰は、機械学習の枠組みでは回帰問題(関数近似)に属するが、通常の回帰(線形回帰、カーネル法、ニューラルネットなど)と決定的に異なる点は、パラメータではなく数式構造(演算子と変数の組合せ)まで探索対象に含める点にある。
材料科学における典型的な位置づけは次である。
- 解釈可能な代理モデル(surrogate)を得る
- 記述子探索や次元削減(とくにSISSO系)に用いる
- 実験・計算の混在データから、単位系や対称性を踏まえた関係式候補を抽出する
2. 問題設定:誤差と複雑さの同時最適化
入力
代表的には次の形である。
- 誤差(例:二乗誤差)
- 複雑さ(例:木のノード数、深さ、項数、演算子数)
- スカラー化(例)
実運用では、単一の最適解というより、誤差と複雑さのトレードオフ(パレートフロント)上の式候補を得て、物理妥当性と用途に応じて選ぶ設計が多い。
3. 探索空間:何を「式」として許すか
探索空間は、変数と定数、演算子集合から定義される。材料用途では、探索空間の設計が結果の科学的妥当性を支配しやすい。
- 変数
- 組成(元素量、原子分率)
- 構造記述子(格子定数、配位数、結合長、局所対称性)
- 電子構造(DOS由来特徴、帯域幅、占有数、電気陰性度差など)
- プロセス(温度、時間、雰囲気、冷却速度)
- 観測特徴(ピーク位置・幅・強度、画像統計量)
- 定数
- 実数定数の最適化(後述の定数フィッティングが重要である)
- 演算子(例)
- 四則演算、累乗、log/exp、sqrt、abs、min/max
- 材料では単位整合性や符号制約のために制限することが多い
4. 主要アプローチの類型
| 類型 | 代表例 | 特徴 | 材料科学で効きやすい場面 |
|---|---|---|---|
| 遺伝的プログラミング型(GPSR) | 木構造を交叉・突然変異で探索 | 柔軟だが探索が重く、過剰複雑化しやすい | 変数間の非線形結合が強い経験式探索、画像・スペクトル特徴からの式化 |
| スパース回帰・圧縮センシング型 | SISSO、SINDy系 | 候補関数ライブラリから少数項を選ぶ | 記述子発見、少数データでの頑健な式候補、外挿を意識したモデル |
| ハイブリッド(NN + SR) | AI Feynman系 | NNで近似し、分離性などの性質を使って式へ落とす | 物理法則回収、対称性・分解可能性がある現象の式復元 |
| ルール・制約付きSR | 次元解析制約、単調性制約など | 物理妥当性を探索に組み込む | 無次元群の発見、材料設計則の抽出、負の導電率などの不合理回避 |
補足として、材料分野で「記述子を発見する」文脈では、SISSO(sure independence screening and sparsifying operator)を含むスパース型の系統が広く使われる。
5. 解釈性
材料研究でシンボリック回帰が有利になりやすい理由は次である。
- 人が読めるモデルが得られるため、支配因子の仮説を立てやすい
- 条件外(未知組成域、未知温度域)に出るときに、物理的に検討可能な形で議論できる
- 既存理論式(例:比例則、スケーリング、指数則)の近傍に解が落ちやすい設計が可能である
ただし、外挿が常に保証されるわけではなく、過学習した閉形式が「もっともらしく」見える危険があるため、評価設計が必須である。
6. ユースケース
6.1 記述子探索(descriptor discovery)
- 目的:物性
を少数の組合せ特徴 で説明する式を得る - 例:熱力学量、相安定性、触媒活性、バンドギャップ、導電率など
- 実務的意義:材料設計指針を「短い式」として提示できる
6.2 プロセス–組織–物性(PSP)関係の式化
- 焼鈍温度・時間・冷却速度 → 粒径・相分率 → 強度・磁気特性
- 機械学習のブラックボックス予測ではなく、経験式候補を得て因子を整理する用途である
6.3 スペクトル・画像特徴の式による要約
- XRD/XAFS/XPSなどで、ピーク特徴量(位置、幅、強度比)から物性や相を説明する式を探索する
- 顕微鏡像から抽出した統計量(粒径分布、テクスチャ、フラクタル次元など)を式にまとめる
6.4 高スループット計算・実験のスクリーニング規則
- 多数候補の中から、単純な閾値則や比率則を発見し、探索空間を絞る
- アクティブラーニングと組み合わせると、少ない反復で選別規則が見つかる場合がある
7. 設計の要点
7.1 単位・次元の扱い
材料データは単位系が混在しやすい。単位整合性を壊す演算(例:足し算の不適切な混合)を許すと、見かけの精度は出ても科学的に破綻しやすい。
- 無次元化(基準量で割る)
- 次元解析に基づく形(無次元群)を先に設計する
- 次元整合を満たす演算子・構文のみ許す
7.2 物理制約の組込み
- 非負制約(例:拡散係数、濃度)
- 単調性(例:温度上昇で反応速度が増加する範囲)
- 境界条件(極限で既知の挙動へ近づく)
これらは、探索空間の制限、罰則項の追加、候補式のフィルタリングで組み込むのが現実的である。
7.3 データ分割(リーク対策)
材料では近縁系混入により性能が過大評価されやすい。
- 同一組成・同一結晶系の派生を同じ分割にまとめる(group split)
- 未知元素系、未知温度域などの外挿テストを別に設計する
- 実験条件(装置・ロット)の混入を監視する
8. 実務フロー
- 目的を定義する(予測か、記述子発見か、設計則抽出か)
- 変数を整備する(単位統一、欠損、外れ値、測定誤差の把握)
- 探索空間を設計する(演算子、次元、制約、候補特徴)
- 多目的最適化で式候補を得る(パレートフロント)
- 妥当性検査を行う
- 外挿テスト
- 物理整合性(符号、極限、対称性)
- 再サンプリングで式が安定に再現されるか(頑健性)
- 最後に、人間の解釈で採択する(精度だけで決めない)
9. 注意点
- 探索問題は本質的に難しく、ノイズが強いと“見かけ上の法則”が出やすい
- 共線性が強い材料特徴では、同等性能の式が多数出て同定不能になりやすい
- 解釈可能性は「短い式」であるだけでは保証されず、物理文脈に置けるかが重要である
- 発見された式は、因果というより説明候補であるため、追加実験・追加計算で検証する前提が必要である
まとめ
シンボリック回帰は、データから閉形式の数式を探索し、材料特性の説明式や設計則、解釈可能な記述子を得るための枠組みである。材料科学では、単位・対称性・物理制約・分割設計を先に置くことで、精度と同等かそれ以上に、外挿性と科学的妥当性を高めやすい手法である。最終的には、パレートフロント上の複数候補を物理妥当性で選別し、仮説として検証可能な形へ落とし込む運用が鍵である。