Neural Entropyによる深層学習モデル評価
本稿は、拡散モデルにおける情報の消失と再注入を、非平衡熱力学の枠組みで定量化する Neural Entropy を整理する。Neural Entropyを評価軸として用いる際に、何を測っているか、何と比較できるか、どこに限界があるかを数式と実験事実に基づいて記述する。
参考ドキュメント
[1] A. Premkumar et al., Neural Entropy, OpenReview (NeurIPS 2025).
https://openreview.net/forum?id=f6AYwCvynr [2] 伊藤創祐, 確率熱力学・ゆらぎの定理とエントロピー生成(数理科学 2024 解説PDF).
https://sosuke110.com/surikagaku2024.pdf [3] 東京大学 工学系研究科 プレスリリース(2025-08-01), 非平衡熱力学の知見から拡散モデルの最適手法を提案.
https://www.t.u-tokyo.ac.jp/press/pr2025-08-01-001
1. Neural Entropyが狙う評価対象
Neural Entropyは、拡散モデルがノイズからデータ分布へ戻る際に必要となる「追加の情報注入」を、ネットワークが担う補正の大きさとして測る指標である。生成品質(FIDなど)そのものではなく、生成過程が要求する不可逆性の強さと、それを実現するためにネットワークが学習して保持する情報量に焦点がある。
この指標は、同じデータ・同じ拡散設定でも、ネットワーク構造(U-Net、注意機構、MLPなど)や学習条件(データ数、ノイズスケジュール)で数値が変わる。したがって、生成物の見た目だけでは比較しにくい「内部でどれだけ情報を背負っているか」を、モデル間比較の軸として導入する意義がある。
2. 背景となる発想
2.1 拡散モデルは情報を一度消してから戻す
拡散モデルは、順方向でデータにノイズを加えていく過程(順過程)と、ノイズからデータを生成する過程(逆過程)から構成される。順過程は一般にエントロピー生成を伴う不可逆過程であり、逆過程はその不可逆性に抗して情報を注入する操作として解釈できる。
この不可逆性を定量化する道具が確率熱力学であり、時間順方向の経路分布と時間逆方向の経路分布の差(KLダイバージェンス)としてエントロピー生成を表す議論が広く用いられる。確率熱力学の日本語解説として、Langevin過程の経路確率とエントロピー生成、KLの関係が整理されている。
参考: [2]
2.2 非平衡熱力学と拡散モデルの接点
拡散モデルは非平衡熱力学の視点と相性が良いが、生成誤差・ノイズスケジュール・散逸量を理論的に結びつける試みは近年活発化している。国内では、拡散モデルのノイズスケジュール選択に非平衡熱力学の不等式を用いる研究がプレスリリースとして紹介されている。
参考: [3]
Neural Entropyは、こうした接点のうち「ネットワークが保持する情報」を、エントロピー生成と対応づけて測ろうとする点に特徴がある。拡散モデルの評価を、生成物の外形だけでなく、不可逆性と情報注入の観点で評価可能にする狙いがある。
3. 拡散過程と準平衡分布
論文では、時間反転の記述を明確にするため、順過程を新しい時間変数で書き直し、確率微分方程式(SDE)として表現する。
ここで
また、各時刻
4. 総エントロピー生成と情報ギャップ
4.1 総エントロピー生成の形
拡散過程における総エントロピー生成
この式が意味するところは、情報のズレが大きい時刻ほど、また拡散の強さが大きい時刻ほど、不可逆性の寄与が増えるという点にある。特に、後述するスコア(対数密度勾配)の差が大きいほど、順過程が準平衡へ緩和する方向と、実際に分布が動いている方向の間に強いミスマッチがあることを示す。
各記号と各項の意味
状態ベクトルであり、画像生成の拡散モデルであれば画素や潜在表現を並べた次元ベクトルに相当する。ここでの議論は 次元一般で書かれており、次元が高いほどスコアの幾何学が複雑になりやすい。
時刻における確率密度である。順方向の拡散(ノイズ付加)を行うと、 は一般に初期分布 の情報を失いながら変形していく。
時刻に対応づけた準平衡分布である。拡散係数やドリフトをその時刻の値に固定して十分長く回したときに到達する分布として定義され、初期条件の記憶を保持しない参照点になる。 と
それぞれと のスコア(score)である。スコアは、確率密度の高い方向へ向かう局所的な勾配情報を与え、拡散モデルの逆過程やスコア推定の中心量として現れる。
準平衡が要求するスコアと、実際の分布が持つスコアの差である。これは、同じ拡散強度の下で、準平衡へ向かう緩和の向きと、現分布が持つ局所的な形状の向きが食い違っている度合いを表す。
ユークリッドノルムの二乗である。スコア差の二乗は、局所的なズレを符号に依らず大きさとして測るために用いられ、空間全体で平均されることでグローバルなズレ指標となる。
時刻の分布 に関する期待値である。つまり、ズレは の一点で測るのではなく、実際にその時刻に取りうる状態(確率密度が高い領域)を重視して平均される。 と重み
拡散(ノイズ注入)の強さを表す係数である。が大きい時刻は、状態が強く拡散されるため、同じスコア差でも不可逆性の寄与が増える形で重み付けされる。 時間積分
ある瞬間のズレではなく、過程全体で累積したズレを測るために時間積分が入る。ノイズスケジュールの違いはの分布を通じてこの積分の配分を変え、どの時間帯が支配的になるかを変化させる。
直感的な読み方
右辺の被積分関数は、時刻
4.2 KLによる解釈
確率熱力学では、時間順方向の経路分布と時間逆方向の経路分布のKLダイバージェンスが、総エントロピー生成に一致する、または境界項を除いて一致する形が現れる。言い換えると、同じ時間区間で生じた軌道が「順方向としてどれだけ起こりやすいか」と「逆方向としてどれだけ起こりやすいか」の比を平均したものが、不可逆性を与える。
この見方は、単に
5. Entropy Matchingとネットワーク補正場
5.1 逆過程の理想形と、ネットワークが担う補正
順過程(ノイズ付加)を時間反転して元の分布へ戻す逆過程は、理想的にはスコア
この式は、ノイズだけで動く過程に対して、ネットワークが状態依存の力を加えて分布を望ましい方向へ導く、という構造を明示している。特に
各記号と各項の意味
逆過程(生成過程)における状態である。付近ではノイズに近い分布から出発し、 に向けてデータ分布に近づくように設計される。
順過程のドリフトを表す関数であり、ここでは時間引数がとして挿入される。時間反転を意識した表記であり、順過程での時刻と逆過程での時刻が対応づく形になる。
ブラウン運動による拡散項であり、生成過程にもノイズが残ることを表す。 が時間依存であれば、生成の各段階で揺らぎの強さが変化する。
ネットワークが出力するベクトル場であり、状態と時刻 に依存する。確率過程の言葉では、これはドリフトに追加される制御入力であり、分布を変形させる主役となる。
ネットワーク出力がドリフトに寄与する項である。の係数は、同じ でもノイズの強い段階で効果が増幅されることを意味し、時間方向での情報注入の配分に影響する。
5.2 Entropy Matchingの損失
Entropy Matchingでは、準平衡スコア
この損失の中心は、括弧内がゼロに近づくこと、すなわち
各記号と各項の意味
Entropy Matchingの損失であり、補正場の当てはまりの悪さを表す。値が小さいほど、ネットワークが準平衡と現分布のズレを打ち消す方向へ出力できている。と
1次元でのスコア表記であり、次元では に置き換わる。スコアは密度の形状情報を担うため、補正は局所的な幾何を整える操作として解釈できる。
準平衡が要求する形状と、現分布の形状のズレを与える。これが大きい領域は、順過程で情報が強く残っている、または準平衡が粗くて現分布と異なる、といった要因で生じる。
ネットワークが出力する補正場である。最適化が進むほど、この項がスコア差を打ち消す方向に働き、括弧内全体が小さくなる。重み
と期待値
総エントロピー生成と同じ重み構造を持つため、不可逆性の寄与が大きい時間帯・領域の誤差が優先される。結果として、学習は時間方向にも空間方向にも均等ではなく、難しい区間がどこかを反映しやすい。
6. Neural Entropyの定義と推定式
6.1 理想的なNeural Entropy
学習が完全で、ネットワークが必要な補正を過不足なく表現できる状況では、ネットワークが保持すべき情報量の下限が総エントロピー生成
この定義は、生成が可能かどうかの二値ではなく、生成過程が要求する不可逆性と、それを打ち消すために必要な補正の規模を、同じ単位系の内部量として扱うために置かれる。ここでの情報量は、経路測度の差を埋めるための制御コストと対応づく量として扱われる点に意味がある。
6.2 学習が不完全なときの実用的Neural Entropy
学習が不完全な場合、理想基準
右端の式が示すのは、Neural Entropyがネットワーク出力の大きさだけで評価できるという点である。すなわち、スコアそのものを明示的に推定して比較するのではなく、学習済みモデルが各時刻にどれだけ強い補正を出しているかを積算することで、内部量としての情報注入規模を直接測れる。
差分が に落ちる理由
ここでは、スコア差を
と置く。すると総エントロピー生成は
の形になる。
一方でEntropy Matchingの損失は(
であり、二乗を展開すると
が成り立つ。ここで
論文の設定では、学習された
各記号と各項の意味
学習済みモデルに対して計算されるNeural Entropyである。値が大きいほど、生成過程でネットワークが強い補正を広い時間帯・広い領域で出していることを意味する。
理想的に必要な不可逆性コストから、学習誤差として残った部分を引いた量である。学習が進みが小さくなるほど、 は に近づく。
時刻の分布が重い領域における補正場の強さを平均したものである。外れ値的な状態ではなく、生成過程で実際に通る領域が強く寄与する形になる。 重み
ノイズ強度が大きい時間帯での補正は、Neural Entropyへ強く反映される。スケジュール設計がの時間配分を左右するため、比較実験では を揃えることが重要となる。
7. 測り方(数値積分とモンテカルロ)
Neural Entropyの推定は、時間積分と期待値の推定に還元されるため、基本的にはモンテカルロで実装される。時間は
時間方向の積分は離散化に依存するため、ノイズスケジュールが急変する区間では刻みの取り方が数値誤差に直結する。国内の拡散研究でもノイズスケジュール選択の理論根拠が議論されており、スケジュールが誤差と散逸を同時に左右する点はNeural Entropyの推定でも重要になる。
参考: [3]
8. 論文が報告する主要観測と、評価指標としての読み方
8.1 データ数に対する対数スケーリング
論文および公式実装は、Neural Entropy
この観測は、データ追加が常に線形に効くわけではないことを、内部量として可視化している。生成画像の品質も同様に、初期は改善が大きいが、十分なデータ量では限界効用が小さくなるという見え方になる。
8.2 アーキテクチャ・学習設定の比較軸
Neural Entropyは、同じデータであっても、ネットワーク構造の表現能力や誘導バイアスで変わりうる。例えば、注意機構の有無、U-Netの深さ、MLPの幅などが、同等品質に到達するまでに必要な
この点は「品質指標が同じでも、内部でどれだけ情報注入が必要か」が異なる状況を区別できることを意味する。モデル圧縮や蒸留を考える際にも、
9. 他の評価指標との比較
| 指標 | 測っている量 | 強み | 限界 |
|---|---|---|---|
| 生成品質(FIDなど) | 出力分布の外形的近さ | 人間の知覚と相関しやすい | 内部で何が起きたかは見えにくい |
| 対数尤度・下界 | 密度推定の整合性 | 理論的に明確な比較が可能 | 近似や下界評価の設計に依存しやすい |
| 学習損失(SM/DM) | 目的関数の最小化度合い | 学習過程の追跡が容易 | 指標自体が目的関数依存で横比較が難しい |
| Sharpness/平坦性 | 解の安定性の代理量 | 一般化議論と接続しやすい | 定義の揺れが大きく一意でない |
| Neural Entropy | 不可逆性に抗する情報注入量 | 拡散の物理量と直結し内部量として測定できる | 拡散モデル設定(スケジュール等)への依存が強い |
この比較表で重要なのは、Neural Entropyが「生成品質」と競合する指標ではなく、補完する指標として位置づく点である。品質が同程度でも、必要な情報注入が大きいモデルと小さいモデルがあり得るため、設計上の選好(計算量、堅牢性、データ効率)と結びつけて評価できる。
10. 解釈を深めるための理論的接続
10.1 経路測度の変更と制御コスト
参考: [2]
この接続は、Neural Entropyを単なる経験指標で終わらせず、設計可能な量にする。例えば、ノイズスケジュールを変えることは、積分の重み
10.2 散逸量・生成誤差・スケジュール選択
国内プレスリリースで述べられるように、生成誤差と熱力学的散逸を結ぶ不等式からスケジュールの選択原理を導く研究がある。Neural Entropyは散逸と直接結びつく量であるため、この種のスケジュール設計論と同じ座標系で議論しやすい。
ただし、Neural Entropyが直接に生成誤差やFIDを一意に決めるわけではない。散逸を減らす設計が必ずしも品質を保証しない可能性があるため、品質指標と併用して相関と因果を切り分ける必要がある。
11. 利用上の留意点
Neural Entropyは拡散係数
また、
12. まとめと展望
Neural Entropyは、拡散モデルが不可逆なノイズ付加を逆転するために必要な情報注入を、ネットワークが担う補正場の二乗ノルム積分として定量化する指標である。これにより、生成品質の外側に、不可逆性・散逸・データ効率を横断する比較軸が導入される。
今後は、スケジュール設計とNeural Entropyの時間分解解析を結びつけ、どの時間帯で何が情報的に重いかを設計可能にする方向が有望である。さらに、生成誤差や下流タスク性能と
その他参考文献
A. Premkumar et al., Neural Entropy (PDF).
https://openreview.net/pdf?id=f6AYwCvynr
公式実装(GitHub): akhilprem1/NeuralEntropy.
https://github.com/akhilprem1/NeuralEntropy
U. Seifert, Stochastic thermodynamics, fluctuation theorems, and molecular machines, Rep. Prog. Phys. (2012).
https://arxiv.org/abs/1205.4176
V. De Bortoli et al., Diffusion Schrödinger Bridge with applications to score-based generative modeling (2021).
https://arxiv.org/abs/2106.01357
S. Goldt and U. Seifert, Stochastic Thermodynamics of Learning, Phys. Rev. Lett. (2017).
https://link.aps.org/doi/10.1103/PhysRevLett.118.010601