Skip to content

Neural Entropyによる深層学習モデル評価

本稿は、拡散モデルにおける情報の消失と再注入を、非平衡熱力学の枠組みで定量化する Neural Entropy を整理する。Neural Entropyを評価軸として用いる際に、何を測っているか、何と比較できるか、どこに限界があるかを数式と実験事実に基づいて記述する。

参考ドキュメント

[1] A. Premkumar et al., Neural Entropy, OpenReview (NeurIPS 2025).
https://openreview.net/forum?id=f6AYwCvynr [2] 伊藤創祐, 確率熱力学・ゆらぎの定理とエントロピー生成(数理科学 2024 解説PDF).
https://sosuke110.com/surikagaku2024.pdf [3] 東京大学 工学系研究科 プレスリリース(2025-08-01), 非平衡熱力学の知見から拡散モデルの最適手法を提案.
https://www.t.u-tokyo.ac.jp/press/pr2025-08-01-001

1. Neural Entropyが狙う評価対象

Neural Entropyは、拡散モデルがノイズからデータ分布へ戻る際に必要となる「追加の情報注入」を、ネットワークが担う補正の大きさとして測る指標である。生成品質(FIDなど)そのものではなく、生成過程が要求する不可逆性の強さと、それを実現するためにネットワークが学習して保持する情報量に焦点がある。

この指標は、同じデータ・同じ拡散設定でも、ネットワーク構造(U-Net、注意機構、MLPなど)や学習条件(データ数、ノイズスケジュール)で数値が変わる。したがって、生成物の見た目だけでは比較しにくい「内部でどれだけ情報を背負っているか」を、モデル間比較の軸として導入する意義がある。

2. 背景となる発想

2.1 拡散モデルは情報を一度消してから戻す

拡散モデルは、順方向でデータにノイズを加えていく過程(順過程)と、ノイズからデータを生成する過程(逆過程)から構成される。順過程は一般にエントロピー生成を伴う不可逆過程であり、逆過程はその不可逆性に抗して情報を注入する操作として解釈できる。

この不可逆性を定量化する道具が確率熱力学であり、時間順方向の経路分布と時間逆方向の経路分布の差(KLダイバージェンス)としてエントロピー生成を表す議論が広く用いられる。確率熱力学の日本語解説として、Langevin過程の経路確率とエントロピー生成、KLの関係が整理されている。
参考: [2]

2.2 非平衡熱力学と拡散モデルの接点

拡散モデルは非平衡熱力学の視点と相性が良いが、生成誤差・ノイズスケジュール・散逸量を理論的に結びつける試みは近年活発化している。国内では、拡散モデルのノイズスケジュール選択に非平衡熱力学の不等式を用いる研究がプレスリリースとして紹介されている。
参考: [3]

Neural Entropyは、こうした接点のうち「ネットワークが保持する情報」を、エントロピー生成と対応づけて測ろうとする点に特徴がある。拡散モデルの評価を、生成物の外形だけでなく、不可逆性と情報注入の観点で評価可能にする狙いがある。

3. 拡散過程と準平衡分布

論文では、時間反転の記述を明確にするため、順過程を新しい時間変数で書き直し、確率微分方程式(SDE)として表現する。D次元の順過程の一例は次の形である。

dYs=b+(Ys,s)ds+σ(s)dB^s.

ここで b+ はドリフト、σ(s) は等方的な拡散係数(スカラー)であり、B^s はブラウン運動である。拡散係数が時間依存である場合でも、一定の条件(論文では b+/σ2 の時間依存が揃う設定)で、後述のエントロピー生成が扱いやすい形に落ちる。

また、各時刻 t のドリフトと拡散係数を固定して十分長く回したときに到達する「その時刻に対応する最小情報状態」として、準不変分布 peq(t)(x) を定義する。これは初期状態の記憶を持たず、係数の瞬間値だけで決まる分布として機能する。

4. 総エントロピー生成と情報ギャップ

4.1 総エントロピー生成の形

拡散過程における総エントロピー生成 Stot は、時間 t における状態分布 p(x,t) が、その時刻に対応づけた準平衡分布 peq(t)(x) からどれだけ離れているかを、時間方向に積算した量として表される。ここでの準平衡分布は、拡散係数やドリフトをその時刻の値に固定したときに到達する、記憶のない参照分布として働き、比較の基準となる。

Stot=0Tdtσ(t)22Ep(,t)[logpeq(t)logp(,t)2].

この式が意味するところは、情報のズレが大きい時刻ほど、また拡散の強さが大きい時刻ほど、不可逆性の寄与が増えるという点にある。特に、後述するスコア(対数密度勾配)の差が大きいほど、順過程が準平衡へ緩和する方向と、実際に分布が動いている方向の間に強いミスマッチがあることを示す。

各記号と各項の意味

  • xRD
    状態ベクトルであり、画像生成の拡散モデルであれば画素や潜在表現を並べた D 次元ベクトルに相当する。ここでの議論は D 次元一般で書かれており、次元が高いほどスコアの幾何学が複雑になりやすい。

  • p(x,t)
    時刻 t における確率密度である。順方向の拡散(ノイズ付加)を行うと、p(x,t) は一般に初期分布 p(x,0) の情報を失いながら変形していく。

  • peq(t)(x)
    時刻 t に対応づけた準平衡分布である。拡散係数やドリフトをその時刻の値に固定して十分長く回したときに到達する分布として定義され、初期条件の記憶を保持しない参照点になる。

  • logp(x,t)logpeq(t)(x)
    それぞれ p(x,t)peq(t)(x) のスコア(score)である。スコアは、確率密度の高い方向へ向かう局所的な勾配情報を与え、拡散モデルの逆過程やスコア推定の中心量として現れる。

  • logpeq(t)logp(,t)
    準平衡が要求するスコアと、実際の分布が持つスコアの差である。これは、同じ拡散強度の下で、準平衡へ向かう緩和の向きと、現分布が持つ局所的な形状の向きが食い違っている度合いを表す。

  • 2
    ユークリッドノルムの二乗である。スコア差の二乗は、局所的なズレを符号に依らず大きさとして測るために用いられ、空間全体で平均されることでグローバルなズレ指標となる。

  • Ep(,t)[]
    時刻 t の分布 p(x,t) に関する期待値である。つまり、ズレは x の一点で測るのではなく、実際にその時刻に取りうる状態(確率密度が高い領域)を重視して平均される。

  • σ(t) と重み σ(t)2/2
    拡散(ノイズ注入)の強さを表す係数である。σ(t) が大きい時刻は、状態が強く拡散されるため、同じスコア差でも不可逆性の寄与が増える形で重み付けされる。

  • 時間積分 0Tdt
    ある瞬間のズレではなく、過程全体で累積したズレを測るために時間積分が入る。ノイズスケジュールの違いは σ(t) の分布を通じてこの積分の配分を変え、どの時間帯が支配的になるかを変化させる。

直感的な読み方

右辺の被積分関数は、時刻 t における「準平衡からの離れ具合」を、スコア差の二乗として測ったものである。そこに σ(t)2/2 が掛かるため、ノイズが強い時間帯に同程度のズレが残っていると、不可逆性の寄与が増えるという形になる。

4.2 KLによる解釈

確率熱力学では、時間順方向の経路分布と時間逆方向の経路分布のKLダイバージェンスが、総エントロピー生成に一致する、または境界項を除いて一致する形が現れる。言い換えると、同じ時間区間で生じた軌道が「順方向としてどれだけ起こりやすいか」と「逆方向としてどれだけ起こりやすいか」の比を平均したものが、不可逆性を与える。

この見方は、単に Stot の別表現というだけでなく、後段の制御の解釈へ直結する。経路分布のKLが「確率過程を別の確率過程へ変えるコスト」として表されるため、ネットワークが付加する項 eθ を、経路の変更を実現する制御入力として理解できる。

5. Entropy Matchingとネットワーク補正場

5.1 逆過程の理想形と、ネットワークが担う補正

順過程(ノイズ付加)を時間反転して元の分布へ戻す逆過程は、理想的にはスコア logp(x,t) を含む形で定まる。論文では、実際の生成過程を、順過程のドリフトにネットワーク出力を加える制御過程として表す。

dXt=(b+(Xt,Tt)+σ(Tt)2eθ(Xt,t))dt+σ(Tt)dBt.

この式は、ノイズだけで動く過程に対して、ネットワークが状態依存の力を加えて分布を望ましい方向へ導く、という構造を明示している。特に σ(Tt)2eθ に掛かっている点は、ノイズ強度が大きい領域ほど制御のスケールも同時に変わることを意味し、学習の難しさや寄与の偏りと結びつきやすい。

各記号と各項の意味

  • Xt
    逆過程(生成過程)における状態である。t=0 付近ではノイズに近い分布から出発し、t=T に向けてデータ分布に近づくように設計される。

  • b+(x,s)
    順過程のドリフトを表す関数であり、ここでは時間引数が s=Tt として挿入される。時間反転を意識した表記であり、順過程での時刻と逆過程での時刻が対応づく形になる。

  • σ(Tt)dBt
    ブラウン運動 Bt による拡散項であり、生成過程にもノイズが残ることを表す。σ が時間依存であれば、生成の各段階で揺らぎの強さが変化する。

  • eθ(x,t)
    ネットワークが出力するベクトル場であり、状態 x と時刻 t に依存する。確率過程の言葉では、これはドリフトに追加される制御入力であり、分布を変形させる主役となる。

  • σ(Tt)2eθ(Xt,t)dt
    ネットワーク出力がドリフトに寄与する項である。σ2 の係数は、同じ eθ でもノイズの強い段階で効果が増幅されることを意味し、時間方向での情報注入の配分に影響する。

5.2 Entropy Matchingの損失

Entropy Matchingでは、準平衡スコア logpeq(t) と実際の分布スコア logp の差を打ち消す補正として eθ を学習させる。論文はこれを二乗誤差で測る目的関数として与え、時間平均と分布平均を通じて過程全体での整合性を評価する。

LEM=0Tdtσ(t)22Ep(,t)[xlogpeqxlogp+eθ2].

この損失の中心は、括弧内がゼロに近づくこと、すなわち eθ がスコア差の負号を近似することにある。二乗ノルムが用いられるため、局所的に大きな誤差を残す領域があると損失へ強く効き、分布の裾や難しい領域での学習不足が表面化しやすい。

各記号と各項の意味

  • LEM
    Entropy Matchingの損失であり、補正場の当てはまりの悪さを表す。値が小さいほど、ネットワークが準平衡と現分布のズレを打ち消す方向へ出力できている。

  • xlogpeqxlogp
    1次元でのスコア表記であり、D 次元では logp に置き換わる。スコアは密度の形状情報を担うため、補正は局所的な幾何を整える操作として解釈できる。

  • xlogpeqxlogp
    準平衡が要求する形状と、現分布の形状のズレを与える。これが大きい領域は、順過程で情報が強く残っている、または準平衡が粗くて現分布と異なる、といった要因で生じる。

  • +eθ
    ネットワークが出力する補正場である。最適化が進むほど、この項がスコア差を打ち消す方向に働き、括弧内全体が小さくなる。

  • 重み σ(t)2/2 と期待値 Ep(,t)
    総エントロピー生成と同じ重み構造を持つため、不可逆性の寄与が大きい時間帯・領域の誤差が優先される。結果として、学習は時間方向にも空間方向にも均等ではなく、難しい区間がどこかを反映しやすい。

6. Neural Entropyの定義と推定式

6.1 理想的なNeural Entropy

学習が完全で、ネットワークが必要な補正を過不足なく表現できる状況では、ネットワークが保持すべき情報量の下限が総エントロピー生成 Stot と結びつく、という主張が出発点となる。そこで論文は、理想的な基準量として S^NNStot と同一視して定義する。

S^NN:=Stot.

この定義は、生成が可能かどうかの二値ではなく、生成過程が要求する不可逆性と、それを打ち消すために必要な補正の規模を、同じ単位系の内部量として扱うために置かれる。ここでの情報量は、経路測度の差を埋めるための制御コストと対応づく量として扱われる点に意味がある。


6.2 学習が不完全なときの実用的Neural Entropy

学習が不完全な場合、理想基準 S^NN の全てをネットワークが担えず、その欠損が LEM として現れる。論文はこの差分を実用的なNeural Entropyとして定義し、さらに計算可能な簡約式へ落とす。

SNN:=S^NNLEM=0Tdtσ(t)22Ep(,t)[eθ(Xt,t)2].

右端の式が示すのは、Neural Entropyがネットワーク出力の大きさだけで評価できるという点である。すなわち、スコアそのものを明示的に推定して比較するのではなく、学習済みモデルが各時刻にどれだけ強い補正を出しているかを積算することで、内部量としての情報注入規模を直接測れる。

差分が eθ2 に落ちる理由

ここでは、スコア差を

a(x,t):=logpeq(t)(x)logp(x,t)

と置く。すると総エントロピー生成は

Stot=0Tdtσ(t)22Ep(,t)[a(Xt,t)2]

の形になる。

一方でEntropy Matchingの損失は(D次元で書けば)

LEM=0Tdtσ(t)22Ep(,t)[a(Xt,t)+eθ(Xt,t)2]

であり、二乗を展開すると

a+e2=a2+e2+2ae

が成り立つ。ここで StotLEM を作ると、a2 の寄与が差分で消え、残りは e2 と内積項 ae になる。

論文の設定では、学習された eθa の負号を近似する形で最適化されるため、内積項が適切に打ち消される構造が得られ、結果として SNNeθ2 の積分へ簡約される。したがって SNN は、補正場がどれだけ強いかという実装可能な量へ落ち、モデル間比較に利用できる。

各記号と各項の意味

  • SNN
    学習済みモデルに対して計算されるNeural Entropyである。値が大きいほど、生成過程でネットワークが強い補正を広い時間帯・広い領域で出していることを意味する。

  • S^NNLEM
    理想的に必要な不可逆性コストから、学習誤差として残った部分を引いた量である。学習が進み LEM が小さくなるほど、SNNS^NN に近づく。

  • Ep(,t)[eθ(Xt,t)2]
    時刻 t の分布が重い領域における補正場の強さを平均したものである。外れ値的な状態ではなく、生成過程で実際に通る領域が強く寄与する形になる。

  • 重み σ(t)2/2
    ノイズ強度が大きい時間帯での補正は、Neural Entropyへ強く反映される。スケジュール設計が SNN の時間配分を左右するため、比較実験では σ(t) を揃えることが重要となる。

7. 測り方(数値積分とモンテカルロ)

Neural Entropyの推定は、時間積分と期待値の推定に還元されるため、基本的にはモンテカルロで実装される。時間は tUnif[0,T] のようにサンプリングし、各 t における Xt を生成過程または関連分布からサンプリングして eθ(Xt,t)2 を評価する。

時間方向の積分は離散化に依存するため、ノイズスケジュールが急変する区間では刻みの取り方が数値誤差に直結する。国内の拡散研究でもノイズスケジュール選択の理論根拠が議論されており、スケジュールが誤差と散逸を同時に左右する点はNeural Entropyの推定でも重要になる。
参考: [3]

8. 論文が報告する主要観測と、評価指標としての読み方

8.1 データ数に対する対数スケーリング

論文および公式実装は、Neural Entropy SNN が学習データ数 N に対してほぼ logN スケールで増える観測を強調する。言い換えると、新しいデータを追加したときにネットワークが追加で吸収する情報量が概ね 1/N で減衰する。

この観測は、データ追加が常に線形に効くわけではないことを、内部量として可視化している。生成画像の品質も同様に、初期は改善が大きいが、十分なデータ量では限界効用が小さくなるという見え方になる。

8.2 アーキテクチャ・学習設定の比較軸

Neural Entropyは、同じデータであっても、ネットワーク構造の表現能力や誘導バイアスで変わりうる。例えば、注意機構の有無、U-Netの深さ、MLPの幅などが、同等品質に到達するまでに必要な SNN の水準を変える可能性がある。

この点は「品質指標が同じでも、内部でどれだけ情報注入が必要か」が異なる状況を区別できることを意味する。モデル圧縮や蒸留を考える際にも、SNN を保持したままパラメータを削れるかという観点が生じる。

9. 他の評価指標との比較

指標測っている量強み限界
生成品質(FIDなど)出力分布の外形的近さ人間の知覚と相関しやすい内部で何が起きたかは見えにくい
対数尤度・下界密度推定の整合性理論的に明確な比較が可能近似や下界評価の設計に依存しやすい
学習損失(SM/DM)目的関数の最小化度合い学習過程の追跡が容易指標自体が目的関数依存で横比較が難しい
Sharpness/平坦性解の安定性の代理量一般化議論と接続しやすい定義の揺れが大きく一意でない
Neural Entropy不可逆性に抗する情報注入量拡散の物理量と直結し内部量として測定できる拡散モデル設定(スケジュール等)への依存が強い

この比較表で重要なのは、Neural Entropyが「生成品質」と競合する指標ではなく、補完する指標として位置づく点である。品質が同程度でも、必要な情報注入が大きいモデルと小さいモデルがあり得るため、設計上の選好(計算量、堅牢性、データ効率)と結びつけて評価できる。

10. 解釈を深めるための理論的接続

10.1 経路測度の変更と制御コスト

SNNE[eθ2] に落ちる形は、確率過程を別の確率過程へ変換する際の「制御エネルギー」として自然に現れる。確率測度の変更(Girsanov変換)の枠組みでは、ドリフト差の二乗積分が経路KLに対応することが多く、確率熱力学の整理とも整合する。
参考: [2]

この接続は、Neural Entropyを単なる経験指標で終わらせず、設計可能な量にする。例えば、ノイズスケジュールを変えることは、積分の重み σ(t)2/2 を時間方向で再配分することに近く、どの時間帯で情報注入が重いかを設計する問題へ落ちる。

10.2 散逸量・生成誤差・スケジュール選択

国内プレスリリースで述べられるように、生成誤差と熱力学的散逸を結ぶ不等式からスケジュールの選択原理を導く研究がある。Neural Entropyは散逸と直接結びつく量であるため、この種のスケジュール設計論と同じ座標系で議論しやすい。

ただし、Neural Entropyが直接に生成誤差やFIDを一意に決めるわけではない。散逸を減らす設計が必ずしも品質を保証しない可能性があるため、品質指標と併用して相関と因果を切り分ける必要がある。

11. 利用上の留意点

Neural Entropyは拡散係数 σ(t) と、その下で定義された準平衡 peq(t) を含むため、設定が変われば数値のスケールも変わる。異なる論文・異なる実装間で比較する場合、スケジュール、時間正規化、期待値の取り方(どの分布で平均するか)を揃えないと比較が破綻する。

また、eθ2 は高次元で外れ値の影響を受けやすく、サンプル数が不足すると推定分散が大きくなる。推定値の不確かさは、平均値だけでなく分散や信頼区間に相当する量も併記することで、議論が安定する。

12. まとめと展望

Neural Entropyは、拡散モデルが不可逆なノイズ付加を逆転するために必要な情報注入を、ネットワークが担う補正場の二乗ノルム積分として定量化する指標である。これにより、生成品質の外側に、不可逆性・散逸・データ効率を横断する比較軸が導入される。

今後は、スケジュール設計とNeural Entropyの時間分解解析を結びつけ、どの時間帯で何が情報的に重いかを設計可能にする方向が有望である。さらに、生成誤差や下流タスク性能と SNN の関係を、多データ・多アーキテクチャで系統的に検証することで、深層学習の評価が「出力」から「不可逆性に抗する内部量」へ拡張される余地がある。

その他参考文献

A. Premkumar et al., Neural Entropy (PDF).
https://openreview.net/pdf?id=f6AYwCvynr

公式実装(GitHub): akhilprem1/NeuralEntropy.
https://github.com/akhilprem1/NeuralEntropy

U. Seifert, Stochastic thermodynamics, fluctuation theorems, and molecular machines, Rep. Prog. Phys. (2012).
https://arxiv.org/abs/1205.4176

V. De Bortoli et al., Diffusion Schrödinger Bridge with applications to score-based generative modeling (2021).
https://arxiv.org/abs/2106.01357

S. Goldt and U. Seifert, Stochastic Thermodynamics of Learning, Phys. Rev. Lett. (2017).
https://link.aps.org/doi/10.1103/PhysRevLett.118.010601