機械学習のための情報理論入門
情報理論は、確率分布に基づいて「不確実性」や「情報の伝達量」を定量化する理論である。機械学習では、対数尤度、クロスエントロピー損失、KLダイバージェンス、相互情報量、変分推論の下限などが情報理論の量として統一的に理解できる。
参考ドキュメント
- C. E. Shannon, A Mathematical Theory of Communication, 1948(原論文PDF) https://people.math.harvard.edu/~ctm/home/text/others/shannon/entropy/entropy.pdf
- T. M. Cover and J. A. Thomas, Elements of Information Theory, 2nd ed.(教科書PDF) https://staff.ustc.edu.cn/~cgong821/Wiley.Interscience.Elements.of.Information.Theory.Jul.2006.eBook-DDU.pdf
- 電子情報通信学会 情報理論とその応用サブソサイエティ(SITAサブソ,日本語) https://www.ieice.org/ess/sita/
1. 情報量:自己情報量と符号長
ある事象
が小さいほど は大きくなる(起きにくいほど驚きが大きい)。 - 対数の底が 2 なら単位は bit、自然対数なら nat である。
は「最適な符号化における符号長」に対応するという直観を持つ( が大きいものほど短い符号で表すのが合理的である)。
この対応は、以降の「平均符号長」「最短平均符号長」とエントロピーの関係へつながる。
2. エントロピー:平均としての不確実性
離散確率変数
意味づけ:
は「平均的な驚き」または「平均的な不確実性」を表す。 - 符号化の観点では、最良の可逆圧縮における平均符号長の下限と結びつく(情報源符号化の定理)。
2.1 エントロピーの基本性質
離散型での代表的な性質である。
- 非負性:
- 一様分布で最大:
が 通り一様なら $ H(X)=\log|\mathcal{X}| $ - 連鎖律(チェインルール): $ H(X,Y)=H(X)+H(Y\mid X) = H(Y)+H(X\mid Y) $
ここで条件付きエントロピーは
であり、「
3. 交差エントロピーとKLダイバージェンス:学習の損失関数の中心
機械学習では「真の分布
3.1 交差エントロピー
同じ事象集合上の2つの分布
である。意味は「
3.2 KLダイバージェンス(相対エントロピー)
性質:
(Gibbs の不等式) は のときに限る - 対称ではない:一般に
3.3 三者の関係
よって、
4. 最尤推定とクロスエントロピー損失
データ
対数尤度は
負の対数尤度(NLL)を最小化することは、対数尤度を最大化することと同じである。
分類でのクロスエントロピー損失は、観測ラベルの経験分布
4.1 二値分類(ロジスティック回帰)
はベルヌーイ尤度のNLLであり、二値クロスエントロピー損失そのものである。
4.2 多クラス分類(softmax)
が多クラスのクロスエントロピー損失である。
5. 相互情報量:表現がどれだけ情報を保持しているか
2つの確率変数
であり、次の等価な表現がある。
意味づけ:
は「 を知ることで の不確実性がどれだけ減るか」を表す。 が独立なら なので となる。
5.1 条件付き相互情報量
第三の変数
である。因果推論やグラフィカルモデルでは、条件付き独立性と結びついて現れやすい。
6. 表現学習の「情報の減り方」
6.1 エントロピーと相互情報量の連鎖律
条件付きエントロピーの連鎖律:
相互情報量の連鎖律:
6.2 データ処理不等式(DPI)
が成り立つ。意味は「処理(写像・圧縮)を通すと情報は増えない」である。表現学習で
7. 連続変数:微分エントロピーと不変性
連続確率変数
で定義される。ただし、微分エントロピーは座標変換に対して不変ではなく、値が負になることもある。
一方、KLダイバージェンスは(適切な条件の下で)座標変換に対して不変であり、連続の場合でも「分布のずれ」の尺度として解釈が安定する。
相互情報量も KL として書けるため、連続でも解釈が安定しやすい。
8. 圧縮と汎化:MDL
情報理論の見方では、負の対数尤度は「符号長」に対応する。
これにモデルの複雑さ(パラメータの符号長、事前の対数項など)を足したものを最小化するという発想が MDL につながる。MAP 推定は
であり、
9. 変分推論とELBO:KL最小化としての学習
潜在変数
これは
という分解を持ち、ELBO 最大化は「近似事後
VAE はこの枠組みの代表例であり、復元項(対数尤度)とKL項(正則化)の和として学習が書ける。
10. 表現学習・対比学習と情報量
相互情報量
代表的には、対比学習(contrastive learning)で用いられる InfoNCE 目的関数は、相互情報量の下界と関係する形で導かれることがある(導出には仮定が要るが、「正例を高く、負例を低く」という形が情報量の増加と整合する)。
11. 主要な情報量の一覧表
| 量 | 定義 | 解釈(短い説明) |
|---|---|---|
| 自己情報量 | 事象 | |
| エントロピー | 不確実性の平均 | |
| 条件付きエントロピー | ||
| 交差エントロピー | ||
| KL | 分布のずれ(非対称) | |
| 相互情報量 | 共有情報、独立なら0 |
対数の底を 2 にすると単位は bit であり、情報量を「符号長」として直観しやすい。
12. エントロピー、KL、相互情報量を計算する
import numpy as np
def entropy(p, base=2.0):
p = np.asarray(p, dtype=float)
p = p[p > 0]
return -np.sum(p * (np.log(p) / np.log(base)))
def kl_divergence(p, q, base=2.0):
p = np.asarray(p, dtype=float)
q = np.asarray(q, dtype=float)
mask = (p > 0) & (q > 0)
return np.sum(p[mask] * (np.log(p[mask] / q[mask]) / np.log(base)))
def mutual_information(pxy, base=2.0):
pxy = np.asarray(pxy, dtype=float)
px = pxy.sum(axis=1, keepdims=True)
py = pxy.sum(axis=0, keepdims=True)
mask = pxy > 0
ratio = pxy[mask] / (px @ py)[mask]
return np.sum(pxy[mask] * (np.log(ratio) / np.log(base)))
# 例:コイン(Bernoulli)2通り
p = np.array([0.5, 0.5])
q = np.array([0.9, 0.1])
print("H(p) [bit] =", entropy(p))
print("H(p,q) [bit] =", -np.sum(p * np.log2(q)))
print("KL(p||q) [bit] =", kl_divergence(p, q))
# 例:2x2 の同時分布(独立でない例)
pxy = np.array([[0.4, 0.1],
[0.1, 0.4]])
print("I(X;Y) [bit] =", mutual_information(pxy))この例では、
13. 学習で頻出する対応関係のまとめ
- 交差エントロピー最小化
NLL 最小化 最尤推定 - ELBO 最大化
近似事後と真の事後の KL を小さくする方向 - 相互情報量は「共有情報」であり、表現
が入力 の何を保持しているかの尺度として現れる - KL は対称でないため、設計意図に応じて
と の意味が異なる(前者は の質量を外さない、後者は の質量を外さない、という違いとして現れる)
まとめと展望
情報理論の量(エントロピー、交差エントロピー、KL、相互情報量)は、確率分布の近似・推定・圧縮・表現という機械学習の中心課題を同じ言葉で書き直すための基盤である。特に、クロスエントロピー損失が最尤推定のNLLであること、変分推論がKL最小化と下限最大化として整理できることを押さえると、手法の違いが式の違いとして見通せる。
今後の展望としては、(i) 高次元データにおける情報量推定(相互情報量推定、密度比推定)、(ii) 表現学習における情報保存と圧縮の制御(情報ボトルネックなど)、(iii) 不確実性推定や校正と情報量の接続(予測分布のエントロピー、尤度の解釈)を、学習目的と評価指標の両面から統合していく方向が重要である。
参考文献
- 北海道大学OCW 情報理論 配布資料 #11(日本語PDF) https://ocw.hokudai.ac.jp/wp-content/uploads/2016/01/InformationTheory-2005-Note-11.pdf
- 高知工科大学 講義資料:相互情報量(日本語PDF) https://www.info.kochi-tech.ac.jp/mfukumot/Lecture/IT/materials/lec09.pdf
- 千葉大学 講義資料:情報量(エントロピー、ダイバージェンス、相互情報量)(日本語PDF) https://www.cfme.chiba-u.jp/~haneishi/class/jyohoriron/InformationTheory3.pdf
- 若杉耕一郎, 情報理論とその応用サブソサイエティの活動について(J-STAGE,日本語PDF) https://www.jstage.jst.go.jp/article/essfr/5/1/5_1_5/_pdf
- The Mathematical Theory of Communication (Shannon & Weaver, 1949)(PDF) https://pure.mpg.de/pubman/item/item_2383164_3/component/file_2383163/Shannon_Weaver_1949_Mathematical.pdf