機械学習のための確率・統計入門
確率・統計は、不確実な観測から規則性を抽出し、将来や未観測を定量的に予測するための言語である。機械学習における損失関数、最適化、汎化、評価指標の多くは、確率モデルと統計的推測の上に構成されている。
参考ドキュメント
- Stanford CS229 Probability Theory Review(英語PDF) https://cs229.stanford.edu/section/cs229-prob.pdf
- NIST/SEMATECH e-Handbook of Statistical Methods(英語) https://www.itl.nist.gov/div898/handbook/
- 数理統計学(講義ページ,日本語) https://sites.google.com/site/ryoichisuzukifinance/home/講義関連/数理統計学
1. 確率の基礎:確率空間と事象
確率を厳密に定義するには、確率空間
- 標本空間
:起こり得る結果(アウトカム)の全集合 - 事象
: の部分集合のうち「確率を割り当てる対象」として許す集合族( -加法族) - 確率測度
:次を満たす写像 - 互いに素な事象列
に対して
この 3) が「可算加法性」であり、確率が長い事象列にも整合的に拡張される根拠である。
条件付き確率とベイズの定理
条件付き確率は「
これからベイズの定理が得られる。
さらに、
が成り立つ。ベイズの定理と全確率の公式は、生成モデル・分類・推定の形を導く中心道具である。
2. 確率変数と分布:離散と連続
確率変数
分布関数(CDF)
CDF は単調非減少で、
離散分布:確率質量関数(PMF)
連続分布:確率密度関数(PDF)
確率は密度の積分で与えられる:
連続型では
3. 期待値・分散・共分散:平均とゆらぎの数式
期待値(平均)
離散型:
連続型:
一般に、関数
である。これは「変数を
分散(ばらつき)
分散は「平均との差の二乗平均」であり、平均との差を取ってから二乗することで正負が打ち消されない。
共分散・相関
相関係数は無次元化した量:
4. 複数変数:同時分布と条件付き期待値
二変数
周辺化(marginalization):
条件付き分布:
条件付き期待値
重要な性質(全期待値の法則):
これは「情報を一度条件付けして平均し、さらにそれを平均しても同じ」という整合性を述べる。
5. 基本分布:機械学習で頻出する形
| 分布 | 記法 | パラメータ | 平均 | 分散 | 主な役割 |
|---|---|---|---|---|---|
| ベルヌーイ | 0/1 事象 | ||||
| 二項 | 成功回数 | ||||
| ポアソン | 事象到来数 | ||||
| 正規 | 誤差・中心極限定理 | ||||
| ガンマ | 待ち時間・共役事前 | ||||
| ベータ | 確率の事前分布 | ||||
| 多項 | — | カテゴリ回数 |
正規分布は、加法ノイズ・回帰・線形モデルの自然な基礎を与える。ベータ分布やディリクレ分布は「確率ベクトル」に対する事前分布として現れやすい。
6. 大数の法則と中心極限定理
大数の法則(LLN)
独立同分布
は
これは「平均をとると安定する」理由を与える。
中心極限定理(CLT)
さらに
が成り立つ(
7. 統計モデルと推定
観測データ
尤度と対数尤度
尤度:
対数尤度:
積を和へ変換することで微分・最適化が扱いやすくなる。
最尤推定(MLE)
「データが最も起きやすくなるパラメータ」を選ぶ基準である。
例:正規分布
よって
が得られる。最小二乗と同じ形になっている点が、回帰の損失関数と直結している。
MAP 推定
ベイズでは
である。MAP(最大事後確率)推定は
となる。
8. ベイズ推定
ベイズ推定の中心は「点を一つ出す」だけでなく「不確実性を分布で保持する」ことにある。
事後分布
ここで分母
は周辺尤度(エビデンス)である。モデル比較では
予測分布(事後予測)
新しいデータ
となる。パラメータの不確実性を積分で平均化するため、過度に確信的な予測を避けやすい。
共役事前分布(計算が閉じる形)
共役とは、事前分布と尤度の組が同じ分布族に閉じ、事後分布が解析的に得られる性質である。
例:ベルヌーイ
となる。観測が事前パラメータに加算される形で、解釈が明快である。
9. 区間推定
信頼区間(頻度論)
信頼区間
ここで確率はデータのランダム性に対して取っている点が重要である。
信用区間(ベイズ)
事後分布
を満たす区間
両者は見た目が似ても、確率の意味(何がランダムか)が異なる。
10. 仮説検定:p値と尤度比の考え方
帰無仮説
p値の定義
p 値は「
p 値は
尤度比検定(LRT)
11. 情報理論:損失関数の意味を与える
機械学習の多くの損失は「情報量」から導ける。
エントロピー
離散変数
不確実性の平均量である。
KL ダイバージェンス
等号は
交差エントロピーと最尤
経験分布
12. モンテカルロと近似
ベイズ推定や予測分布では
のような積分が現れるが、解析的に得られないことが多い。そこでサンプル平均で近似する。
MCMC はこのサンプル生成を行う代表的手段である。重要度サンプリングは別の分布から引いて重みで補正する。
13. 機械学習モデルと確率統計の対応表
| 機械学習の要素 | 確率・統計での見方 | 代表式 |
|---|---|---|
| 回帰(最小二乗) | 正規ノイズの MLE | |
| ロジスティック回帰 | ベルヌーイ尤度の最大化 | |
| 正則化 | 事前分布の導入(MAP) | |
| クラスタリング(GMM) | 混合分布の推定 | |
| 交差エントロピー損失 | 交差エントロピー/KL 最小化 |
ここで
14. 分布、推定、区間の例
14.1 二項データの MLE とベータ事前の事後
import numpy as np
from scipy.stats import beta
# 観測:成功=1, 失敗=0
x = np.array([1,0,1,1,0,1,0,1,1,1])
n = len(x)
k = int(x.sum())
# MLE: p_hat = k/n
p_mle = k / n
# Beta(a,b) prior -> posterior Beta(a+k, b+n-k)
a, b = 2.0, 2.0
post_a, post_b = a + k, b + (n - k)
# posterior mean
p_post_mean = post_a / (post_a + post_b)
# 95% credible interval
ci = beta.ppf([0.025, 0.975], post_a, post_b)
print("n, k =", n, k)
print("p_mle =", p_mle)
print("posterior mean =", p_post_mean)
print("95% credible interval =", ci)ここで、MLE は一点推定であり、ベイズは
14.2 中心極限定理の雰囲気:標本平均の分布
import numpy as np
import matplotlib.pyplot as plt
rng = np.random.default_rng(0)
# 非対称な分布(指数分布)からの標本平均
S = 5000
n = 30
means = [rng.exponential(scale=1.0, size=n).mean() for _ in range(S)]
plt.figure()
plt.hist(means, bins=40, density=True)
plt.xlabel("sample mean")
plt.ylabel("density")
plt.grid(True)
plt.show()指数分布は非対称であるが、標本平均は
まとめと展望
確率・統計は、(1) 分布と期待値、(2) 尤度に基づく推定、(3) 不確実性の扱い(区間・事後分布)、(4) 情報量に基づく損失の意味づけ、という柱で機械学習の多くを支える。回帰や分類の損失関数がどのような確率モデルに対応しているかを理解すると、モデル設計・正則化・評価の数式が一つの見取り図の上で整理できるようになる。
今後の展望としては、(i) 高次元での安定した推定(共分散推定やベイズ近似)、(ii) 近似推論(変分推論や MCMC の改良)、(iii) 不確実性推定を学習系に組み込む研究(予測分布・校正・意思決定との接続)が重要である。確率統計の基礎を軸に、最適化・線形代数・情報理論を往復できる形にすると、より広い機械学習手法の理解へ滑らかに接続できる。
参考文献
- Stanford CS229 Probability Review(別版,英語PDF) https://cs229.stanford.edu/notes2022fall/cs229-probability_review.pdf
- 東京大学 講義資料:ベイズ統計の導入(日本語PDF) https://bin.t.u-tokyo.ac.jp/model24/lecture/Nakanishi.pdf
- 愛媛大学 確率・統計 講義ノート(日本語PDF) https://www.math.sci.ehime-u.ac.jp/~ishikawa/0418-ps.pdf
- 中心極限定理に関する概説資料(日本語PDF) https://www.ms.u-tokyo.ac.jp/yoshida.pdf
- NIST:Probability Distributions(英語) https://www.itl.nist.gov/div898/handbook/eda/section3/eda36.htm
- NIST:Gallery of Distributions(英語) https://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm