機械学習のための多変量解析入門
多変量解析は、複数の変数が同時に変動する観測を、行列の言語で要約・可視化・推定・判別するための枠組みである。機械学習では、次元削減・特徴抽出・分類・クラスタリング・多視点(マルチモーダル)学習などの多くが、多変量解析の拡張として理解できるものである。
参考ドキュメント
- 村田昇, 「多変量解析の基本」講義ノート(日本語PDF) https://www.stat.titech.ac.jp/~mura/Lecture/mva/mva.pdf
- scikit-learn User Guide(英語) https://scikit-learn.org/stable/user_guide.html
- Ledoit, O. and Wolf, M., “A Well-Conditioned Estimator for Large-Dimensional Covariance Matrices” 関連PDF(英語) https://www.ledoit.net/ole1a.pdf
データ表現と記法
観測が
と書く。教師ありではラベル(または目的変数)を
中心化と標準化
多変量解析の多くは「平均との差」や「共分散」に基づくため、中心化(平均を 0 にする)をまず考える。
各列の平均ベクトルを
である(
さらに列ごとの尺度が大きく異なると、分散の大きい変数が支配的になりやすいので、標準偏差で割る標準化(分散を 1 にそろえる)もよく用いられる。標準化は「相関行列ベースの解析」に対応しやすい。
共分散・相関・二次形式
中心化データ
と定義する。
共分散はスケール依存なので、標準化後の共分散は相関行列
マハラノビス距離
ユークリッド距離が等方的(円形)な尺度であるのに対し、共分散を考慮する距離がマハラノビス距離である。点
である(
多変量正規分布
多変量解析の多くは正規性を仮定するか、正規性が導く線形・二次の形を利用する。
x\sim\mathcal{N}(\mu,\Sigma)
p(x)=\frac{1}{(2\pi)^{p/2}\det(\Sigma)^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^{\top}\Sigma^{-1}(x-\mu)\right)
\mathrm{Var}(z)=w^{\top}Sw
\max_{w}; w^{\top}Sw\quad \text{s.t.}\quad w^{\top}w=1
Sw=\lambda w
\max_{W\in\mathbb{R}^{p\times k}} \mathrm{tr}(W^{\top}SW)
X_{c}=U\Sigma V^{\top}
X_{c}\approx U_{k}\Sigma_{k}V_{k}^{\top}
r_{j}=\frac{\lambda_{j}}{\sum_{\ell=1}^{p}\lambda_{\ell}}
x = \mu + \Lambda f + \varepsilon
f\sim\mathcal{N}(0,I_{q}),\quad \varepsilon\sim\mathcal{N}(0,\Psi)
\mathrm{Cov}(x)=\Lambda\Lambda^{\top}+\Psi
X = AS
S \approx WX
x\mid y=k \sim \mathcal{N}(\mu_{k},\Sigma_{k})
\delta_{k}(x)=x^{\top}\Sigma^{-1}\mu_{k}-\frac{1}{2}\mu_{k}^{\top}\Sigma^{-1}\mu_{k}+\log\pi_
J(w)=\frac{w^{\top}S_{B}w}{w^{\top}S_{W}w}
\Sigma_{xx}=\frac{1}{n-1}X^{\top}X,\quad \Sigma_{yy}=\frac{1}{n-1}Y^{\top}Y,\quad \Sigma_{xy}=\frac{1}{n-1}X^{\top}Y
\rho=\mathrm{corr}(u,v)= \frac{a^{\top}\Sigma_{xy}b}{\sqrt{a^{\top}\Sigma_{xx}a}\sqrt{b^{\top}\Sigma_{yy}b}}
p(x)=\sum_{k=1}^{K}\pi_{k}\mathcal{N}(x\mid\mu_{k},\Sigma_{k})
\sum_{i<j}\left(|y_{i}-y_{j}|{2}-\delta\right)^
T^{2}=n(\bar{x}-\mu_{0})^{\top}S^{-1}(\bar{x}-\mu_{0})
\hat{\Sigma}=(1-\alpha)S+\alpha T,\quad 0\le\alpha\le 1