Skip to content

深層学習の基礎と概念 (Bishop, 2024)

Deep Learning: Foundations and Concepts(Bishop & Bishop, データサイエンス技術文書, 2024)

本Wikiは、Bishop & Bishop による Deep Learning: Foundations and Concepts の章立てに沿って、深層学習を「確率・最適化・表現・分布」の観点から一貫した体系として整理するものである。予測と生成、推定とサンプリング、アーキテクチャと学習則の接続を、数式骨格を中心にまとめる。

参考ドキュメント

本書の目次と構造

本書は全20章であり、前半は確率と単層モデルから深層モデルへ、次に最適化と逆伝播、続いて主要アーキテクチャ(CNN/Transformer/GNN)へ進む。後半は構造をもつ分布、サンプリング、潜在変数、GAN、正規化フロー、オートエンコーダへ展開し、「分布を学ぶ」という視点を完成させる。

  • 第1部:導入と確率
    • (1) The Deep Learning Revolution
    • (2) Probabilities
    • (3) Standard Distributions
  • 第2部:予測モデル(回帰・分類・深層)
    • (4) Single-layer Networks: Regression
    • (5) Single-layer Networks: Classification
    • (6) Deep Neural Networks
  • 第3部:学習(最適化・逆伝播・正則化)
    • (7) Gradient Descent
    • (8) Backpropagation
    • (9) Regularization
  • 第4部:アーキテクチャ
    • (10) Convolutional Networks
    • (11) Structured Distributions
    • (12) Transformers
    • (13) Graph Neural Networks
  • 第5部:推論と生成(分布・サンプリング・潜在変数・生成モデル)
    • (14) Sampling
    • (15) Discrete Latent Variables
    • (16) Continuous Latent Variables
    • (17) Generative Adversarial Networks
    • (18) Normalizing Flows
    • (19) Autoencoders

以降では、各章を「狙い/主題/基本原理/解釈/次章への接続」の形で詳述する。

1. データサイエンスから見た深層学習の統一像

1.1 3つの視点:関数・確率・計算

深層学習は、次の3要素が一体化した枠組みである。

  • 関数近似:入力 x から出力 y を作る写像 fθ(x) の学習である。
  • 確率モデル:不確実性を含む分布 p(yx,θ)p(x) を学習する枠組みである。
  • 計算手法:大規模なパラメータ θ を勾配により更新する計算法である。

この3点が、回帰・分類・表現学習・生成モデルまで同じ骨格で結びつく。

1.2 学習問題の基本形(経験損失最小化)

データ {(xn,yn)}n=1N に対し、損失関数 を用いて

θ^=argminθ1Nn=1N(fθ(xn),yn)

を解く。データサイエンスとして重要なのは、損失が「当てはまり」と「不確実性(分布)」の両方を表現し得る点である。

確率的には、尤度 p(yx,θ) を導入して

θ^=argminθ[n=1Nlogp(ynxn,θ)]

と同等の形で書ける。回帰の二乗誤差、分類の交差エントロピーは、いずれも適切な分布仮定の下で負の対数尤度になる。

2. 各論

第1章 The Deep Learning Revolution

狙い
深層学習が何を変え、何を可能にしたかを概観し、本書全体の到達点を示す章である。性能向上の歴史だけでなく、データ量・計算量・表現の観点で「なぜ深層化が効くか」を言語化する。

主題

  • 表現学習という考え方(特徴量設計から表現の自動獲得へ)
  • 「層」を重ねることの意味(合成関数、階層表現、抽象化)
  • 学習の成功要因(計算資源、データ、最適化、正則化、アーキテクチャ)

基本原理(最小限)
層の合成としての深層モデル:

fθ(x)=fθL(L)fθL1(L1)fθ1(1)(x)

解釈
深層学習は「表現」と「予測」を同時に最適化できる枠組みであり、入力の構造(画像・系列・グラフ)に合わせた設計が性能の決定因になりやすいことを示す導入である。


第2章 Probabilities

狙い
深層学習を確率的推論として理解するための土台を作る章である。分布、条件付き確率、期待値、独立性、変数変換など、本書の後半(潜在変数、サンプリング、生成モデル)まで通用する道具を整える。

主題

  • 同時分布・周辺化・条件付き分布
  • ベイズ則、連鎖律
  • 期待値・分散・共分散、エントロピー
  • 独立性と条件付き独立性
  • 連続変数での積分と変数変換

基本原理
連鎖律:

p(x1,,xD)=d=1Dp(xdx1,,xd1)

周辺化:

p(x)=p(x,z)dz

ベイズ則:

p(zx)=p(xz)p(z)p(x)

エントロピーとKL:

H(p)=xp(x)logp(x),DKL(pq)=xp(x)logp(x)q(x)

解釈
評価指標(対数尤度、交差エントロピー)、不確実性推定、欠測や潜在構造を扱う枠組みが、すべて確率の言葉で統一される。


第3章 Standard Distributions

狙い
よく用いられる分布とその性質を整理し、尤度、共役事前、指数型分布族の見方を導入する章である。モデル化と損失の対応関係の理解が深まる。

主題

  • 離散分布:Bernoulli、Categorical、Binomial、Multinomial
  • 連続分布:Gaussian、Gamma、Beta、Dirichlet など
  • 指数型分布族と十分統計量
  • 共役性(頻繁に現れる場合の計算の簡潔化)

基本原理
指数型分布族(一般形):

p(xη)=h(x)exp(ηT(x)A(η))

ガウス分布:

N(xμ,Σ)=1(2π)D/2|Σ|1/2exp(12(xμ)Σ1(xμ))

解釈
回帰の二乗誤差はガウス雑音、分類の交差エントロピーはカテゴリ分布、カウントデータはポアソンや負の二項など、損失関数の選択が分布仮定と結びつく。


第4章 Single-layer Networks: Regression

狙い
回帰を単層モデルとして整理し、線形回帰から単層ニューラルネット(非線形基底)までつなぐ章である。損失と分布仮定の対応を明確にする。

主題

  • 線形回帰と最小二乗
  • 基底関数展開(特徴写像 ϕ(x)
  • 正則化付き回帰(リッジ回帰)
  • 出力に対する確率モデル(ガウス雑音)

基本原理
線形モデル:

y=wϕ(x)+b+ϵ,ϵN(0,σ2)

二乗誤差(負の対数尤度に対応):

L(w)=12Nn=1N(ynwϕ(xn))2

解釈
回帰では「平均を当てる」だけでなく、分散 σ2 の推定や予測区間の扱いが重要になり得る。単層回帰は、その後の深層回帰における損失設計の基本になる。


第5章 Single-layer Networks: Classification

狙い
分類を単層モデルとして整理し、ロジスティック回帰と多クラス分類(ソフトマックス)を、確率と損失(交差エントロピー)として一貫して説明する章である。

主題

  • 二値分類:ロジスティック回帰
  • 多クラス分類:ソフトマックス回帰
  • 交差エントロピーと負の対数尤度
  • 予測確率の解釈(キャリブレーションという観点)

基本原理
二値分類(Bernoulli):

p(y=1x)=σ(wϕ(x)),σ(a)=11+exp(a)

多クラス(Categorical):

p(y=kx)=exp(ak)jexp(aj),a=Wϕ(x)

交差エントロピー:

L=1Nn=1Nk=1Kynklogp(y=kxn)

解釈
分類では正解率だけでなく、ROC-AUC、PR-AUC、対数損失、確率校正など、目的に応じた評価が必要になる。交差エントロピーは推定(尤度最大化)と評価(分布のずれ)の両方を結ぶ。


第6章 Deep Neural Networks

狙い
深層ネットワークの基本要素(活性化、層、表現)を整理し、深層化がもたらす表現力と計算上の課題を導入する章である。

主題

  • 活性化関数(ReLU、tanh、sigmoid など)の役割
  • 深層化による表現の階層
  • 初期化、スケーリング、勾配消失・爆発の概念
  • 残差接続などの設計思想(後の章への伏線)

基本原理
多層パーセプトロン(例):

h(l)=ϕ(W(l)h(l1)+b(l)),y^=g(h(L))

解釈
深層モデルは表現の自動獲得により特徴設計の負担を減らす一方、最適化と汎化(過学習)の設計が中核になる。以降の章(勾配法、逆伝播、正則化)が必要となる理由がここで明確になる。


第7章 Gradient Descent

狙い
学習を「損失関数の最小化」として捉え、勾配降下法とその変種(確率的勾配、モメンタム、適応学習率など)を整理する章である。

主題

  • バッチ勾配降下と確率的勾配降下(SGD)
  • 学習率、ステップサイズ、スケジューリング
  • モメンタム、Nesterov、Adam系の直観
  • 目的関数の地形(鞍点、曲率)の見方(概念として)

基本原理
基本更新:

θt+1=θtηθL(θt)

ミニバッチ近似:

L(θ)1|B|nBθn(θ)

解釈
大規模データでは「全データで厳密な勾配」を計算しない設計が一般的であり、ノイズを含む勾配推定の性質を理解することが学習の安定性と速度に直結する。


第8章 Backpropagation

狙い
チェインルールによる勾配計算を、計算グラフと局所勾配の積み上げとして体系化する章である。深層学習の計算基盤を与える。

主題

  • 計算グラフ(関数合成の表現)
  • 逆モード自動微分(Reverse-mode AD)の考え方
  • 行列微分、ヤコビアンとベクトル-ヤコビアン積
  • 実装上の観点(メモリと再計算などの概念)

基本原理
合成関数の勾配(概念式):

Lx=Lyyx

層ごとの誤差伝播:

δ(l)=(W(l+1))δ(l+1)ϕ(a(l))

解釈
逆伝播は「モデルの設計」を「微分可能な計算」として表現できる限り、同じ学習枠組みに乗せられることを意味する。ここが、画像・テキスト・グラフ・生成モデルへの拡張を可能にする根である。


第9章 Regularization

狙い
汎化性能を高めるために、モデル容量・ノイズ・事前情報をどう取り入れるかを整理する章である。「損失最小化だけでは足りない」ことを数学的・概念的に押さえる。

主題

  • L2正則化(weight decay)とMAP推定の関係
  • L1正則化と疎性
  • ドロップアウト、ノイズ注入(確率的正則化の見方)
  • データ拡張(入力分布の拡張としての意味)
  • 学習停止規則(過学習抑制としての位置づけ)

基本原理
正則化付き目的関数:

minθ L(θ)+λΩ(θ)

L2正則化:

Ω(θ)=θ22

ベイズ的対応(概念)
L2はガウス事前 p(θ)exp(αθ22) に対応し、MAP推定の形になる。

解釈
データ数が有限である限り、推定には偏りと分散のコントロールが必要である。正則化は、過程を「安定な推定」に寄せるための統一的な道具である。


第10章 Convolutional Networks

狙い
畳み込みとプーリングの考え方を導入し、格子状データ(主に画像)に対する深層表現の基本をまとめる章である。

主題

  • 畳み込み(局所受容野、重み共有)
  • ストライド、パディング、プーリング
  • 特徴マップと階層的表現
  • 代表的構成(概念としての残差、正規化)

基本原理
離散畳み込み(概念):

y[i,j]=u,vk[u,v] x[iu,jv]

解釈
入力の対称性(平行移動)や局所相関を仮定として組み込むことで、学習すべき自由度が減り、データ効率が上がる。これは「構造を先に入れる」設計の典型例ではなく、基本例である。


第11章 Structured Distributions

狙い
独立同分布(i.i.d.)だけでは表せない依存構造を、確率分布の構造として表現する章である。後半の潜在変数モデル、サンプリング、生成へ向けて「構造をもつ確率モデル」の見方を作る。

主題

  • 依存構造の表現(連鎖、木、グラフ)
  • 因子分解、条件付き独立性の活用
  • エネルギー関数や因子グラフ的な視点(一般論として)
  • 系列・空間・関係データに対する分布設計の考え方

基本原理
構造化分布の因子化(概念):

p(x)=1Zcψc(xc)

ここで Z は正規化定数、ψc は局所因子である。

解釈
「データ点が互いに独立である」という仮定を緩め、系列、ネットワーク、階層構造などを扱う基盤になる。また、正規化定数や周辺化が難しくなる問題が、サンプリングや変分法へつながる。


第12章 Transformers

狙い
注意機構により、系列・集合上の相互作用を学習するTransformerの基本を体系化する章である。CNNとは異なる「グローバルな依存」を効率よく表す設計を理解する。

主題

  • 自己注意(Self-attention)
  • マルチヘッド注意
  • 位置情報(位置埋め込み、相対位置の考え方)
  • 残差接続、LayerNorm、FFNなどの基本構成

基本原理
スケールド内積注意:

Attention(Q,K,V)=softmax(QKdk)V

解釈
固定長の局所窓ではなく、入力全体の関係を重みとして取り込みやすい。系列予測だけでなく、一般のトークン集合処理として理解できる点が重要である。


第13章 Graph Neural Networks

狙い
グラフ上の表現学習を、局所集約(メッセージパッシング)として整理する章である。ノード・エッジ・グラフ全体の予測を統一的に扱う。

主題

  • 近傍集約と置換不変性
  • GCN系、注意型GNN(概念)
  • ノード分類、リンク予測、グラフ分類
  • グラフのスケーリング(サンプリング、ミニバッチの考え方)

基本原理
メッセージパッシング(一般形):

mv(t)=uN(v)ψ(hv(t),hu(t),euv),hv(t+1)=ϕ(hv(t),mv(t))

解釈
関係データ(推薦、知識グラフ、通信、分子など)において、特徴だけでなく関係そのものを学習の対象にできる。構造化分布の考え方(第11章)とも接続する。


第14章 Sampling

狙い
周辺化、期待値計算、生成などに必要なサンプリング法を整理する章である。後半の潜在変数モデル(離散・連続)の推論手法の基礎になる。

主題

  • モンテカルロ推定と分散
  • 重点サンプリング
  • MCMC(Metropolis-Hastings、Gibbs など)
  • 連続空間のサンプリング(概念としてのHMCなど)

基本原理
期待値のモンテカルロ推定:

Ep(x)[f(x)]1Ss=1Sf(x(s)),x(s)p(x)

重点サンプリング:

Ep[f(x)]=f(x)p(x)q(x)q(x)dx1Ss=1Sf(x(s))w(s),w(s)=p(x(s))q(x(s))

解釈
生成・推論の多くは積分が主役であり、その近似をどう作るかが結果の質を左右する。サンプリングは「推定量の性質(偏り・分散)」と直結するため、基礎を押さえる価値が高い。


第15章 Discrete Latent Variables

狙い
離散潜在変数を含むモデルを扱い、潜在クラス・混合・離散構造の推定と推論を整理する章である。

主題

  • 混合モデル(潜在クラス)
  • 事後分布 p(zx) の計算と近似
  • EMアルゴリズムの位置づけ(潜在変数の最尤推定)
  • 離散潜在の周辺化と計算量

基本原理
潜在変数つき尤度:

p(x)=zp(x,z)=zp(xz)p(z)

EMの下界(概念)
任意の q(z) に対し

logp(x)Eq(z)[logp(x,z)logq(z)]

を最大化する視点が、変分法へもつながる。

解釈
クラスタリングやセグメンテーションなど、観測の背後に「離散状態」があると仮定する場面は多い。離散潜在は直観的だが、周辺化が和になるため爆発しやすく、近似の考え方が重要になる。


第16章 Continuous Latent Variables

狙い
連続潜在変数モデルを扱い、変分推論と生成モデル(VAEを含む)の基礎を整理する章である。

主題

  • 潜在変数モデル p(x,z)=p(xz)p(z)
  • 変分推論とELBO
  • 再パラメータ化トリック
  • 事後分布近似 qϕ(zx)(推論モデル)

基本原理
ELBO(変分下界):

logp(x)Eqϕ(zx)[logpθ(xz)]DKL(qϕ(zx)p(z))

再パラメータ化(例:ガウス):

z=μϕ(x)+σϕ(x)ϵ,ϵN(0,I)

解釈
表現学習と生成が統合される。潜在空間に意味を持たせることで、補間、異常検知、条件付き生成など多様な分析につながる。


第17章 Generative Adversarial Networks

狙い
GANを、分布一致を目的とする対戦ゲームとして整理する章である。生成器と識別器の相互作用、目的関数、学習の性質を押さえる。

主題

  • 生成器 G と識別器 D
  • ミニマックス目的と分布の一致
  • 指標(Jensen-Shannon、Wasserstein など)の関係(概念)
  • モード崩壊のような現象の概念整理(用語の理解が中心)

基本原理
基本目的(概念):

minGmaxD Expdata[logD(x)]+Ezp(z)[log(1D(G(z)))]

解釈
尤度を直接最大化しない生成が成立することは、評価指標・学習目標の設計の重要性を示す。生成品質の評価が難しい点も、分布学習として理解すると整理しやすい。


第18章 Normalizing Flows

狙い
可逆変換の合成で複雑分布を表し、変数変換公式により尤度計算を可能にする生成モデルを扱う章である。

主題

  • 可逆写像 x=f(z) の合成
  • ヤコビアン行列式と対数尤度
  • カップリング層などの基本構造(概念)
  • サンプリングと密度評価の両立

基本原理
変数変換公式:

pX(x)=pZ(z)|det(zx)|,z=f1(x)

対数尤度(合成の場合):

logpX(x)=logpZ(z)+llog|det(z(l)z(l1))|

解釈
「密度が計算できる」ことは、異常度(対数尤度)やベイズ推論などに接続しやすい。GANとは異なる軸で生成を理解できる。


第19章 Autoencoders

狙い
入力の再構成を通じて潜在表現を学習する枠組みを整理し、確率的拡張(VAEとの関係)まで含めて位置づける章である。

主題

  • エンコーダ z=fϕ(x) とデコーダ x^=gθ(z)
  • 再構成誤差と表現の制約
  • デノイジング、スパースなどの拡張(概念)
  • VAE・フロー・GANとの関係の整理

基本原理
基本目的:

minϕ,θ 1Nn=1Nxngθ(fϕ(xn))2

解釈
次元圧縮、特徴抽出、可視化、異常検知などに直結する。生成モデルとしては確率的定式化(第16章)と併せて理解すると、再構成と分布学習の差が明確になる。

3. 全体を通した解釈性

3.1 回帰・分類・生成をつなぐ「負の対数尤度」

  • 回帰(ガウス雑音):
    • logp(yx)  (yy^)2
  • 分類(カテゴリ分布):
    • logp(yx) = kyklogp^k

この対応を押さえると、損失設計とモデル仮定の関係が見通せる。

3.2 潜在変数と下界(ELBO)

潜在変数を持つと周辺化が必要である:

p(x)=p(xz)p(z)dz

そこで下界(ELBO)により学習する:

logp(x)Eq(zx)[logp(xz)]DKL(q(zx)p(z))

3.3 変換とヤコビアン(フロー)

密度を扱う生成では変数変換が中核である:

pX(x)=pZ(f1(x))|det(f1x)|

4. 章別要点一覧

主題対象中心となる計算代表式(核)
1革命の概観全体像設計原理合成関数 f(L)f(1)
2確率基礎分布周辺化・期待値ベイズ則、KL
3標準分布離散・連続尤度と事前指数型分布族
4回帰(単層)p(yx)最小二乗二乗誤差
5分類(単層)p(yx)交差エントロピーsoftmax
6深層NN表現連鎖の合成MLP
7勾配法学習SGD系θθηL
8逆伝播勾配自動微分チェインルール
9正則化汎化目的の修正L+λΩ
10CNN画像局所集約畳み込み
11構造化分布依存構造因子化p(x)ψc
12Transformer系列・集合注意softmax(QK)V
13GNNグラフ近傍集約message passing
14サンプリング推論MC/MCMCE[f]1Sf
15離散潜在z離散和の周辺化p(x)=zp(x,z)
16連続潜在z連続ELBOVAEの下界
17GAN生成対戦最適化min-max
18フロー生成変数変換ヤコビアン
19AE表現再構成|xx^|2

5. 混同しやすい概念

  • 交差エントロピーと負の対数尤度は、設定により同じ意味を持つ場合が多いが、前者は分布間のずれ、後者はモデルの当てはまりとして説明されることがある。両者を「分布と損失の対応」で統一して理解するとよい。
  • KLダイバージェンスは DKL(pq)DKL(qp) で性質が異なり、変分推論では方向が意味を持つ。
  • 生成モデルの評価は、尤度(フロー、潜在変数の一部)とサンプル品質(GANなど)で軸が異なる。目的関数が異なる以上、同じ尺度で単純比較できない場合がある。

まとめ

本書は、確率と損失を起点に、勾配法と逆伝播で学習を可能にし、データの構造に合わせたアーキテクチャを導入し、最後に推論と生成を分布として統一する構成である。データサイエンスの観点では、予測と生成、推定とサンプリング、表現学習と確率モデルが同じ数式骨格でつながることを理解することで、個別手法を「地図の上」に配置できるようになるのである。

参考資料