Skip to content

データサイエンスの初歩

データサイエンスとは、データから意味のある知見を得て、判断や理解を支えるための方法論の総体である。統計学・機械学習・計算・可視化・データの取り扱い(品質、再現性、倫理)を、同じ目的のもとに統合して扱う点に特徴があるのである。

参考ドキュメント

  1. 文部科学省:数理・データサイエンス・AI教育プログラム認定制度 https://www.mext.go.jp/a_menu/koutou/suuri_datascience_ai/00001.htm
  2. 総務省 統計局:データサイエンス・スクール(レベル別教材) https://www.stat.go.jp/dss/getting/textbook.html
  3. David Donoho:50 Years of Data Science(論文) https://www.tandfonline.com/doi/full/10.1080/10618600.2017.1384734

1. データサイエンスとは何か

データサイエンスは、狭義には統計学と機械学習の手法を扱うが、広義には「データを得て、整え、理解し、説明可能な形で結論を示す」までを含む営みである。歴史的には、統計学の拡張として「データ解析者に必要な技術領域を広げる」という提案や、現代のデータ科学を俯瞰して構成要素を整理する議論があるのである。

以下は、概念の違いを整理した表である。

呼称主な関心基本の道具成果物のイメージ
統計学不確実性の定量化、推定と検定、因果と誤差確率分布、推定量、検定、回帰、実験計画推定値、信頼区間、効果量、解釈
機械学習予測性能の最大化、汎化、表現学習損失関数、正則化、最適化、汎化誤差予測器、分類器、特徴表現
データマイニング大規模データからのパターン発見クラスタリング、ルール抽出、異常検知規則、クラスタ、検知結果
データサイエンスデータに基づく理解・説明・判断支援の統合上記に加え、可視化、データ設計、品質、倫理報告・意思決定支援、再現可能な結論

データサイエンスは「手法の寄せ集め」ではなく、「問いに対してデータをどう結び付けるか」という設計思想が中核にあるのである。

2. データ思考:問いをデータに翻訳する

データ解析が機能するためには、問いを「測れる量」と「比較できる条件」に落とし込む必要がある。ここでは、考え方を形式化しておく。

2.1 問いの形式化

  • 目的変数(アウトカム)Y を明確にする
    例:売上、欠陥率、反応収率、満足度、故障までの時間などである。

  • 説明変数(特徴量)X=(X1,,Xp) を候補として挙げる
    例:温度、組成、時間、工程条件、環境、装置ログなどである。

  • 比較の単位(観測単位)を決める
    例:1サンプル、1ロット、1日、1人、1装置周期などである。

このとき、観測データは概ね (xi,yi) の集合

{(xi,yi)}i=1n

として整理される。

2.2 データの種類と意味

データは「数字であれば同じ」ではない。尺度によって許される操作が異なるのである。

尺度許される基本操作注意点
名義尺度材料種、装置ID、カテゴリ一致・不一致、頻度数値化しても大小は意味をもたない
順序尺度評価ランク、段階スコア順序の比較差や比の意味が曖昧である
間隔尺度温度(℃)、暦時刻原点が任意で比が意味をもたない
比率尺度長さ、濃度、温度(K)差と比0が意味をもち比が解釈できる

「どの尺度のデータか」を誤ると、計算はできても意味が壊れるのである。

3. データの取り扱い

データの品質は解析の上限を決める。よって、欠損・外れ・重複・測定誤差の扱いを、目的と整合するように整理する必要がある。

3.1 欠損(missingness)

欠損は大きく分けて、欠損の起き方が結果に依存しない場合と、依存する場合がある。扱いは状況依存であるが、基本は次である。

  • 欠損の割合、欠損パターン(特定列に偏るか)を把握する
  • 欠損を埋める場合は「何を保ちたいか」(平均、分散、関係性)を意識する
  • 欠損自体が情報である場合(センサー停止が異常と関係する等)を区別する

3.2 外れ値(outlier)

外れ値は「間違い」ではなく、次の可能性がある。

  • 記録ミスや単位違い(データ生成過程の破綻)
  • 測定誤差が大きい領域(系統的)
  • 稀だが本当に起こる現象(重要な兆候)

したがって、除外は統計量の都合で決めるのではなく、「生成過程として妥当か」を考える必要があるのである。

3.3 標準化と変換

スケールが異なる特徴量を同時に扱う場合、標準化が必要になることが多い。

  • 平均0・分散1の標準化
z=xμσ
  • 対数変換(正の値の広い分布)
x=log(x)

これらは「モデルの都合」ではなく、「比較可能な表現へ写像する」という意味を持つのである。

4. 記述統計と可視化:まず分布を理解する

データ解析の入口は、要約と可視化で分布を把握することである。数式は少ないが、判断の質を大きく左右する領域である。

4.1 代表値と散らばり

  • 平均
x¯=1ni=1nxi
  • 分散(不偏分散)
s2=1n1i=1n(xix¯)2
  • 共分散と相関
Cov(X,Y)=1n1i=1n(xix¯)(yiy¯)r=Cov(X,Y)sxsy

相関は関係の強さを示すが、因果を示す量ではない点に留意が必要である。

4.2 基本の可視化と用途

目的見るべき点
ヒストグラム1変数の分布歪み、裾、二峰性
箱ひげ図外れと四分位外れの多さ、群間差
散布図2変数関係非線形、クラスタ、外れ
相関行列ヒートマップ多変数の関係強い相関、冗長性
時系列プロット変化と季節性トレンド、周期、急変

可視化は「モデルの前段」ではなく、データ生成過程を推定するための観察である。

5. 推測統計:不確実性を定量化する

推測統計は、有限のデータから母集団の性質を推定し、誤差を評価する枠組みである。

5.1 標本平均の分布

独立同分布 X1,,Xn(平均 μ、分散 σ2)に対して、標本平均 X¯

E[X¯]=μ,Var(X¯)=σ2n

であり、n が増えると平均の推定が安定することがわかる。

5.2 信頼区間(平均の例)

正規分布近似が妥当であれば、平均の 100(1α)% 信頼区間は

x¯±zα/2sn

で与えられる(zα/2 は標準正規分布の上側 α/2 点である)。

「推定値そのもの」だけでなく、「どれだけ不確かか」を示すことが推測統計の核である。

6. 機械学習:予測のためのモデル化

機械学習は、データから予測規則を学習し、未知データに対しても良い性能を目指す枠組みである。初歩としては、教師あり学習と教師なし学習の区別を明確にするのが要点である。

6.1 教師あり学習

  • 回帰:y が連続
  • 分類:y がカテゴリ

基本例として線形回帰を置く。モデルは

y^=β0+j=1pβjxj

であり、二乗誤差

MSE=1ni=1n(yiy^i)2

を最小化する。

分類の基本例としてロジスティック回帰を置く。確率モデルは

P(y=1x)=σ(β0+βTx),σ(t)=11+et

であり、対数尤度(交差エントロピー)を最大化する。

6.2 教師なし学習

  • クラスタリング:似たものをまとめる
  • 次元削減:情報を保ちながら低次元へ表現する

主成分分析(PCA)は、中心化したデータ行列 X に対して共分散行列

S=1n1XTX

の固有分解により、分散が最大となる方向(主成分)を得る。これは線形代数(固有値問題・特異値分解)と直結するのである。

7. 汎化・過学習・正則化:なぜ未知で崩れるのか

学習データに対して良く当てはまっても、未知データで性能が落ちる現象を過学習という。これを理解するには、誤差を分解する視点が有用である。

7.1 分割と交差検証

データを学習用と評価用に分け、評価用で性能を測る。さらに安定化のために K 分割交差検証を用いることが多い。 交差検証は、有限データで性能推定のばらつきを抑える工夫である。

7.2 正則化

線形回帰では、係数が大きくなりすぎると不安定になることがある。そこで罰則項を加える。

  • Ridge(L2
minβ i(yiy^i)2+λβ22
  • Lasso(L1
minβ i(yiy^i)2+λβ1

正則化は「より単純な説明を好む」ことを数式化したものと見なせるのである。

8. 評価指標:何を良いとみなすか

評価指標は目的に依存する。分類では混同行列が基本である。

  • 真陽性(TP)、偽陽性(FP)、真陰性(TN)、偽陰性(FN)

代表指標は次である。

Accuracy=TP+TNTP+FP+TN+FNPrecision=TPTP+FP,Recall=TPTP+FNF1=2PrecisionRecallPrecision+Recall

不均衡データでは Accuracy が誤解を招くことがあるため、Precision/Recall や ROC-AUC などを併用するのが基本である。

9. 因果推論(入口):相関と因果を分ける

データから得られる関係が因果であるとは限らない。因果を論じるには、介入を想定した比較が必要である。

9.1 介入の考え方(潜在結果)

介入 T{0,1}(施策の有無など)に対し、各個体 i には潜在結果 Yi(1),Yi(0) があると考える。平均処置効果(ATE)は

ATE=E[Y(1)Y(0)]

である。

観測できるのは一方だけであるため、ランダム化実験や交絡調整が必要になるのである。

9.2 基本の交絡(confounding)

交絡変数 ZTY の両方に影響すると、単純な差は因果を表さない。これを図で表すと

ZT,ZY,TY

のようになる。データサイエンスでは、予測と因果の目的の違いを意識して方法を選ぶ必要がある。

10. データの公開

日本では公的統計の整備が進んでおり、学習用にも利用できる。代表として e-Stat(政府統計の総合窓口)があり、統計局の学習コンテンツも提供されているのである。

  • e-Stat:政府統計の検索・取得の入口
  • 統計局:データサイエンス・スクール、オンライン講座

公的データは定義や調査設計が明記されることが多く、データの意味を確認する学習にも適するのである。

11. 倫理・プライバシー

データが個人に関わる場合、法令やガイドラインに基づく配慮が不可欠である。日本では個人情報保護委員会が法令・ガイドラインを公開している。加えて、海外では NIST がプライバシーリスク管理の枠組みを公開しているのである。

ここでは、初歩として次の観点を整理する。

  • 目的の明確化:何のために集め、何のために使うか
  • 最小化:必要最小限の項目と期間に抑える
  • 匿名化・仮名化:再識別リスクを考慮する
  • 透明性:当事者への説明可能性
  • 公平性:特定の集団に不利益が偏らないか

これらは「解析のテクニック」ではなく、データ利用の正当性を支える前提である。

まとめと展望

データサイエンスの初歩は、データの意味を損なわずに整え、要約と可視化で分布を理解し、不確実性を統計で定量化し、目的に応じて予測や構造把握のモデルを構成する一連の考え方を身に付ける段階である。ここで重要なのは、手法を暗記することではなく、問い・データ・方法・解釈の整合を保つことである。

展望としては、第一に、線形代数と確率統計を強化することで、回帰・次元削減・ベイズ推論までの理解が滑らかになる。第二に、因果推論を学ぶことで「当てる」から「効く理由を述べる」へと議論の質が上がる。第三に、プライバシーや公平性を含む枠組みを理解することで、データ利用の社会的要請に耐える説明が可能になるのである。

参考文献