Skip to content

AI入門

本講義は、AIをめぐる基礎概念・数理・実装の考え方・社会制度を、学部1年生の目線で順に積み上げるものである。受講後には、AIの出力を無批判に受け取らず、根拠・限界・責任の所在を自分の言葉で説明できる状態に到達することを目指す。

章構成

  • 第1章 学ぶ前の地図
  • 第2章 AIとは何か
  • 第3章 データと表現
  • 第4章 学習の型
  • 第5章 基本モデルの考え方
  • 第6章 深層学習の基礎
  • 第7章 生成AIと基盤モデル
  • 第8章 マルチモーダルと応用領域
  • 第9章 評価と不確かさ
  • 第10章 公平性と説明
  • 第11章 プライバシーとセキュリティと著作権
  • 第12章 ガバナンスと制度
  • 第13章 まとめと展望

第1章 はじめに

本章では、AIを学ぶ前に、何を理解できれば「使える」と言えるのか、どこで誤りやすいのか、そして学ぶ範囲と到達の考え方をそろえる。ここで足場を作っておくと、後の章で新しい用語や数式が出てきても、何のために学んでいるかを見失いにくくなる。

1.1 AIリテラシー

AIリテラシーとは、AIが返した答えをそのまま信じる能力ではなく、AIがしていることを自分の言葉で言い換え、根拠と限界を踏まえて使い方を決める能力である。たとえば「この文章を要約して」と頼んだとき、AIは文章の意味を人間のように理解しているのではなく、過去に学んだデータに基づいて、もっともらしい要約文を生成しているにすぎない場合がある。したがって、要約が正確かどうかは、元の文章へ戻って照合して初めて判断できる。

AIリテラシーは、次の三つの要素に分解して考えるとわかりやすい。第一に、AIの出力を目的に照らして評価できることである。第二に、出力が間違っていたときに、どこで誤ったかを推定し、入力や条件を調整できることである。第三に、他者へ説明する責任が生じる場面では、AIを使った範囲、参照した情報、最終判断者が誰かを明確にできることである。EUではAIリテラシーが制度上も言及され、使い手側の能力として位置付けられている点が重要である[S1]。

大学1年生の生活に引きつけると、レポート作成、学習計画、履修相談、翻訳、就職活動の文章推敲など、AIは多くの場面で使われうる。ここで問題になるのは、便利さの一方で、誤情報の混入、引用の不備、文体の不自然さ、内容の独自性の欠如が起きやすいことである。AIリテラシーがあるとは、たとえばレポートでAIの文章を参考にしたなら、一次資料を確かめ、引用を整え、事実関係を検証し、最後に自分の主張として筋道を通すことができる状態である。

本講義では、AIの使い方の手順を暗記するのではなく、判断の根拠を言語化する訓練を中心に据える。具体的には、AIに何を尋ねたか、AIがどの情報に基づいて答えたか、どこが不確かか、確認は何で行うかを短い文章で書けるようにする。これができると、学科や専門が違っても、AI利用の妥当性を議論できる共通言語が得られる。

1.2 AIの得意・不得意

AIは、十分なデータがあり、正解や評価方法がはっきりしている課題で強みを発揮しやすい。たとえば、画像の中の文字を読み取る、定められたカテゴリに分類する、同じ形式の書類から項目を抜き出すといった作業は、何が成功で何が失敗かを比較的明確に定義できる。評価が明確であるほど、改善も行いやすく、性能の比較も可能になる。

一方で、目的や正解が曖昧な課題では誤りやすい。たとえば「この意見は倫理的に正しいか」「この政策は妥当か」「この作品は面白いか」といった問いは、価値判断や前提条件に依存し、単一の正解が存在しない場合が多い。AIは言葉として筋の通った文章を生成できるが、その筋道が正しいとは限らない。特に生成AIでは、文として自然であっても事実として誤る内容をもっともらしく生成することがあり、出力を検証する姿勢が不可欠である。

得意・不得意は、道具の性能だけで決まらず、入力の設計や検証の仕方にも依存する。たとえば「この論文の主張を三点でまとめよ」と頼む場合でも、対象文書の範囲、要約の観点、専門用語の扱い、引用すべき箇所などを具体化すると、誤りが減りやすい。また、AIが強い作業でも、学習時と異なる状況に置くと急に弱くなることがある。たとえば、同じ「画像分類」でも、撮影条件、対象集団、背景、文化的文脈が変わると、学習時の経験が通用しなくなる場合がある。

この章で覚えておきたい要点は、AIは万能ではなく、条件が揃うと強いということである。強い条件とは、目的が明確で、入力が整理され、評価が定義でき、検証ができる状態である。逆に、目的が曖昧で、入力が雑然としており、評価が主観に依存し、検証が困難な状態では、出力の危うさが増す。受講者は、自分がAIに頼もうとしている作業がどちらに近いかを見分けられるようになる必要がある。

1.3 誤りの形と検証の姿勢

AIの誤りは、計算ミスのような単発の誤りだけでなく、偏ったデータに由来する系統的な誤りとして現れることが多い。単発の誤りは、日付や数値を取り違える、固有名詞を誤るといった形で表に出やすい。これに対して系統的な誤りは、特定の集団に不利な判断を繰り返す、ある種の表現や観点を過剰に優先する、特定の領域では自信満々に間違えるといった形で現れ、気づきにくい。

誤りの原因も複数に分けて考える必要がある。入力側に原因がある場合として、問いが曖昧で前提が欠けている、条件が矛盾している、参照すべき資料が与えられていない、ということがある。モデル側に原因がある場合として、学習データに含まれる偏り、分布の変化への弱さ、推論時に根拠を参照しない生成の性質などがある。利用場面側に原因がある場合として、そもそも正解が定義できない問いを「正解がある問い」として扱ってしまうことがある。

検証の姿勢は、難しい専門技術ではなく、学術的態度として身につけられる。第一に、根拠の提示を求めることである。AIが出した結論に対して、どの資料のどの部分が根拠かを確かめる癖をつける。第二に、反例の探索を行うことである。AIの主張が一般的だと言うなら、例外条件や逆の例が存在しないかを探す。第三に、別資料による照合を行うことである。同じ出典に依存せず、異なる組織や異なる立場の資料と突き合わせることで、誤りや偏りを見つけやすくする。

加えて、再現性という観点も重要である。入力を少し変えただけで結論が大きく変わるなら、その出力は不安定であり、強く依存するのは危険である。生成AIは表現の揺らぎが大きく、同じ問いでも言い回しが変わるため、結論が揺れることがある。揺れ自体は直ちに悪ではないが、重要な判断に使う場合は、揺れがどの程度かを確認し、必要なら外部根拠に立ち返るべきである。

1.4 学習内容の範囲

本講義は、AIの内部原理を完全に証明する数学講義ではなく、社会の中でAIを理解し使うための学術的基盤を扱う。ここでいう学術的基盤とは、AIが入力をどのような表現に変換し、どのような目的関数を最小化し、どのような評価で性能を測るかを説明できる程度の理解である。式変形の技巧よりも、式が表す意味と、前提条件が何かを丁寧に扱う。

そのため、数式は最小限に留めるが、記号や式が意味する世界を丁寧に説明し、式を読める状態を作る。たとえば、学習が損失関数の最小化で表されるとき、

θ^=argminθ1Ni=1N(fθ(xi),yi)

の式は、パラメータθを調整して、予測fθ(xi)と正解yiのずれを小さくするという意味を持つ。重要なのは、ずれの定義をどう決めたかが、何を良いとみなすかという価値判断を含む点である。

後半では制度・倫理・権利も扱い、技術と社会の接続を一つの学びとして統合する。AIの誤りや偏りは、技術的課題であると同時に、説明責任や権利侵害として社会問題になりうる。制度文書や国際原則がなぜ必要か、なぜ技術だけでは完結しないかを、具体例に沿って理解する。これにより、専門分野が異なる受講者でも、共通の基準で議論できる土台を作る。

1.5 受講者の前提

高校数学の範囲(関数、ベクトルの直観、確率の基本)が理解できれば受講可能である。AIの議論では、入力をベクトルx、出力をy、モデルをfθのように書くが、これは難解に見えても、数の並びを関数で変換しているだけである。ベクトルは「複数の数値をまとめたもの」として捉えれば十分であり、厳密な線形代数の証明を前提にはしない。

プログラミング経験は必須ではないが、AIが入力を数値へ変換して処理するという発想には慣れていく必要がある。文章はトークン列へ、画像は画素配列へ、音声は波形や特徴量へ変換されるという見方を、例を通して身につける。計算機の内部で起きていることを完全に再現できなくても、どの段階で情報が失われうるか、どこで偏りが入りうるかを説明できるようにする。

文系・理系の差は前提とせず、専門の異なる受講者同士が説明し合えるように用語を統一していく。たとえば確率という言葉も、統計学・日常会話・法制度で意味合いが異なることがある。講義では、用語を定義し、同じ語を同じ意味で使う訓練を行う。自分の専門での言い方を一度保留し、共通語としての定義へ合わせることが、全学向け講義では特に重要である。

1.6 学習到達の考え方

到達の目安は、AIに何を任せ、何を任せないかを、自分の価値判断と制度上の要請に基づいて説明できることである。たとえば、文章の言い回しの改善や下書き作成はAIに任せても、事実関係の確定、引用の妥当性、最終的な主張の責任は人が負うべきである。この線引きは、便利さよりも、結果に対する責任と検証可能性によって決めるべきである。

NISTのリスク管理枠組みのように、AIを信頼性の観点から分解して点検する考え方は、分野横断で有効である[S2]。分解とは、性能だけを見るのではなく、目的の定義、データの来歴、評価方法、運用時の監視、誤りが出たときの対応までを要素として捉えることである。これにより、AIを一つの黒箱として恐れるのでも、万能だと信じるのでもなく、点検可能な対象として扱えるようになる。

理解は暗記ではなく、説明可能性として測るという立場を採る。説明可能性とは、専門家向けの数式説明だけを意味しない。初学者が到達すべき説明可能性は、次のような短い説明ができる状態である。

  • 目的 このAIを何のために使い、成功をどう定義するかを述べられる。成功の定義が曖昧な場合は、どこが曖昧かを言語化できる。

  • 根拠 AIの出力がどの資料や観測に支えられているか、あるいは支えられていないかを述べられる。根拠がない場合に、追加で何を調べるべきかを提案できる。

  • 限界 どの条件で誤りやすいかを述べられる。条件が変わったときに性能が落ちる可能性を、具体的に想像できる。

  • 責任 最終判断者が誰か、AIが関与した範囲はどこまでかを明確にできる。第三者に説明する必要がある場面で、説明責任を果たせる形に整えられる。

これらを自分の言葉で言えるようになることが、第1章の目標である。以降の章では、この言語化の力を、数理・モデル・制度の知識で補強し、より精度の高い判断へ繋げていく。

第2章 AIとは何か

本章では、AIという言葉が指す範囲と、機械学習・深層学習・生成AIの関係を整理する。あわせて、AIが社会に入るときに必ず生じる、価値判断と責任の問題を、技術の話と同じ地平で扱う。

2.1 用語の整理

AIは、人が行ってきた知的活動の一部を機械が代替・支援する技術群を指すが、その境界は時代とともに動くものである。たとえば、かつては「コンピュータが計算できる」だけで驚きであったが、現在では計算は当たり前になり、画像認識や対話生成のような領域がAIとして注目されている。このように、AIという呼び名は固定された学術用語というより、社会がその時点で「知的」と見なす機能がどこまで機械で実現されたかに応じて揺れ動く性格を持つ。

機械学習は、規則を人が直接書く代わりに、データから規則を推定する方法である。ここでの規則とは、入力xを受け取り出力yを返す関数fの形で表せると考えるとよい。人が「こういうときはこうする」と条件分岐を作るのではなく、過去の例(xi,yi)を大量に集め、fがよく当たるように調整するのが機械学習の考え方である。

深層学習は、表現を多層のニューラルネットワークで学ぶ機械学習の一形式である。深層学習が重要なのは、入力をそのまま使うのではなく、モデル内部で「役に立つ表現」を自動的に作り出せる点にある。たとえば画像では、画素の集まりから輪郭や模様のような中間表現を経て、最終的なカテゴリ判断に至るという形が学習される。言語でも、単語や文の並びから、文脈に依存した意味の近さを表す表現が形成され、後の章で扱う大規模言語モデルの基礎になる。

用語を混同しないために、関係を次のように捉えるとよい。AIは一番広い概念で、その中に機械学習が含まれ、さらにその中に深層学習が含まれるという入れ子構造である。生成AIは「出力として文章や画像などを生成する能力を前面に出したAI」を指し、内部で深層学習を用いることが多いが、生成AIという呼び方は用途と社会的関心に基づく分類である。

呼び名何を指すか重要な点
AI知的活動の代替・支援の技術群対話、認識、推薦、制御境界は時代とともに動く
機械学習データから規則を推定する方法分類、回帰、クラスタリング目的と評価の定義が中心である
深層学習多層ネットワークで表現も学ぶ画像認識、音声認識、言語モデル表現学習が性能を左右する
生成AI生成を前面に出したAI文章生成、画像生成検証・権利・責任の論点が大きい

2.2 ルールベースと学習ベース

ルールベースは、条件分岐の集合として知識を明示できるため、説明が容易である一方、例外が増えるほど維持が難しくなる。たとえば「もしAならB、もしCならD」といった規則を人が書く形式は、規則の根拠がはっきりしており、第三者に説明しやすい。さらに、規則がどこで発火したかが追跡できるため、誤りが出たときに原因箇所を見つけやすい利点がある。

しかし、現実の世界は例外が多く、条件分岐は増殖しやすい。例外を追加するほど規則同士が衝突し、修正が別の箇所に副作用を生むことがある。たとえば、大学の履修判定や事務手続きのように制度が頻繁に変わる領域では、規則の更新作業そのものが負担になり、担当者の暗黙知へ依存しやすくなる。したがって、ルールベースは、対象領域が安定しており、例外が少なく、説明可能性が特に重要な場面で強い選択肢となる。

学習ベースは、例外をデータ側に含めて統計的に扱うため、複雑さに強いが、根拠が不透明になりやすい。たとえば、手書き文字認識のように「形の揺らぎ」が大きい問題では、すべての揺らぎをルールで列挙するのは現実的でない。学習ベースは、多数の例から「こういう形はこの文字に近い」という規則を自動的に獲得できるため、複雑な入力に対応しやすい。

一方で、学習ベースは「なぜその判断に至ったか」を人間の言葉で説明することが難しくなることがある。モデルは損失関数を小さくするように調整されるが、その過程で形成された内部表現は人間の概念と一致するとは限らない。説明の難しさは、誤りが生じたときの責任の線引きにも影響する。したがって、どちらが優れるかではなく、目的・責任・更新頻度・説明責任の必要性に応じて選ぶ対象である。

2.3 AI研究の流れ

AIは、記号処理中心の時代、統計的学習の時代、深層学習の時代を経て、現在は大規模モデルが多用途に使われる段階へ進んだ。記号処理中心の時代は、人間が知識をルールとして与え、推論を機械にさせる発想が強かった。これは、論理として筋道を追いやすい反面、世界の多様さをルールで表し切ることが難しいという壁に直面した。

統計的学習の時代には、データから規則を推定する方法が主流になり、分類や回帰の枠組みが整備された。ここでは、確率や最適化の考え方が中心となり、性能を数値で比較し、改善の方向を議論しやすくなった。だが、手作業で特徴量を設計する必要がある場面が多く、画像や音声のような複雑な入力では限界が見えやすかった。

深層学習の時代に入ると、特徴量の設計をモデル自身が担う形が強まり、画像・音声・言語で性能が大きく伸びた。転換点の一つはTransformerであり、注意機構を基盤として言語・画像など幅広い領域で性能を伸ばした[S12]。注意機構は、入力のどの部分が今の判断に重要かを重みとして計算し、長い文脈や複雑な関係を扱いやすくする。これにより、並列計算との相性も良く、大規模化が進みやすい状況が整った。

現在は、大規模モデルを学習しておき、後から多用途へ転用する考え方が広がっている。以前はタスクごとにモデルを作ることが多かったが、今は一つのモデルが要約・翻訳・対話・検索補助などへ広く使われることがある。歴史を学ぶ意義は、流行の道具を固定視せず、何が本質かを見抜くためである。具体的には、入力の表現、目的関数、評価、計算資源という軸で整理し直す力が、将来の技術変化に対して有効である。

2.4 生成AIの位置付け

生成AIは、分類や予測に加えて、文章・画像・音声などを生成する能力を前面に出したAIである。分類は「与えられた候補から選ぶ」行為であるのに対し、生成は「候補そのものを作る」行為であるため、利用者の体験が大きく変わる。たとえば、要約では文章を短く作り直し、翻訳では別言語の文章を新たに作る。画像生成では、存在しない場面の画像を合成できるため、創作や設計補助にも用いられる。

大規模言語モデルは、次トークン予測という学習目標を中心に構築され、会話や要約など多様な作業に適用される[S14]。次トークン予測とは、これまでの文脈x<tが与えられたときに、次の要素xtの確率P(xt|x<t)を高めるように学習する考え方である。学習の形式は単純に見えるが、大量のデータで繰り返すと、文法、語彙、話題の連なり方、説明の型など、多様な規則性が内部に形成される。

ただし、生成AIが流暢に話せることと、事実に忠実であることは別問題である。生成は「もっともらしい続きを作る」性質を持つため、参照すべき根拠がない場合でも文章を作れてしまう。したがって、生成AIは「文章作成の補助」には強い一方、「事実確認の主体」にはできないという線引きを初学者の段階で明確にする必要がある。生成という見かけの多様性の背後に、共通する学習原理がある点を押さえることが、過信を避ける第一歩である。

2.5 データと計算資源の意味

モデルの性能はアルゴリズムだけでなく、データ量・質、計算資源、学習設計の総体で決まる。たとえば、同じモデル構造でも、学習に使うデータが偏っていれば、出力も偏りやすい。逆に、データが豊富でも、目的関数の設計や評価の選び方が不適切なら、望ましい振る舞いに近づかない。したがって、AIの性能を「モデルの賢さ」だけで説明するのは誤解を生みやすい。

計算資源は、学習できるモデルの規模と、学習にかけられる試行回数を規定する。深層学習は勾配計算を多数回繰り返すため、計算機資源と強く結びつく。特に大規模モデルでは、GPUなどの高性能計算資源を大量に用いることが一般的になり、計算資源の確保そのものが研究開発能力の一部になっている。

近年はAIの普及に伴い、データセンターの電力需要やエネルギー政策との関係も論点になっている[S17]。これは、AIがソフトウェア上の概念に見えても、実際には物理的資源を大量に消費する技術であることを示している。電力や冷却、水資源、供給網といった制約は、モデル開発の速度や運用のあり方に影響する。技術の理解は、物理的制約や社会的制約と切り離せない。

ここで重要なのは、計算資源が多いほど常に良いとは限らない点である。規模を上げることは性能向上につながりうるが、同時に検証可能性、透明性、運用コスト、環境負荷といった新しい問題も増幅する。したがって、どの程度の規模が目的に見合うかという判断が必要になる。初学者は、性能向上の背景にある資源制約を知ることで、AIを現実の技術として捉えやすくなる。

2.6 価値と責任の所在

AIは中立な道具ではなく、学習データと目的関数が価値判断を内包する。たとえば、採用支援のAIが「成功する人材」を予測するとき、成功の定義は企業や社会の価値観に依存する。学習データに過去の偏りが含まれていれば、その偏りが将来の判断に持ち込まれる可能性がある。目的関数は「何を良いとするか」を数式として固定するため、技術的な選択に見えても価値判断が入り込む。

責任の所在は、開発者、提供者、利用者で分かれるが、分かれるほど曖昧になりやすい。たとえば、大学の授業で生成AIを使ったレポートが誤情報を含んでいた場合、誰が何を確認すべきであったかが問題になる。最終的に提出するのは学生である以上、内容の責任は学生が負うべきであるが、教育側もAI利用のルールや検証方法を教える責任がある。提供者側には、利用条件や制約、既知の問題について説明する責任がある。

UNESCOは人権・尊厳を中心に据えた倫理原則を提示しており、透明性や人間の関与を重視している[S3]。透明性とは、内部実装をすべて公開することではなく、利用者が判断に必要な情報へ到達できることである。人間の関与とは、単に人が最終ボタンを押すという形式ではなく、判断の根拠を点検し、異議申し立てや修正が可能な状態を確保することである。本講義では、技術の説明と同じ重みで、責任の線引きを扱う。

この章での結論は明確である。AIは便利な道具であるが、価値判断と責任を含む社会的存在である。したがって、AIを学ぶとは、モデルの仕組みを知るだけでなく、誰が何を点検し、どこまでを人が担うかを言語化できるようになることである。以降の章では、この線引きを支えるために、データ、学習、評価、制度の知識を順に積み上げていく。

第3章 データと表現

本章では、AIが世界をどのような形で受け取り、内部でどのような形に作り替えて扱うかを扱う。結論から言えば、数値表も文章も画像も音声も、最終的には数値配列として表現され、その表現の選び方が学習結果の性質を大きく左右する。

3.1 データの種類

AIに入力されるデータは、見かけの形式が違っても、計算機の中では数値の配列として扱われる。数値表は行列XRN×dとして自然に表せるが、文章・画像・音声・ログも、何らかの規則で数に写像してから扱うことになる。したがって、データの種類が違うとは、単にファイル形式が違うという意味ではなく、数値配列への写像の作り方が違うという意味である。

数値表は、列が特徴量、行がサンプルであり、各列の意味が定義されていることが多い。例えば、身長や気温のような連続値、学年や地域のようなカテゴリ、欠損値のような未観測が混在しうる。欠損はゼロとは意味が異なるため、欠損であること自体を情報として扱う場合もある。数値表では、単位や尺度が混ざるため、列ごとの正規化や標準化が必要になることが多い。

文章は、文字列そのものでは計算できないため、トークン列に分割し、各トークンをIDやベクトルへ変換して扱う。文章データの難しさは、同じ意味が異なる表現で書けること、逆に同じ表現が文脈で意味を変えることである。さらに、句読点、表記ゆれ、専門用語の扱いが結果に影響しやすい。文章を数値に変換する規則は、情報を残す規則でもあり、情報を捨てる規則でもあるという自覚が必要である。

画像は、画素値の配列として扱われる。カラー画像なら通常は高さ××チャンネルのテンソルXRH×W×Cであり、画素値は0から255の整数や0から1の実数で表される。画像では、解像度、照明、角度、背景が少し変わるだけで見え方が変わるため、同じ物体でもデータ分布が揺れやすい。画像が数値配列であるとは、見える世界の多くが「並び」と「近傍関係」によって表現されるということである。

音声は、時間に沿った波形x(t)として表され、離散化すると配列x[n]になる。音声認識などでは、波形のまま使う場合もあるが、周波数成分を取り出した特徴(スペクトログラムやメル周波数ケプストラム係数など)を使うこともある。ここで重要なのは、どの表現を選ぶかで、モデルが学びやすい規則性が変わる点である。音声はノイズや録音環境の影響を強く受けるため、収集条件の記録が特に重要になる。

ログデータは、いつ、誰が、何をしたかというイベント列として現れることが多い。例えば、クリック、閲覧、購入、検索語、滞在時間などは、時系列やネットワークとして表現できる。ログの特徴は、観測される行動がプラットフォーム設計に依存することである。行動は人間の性質だけでは決まらず、画面の配置、通知、推薦などの設計によって誘導されるため、ログは社会全体の自然な行動をそのまま写しているとは限らない。

このように、データの形式が異なるほど、前処理や表現の設計が重要になる。さらに、分野ごとにデータ生成過程が違うため、同じ数値や同じ指標でも意味が異なる点に注意が必要である。例えば、医療の検査値は測定機器や測定手順の影響を受け、教育の成績は採点規準や制度の影響を受ける。AIは数値配列しか見ないが、その数値がどう生成されたかは、人間が理解して言語化しなければならない。

3.2 ラベルと教師信号

教師あり学習では、入力xに対して正解yが付与される。基本形は、データ集合{(xi,yi)}i=1Nを用意し、xからyを当てる関数fθを学習する枠組みである。例えば分類ならy{1,,K}、回帰ならyRであり、損失関数を小さくするようにθを調整する。

θ^=argminθ1Ni=1N(fθ(xi),yi)

この式は単純に見えるが、yが何であるか、が何を罰するかが、そのまま価値判断と測定の限界を含むことが重要である。

現実のラベルは、測定誤差、評価者の主観、制度上の定義に依存し、唯一の真理とは限らない。例えば、文章に付けられた感情ラベルは評価者によって揺れることがあり、画像に付けられたカテゴリも境界領域では一致しにくい。医療や心理のように概念自体が観測から構成される領域では、ラベルは診断基準や運用規則の影響を受ける。したがって、ラベルを正解として扱うとは、ラベル生成の仕組みを前提として引き受けることでもある。

教師信号は、必ずしも明示ラベルだけではない。例えば、推薦ではクリックや滞在時間を好みの代理変数として用いることがあるが、これは好みを直接観測しているわけではない。代理変数を教師信号にする場合、何が観測され、何が観測されないかを整理しないと、モデルが別の性質を学んでしまう。クリックは好みだけでなく、表示位置、目立ちやすさ、誤クリックなどの影響を含むためである。

ラベルにはノイズが含まれることが多く、ノイズは性能上の限界として現れる。例えば、同じxに対してyが複数の値を取りうるなら、モデルがどれだけ賢くても完全には当てられない。これはモデルが悪いというより、対象世界の不確かさを反映している。初学者が重要視すべき点は、ラベルがどの程度信頼できるかを、収集方法と評価規準から説明できることである。

ラベルの由来を説明できないモデルは、説明責任を果たしにくい。なぜなら、モデルが間違えたときに、モデルが誤ったのか、ラベルが揺れているのか、入力が不適切なのかを区別できないからである。したがって、ラベルは単なる付箋ではなく、データ生成過程の一部であり、文書化すべき対象である。後の章で扱う倫理・制度とも直結するため、ここでラベルの位置付けを厳密に考える姿勢を身につける必要がある。

3.3 サンプリングと偏り

データが集まる過程には偏りが入りやすい。偏りとは、母集団全体を表すはずのデータが、ある条件で選ばれやすくなったり、観測されにくくなったりすることである。偏りは単に不公平という道徳的問題にとどまらず、学習したモデルの性能を見かけ上良く見せたり、逆に現場で急に性能が落ちたりする原因になる。

サンプリングの基本は、どの集団から、どの規則で、どの時点のデータを集めたかを明確にすることである。例えば、学内アンケートを授業中に集めると、出席者だけが対象になり、欠席者の傾向が抜け落ちる可能性がある。オンライン調査なら、ネット利用頻度が高い人の比率が上がり、回答の動機が異なる集団が混ざりやすい。つまり、データが存在すること自体が、選ばれた結果である場合がある。

オンライン行動ログは、ネット利用の頻度やプラットフォーム設計の影響を受け、社会全体の行動をそのまま反映しない。例えば、同じ商品でも、推薦に出やすいものはクリックされやすく、出にくいものはクリックされにくい。すると、クリックログは好みを表しているようでいて、表示機会の差を強く含む。これをそのまま学ぶと、出やすいものがさらに出やすくなる循環が生じうる。

偏りは、評価の仕方によっては性能を過大評価させる。例えば、学習データと同じ条件で集めたテストデータで評価すると、現場で起きる条件変化を反映できないことがある。照明や撮影機器が変わる、年度が変わる、制度が変わる、利用者層が変わるなどの変化は、入力xの分布を変える。これを分布の変化と呼び、学習時と運用時で分布がずれると性能が落ちることがある。

また、偏りは公平性の問題としても現れる。特定の属性を持つ集団がデータに少ない場合、その集団に対する誤りが増える可能性がある。さらに、属性が直接入力に含まれなくても、代理となる特徴が含まれていれば、結果として属性差を再生産することがある。公平性は単一の指標で決まらず、何を公平とみなすかが価値判断を含むため、後の章で制度と結びつけて扱う必要がある。

偏りに対しては、収集段階と評価段階の両方で対策を考える必要がある。収集段階では、対象集団を定義し、必要なら層化して集めるなど、データが欠ける領域を意識する。評価段階では、平均性能だけでなく、属性や条件ごとの性能のばらつきを見る。初学者の段階では、偏りを完全に除くことよりも、どこに偏りが入りうるかを言葉で説明し、その影響を推定できるようになることが重要である。

3.4 特徴量と埋め込み

特徴量とは、入力を学習しやすい形へ写像する表現である。学習しやすいとは、モデルが少ないデータでも規則性を捉えやすく、誤りにくく、評価で測りやすいという意味である。例えば、気温の時系列をそのまま与えるより、平均との差分、季節成分、変化率などに変換すると、目的に合った規則が見えやすくなる場合がある。特徴量設計とは、対象の構造をどの形でモデルへ渡すかを決める作業である。

数値特徴量では、尺度をそろえる操作がよく行われる。例えば標準化は、

z=xμσ

で表され、平均μと標準偏差σでスケールを調整する。これにより、ある列だけが値の桁の大きさで支配的になることを防ぎやすくなる。ここで重要なのは、μσは学習データから計算し、同じ変換を評価データにも適用するという一貫性である。

カテゴリ特徴量は、数値の大小関係が意味を持たないことが多い。例えば学部コードの1と2に大小の意味はないため、そのまま数値として扱うと誤解を生むことがある。基本的な表現としてワンホット表現があり、カテゴリkK次元ベクトルekで表し、k番目だけが1、他が0となる。

ek=(0,,0,1,0,,0)

ただし、カテゴリ数Kが大きいと次元が膨らみ、学習効率が悪くなることがある。

深層学習では、特徴量を人が設計する代わりに、埋め込み(embedding)としてモデルが学習する。埋め込みとは、離散的な対象(単語、ユーザID、商品IDなど)を、低次元の連続ベクトルvRdへ写像することである。単語wに対し、埋め込み行列ERV×dから行を取り出してv=E[w]とするように表される。埋め込みは、近い意味の対象が近いベクトルになるように学習されることが多く、分類や推薦の性能を高めやすい。

埋め込みは便利であるが、何が情報として保持されているかが見えにくい点が課題となる。埋め込みはデータから獲得されるため、データの偏りや社会的文脈を反映しうる。例えば、ある職業や属性に関する語が、特定の評価語と近い位置に学習されることがあり、これが差別的出力の一因になる場合がある。したがって、埋め込みは中立な部品ではなく、データ生成過程と結びついた表現であるという理解が必要である。

また、表現は圧縮である。圧縮とは、元の入力から一部の情報を捨て、別の情報を強調することである。画像を低解像度にする、文章をトークンに分割する、音声を周波数表現へ変換するなどは、いずれも情報の取捨選択である。表現の選択は、モデルの能力というより、どの情報を重要とみなしたかという人間側の設計の反映である。

3.5 データの来歴と文書化

データの来歴を記録しないと、モデルの誤りの原因を追跡できない。例えば、ある年度から成績分布が変わった、ある機器更新で測定値のスケールが変わった、収集方法が変更された、といった出来事は、モデルの性能変化の理由になりうる。来歴が不明だと、性能が落ちた理由をモデルのせいにしてしまい、正しい改善に到達しにくい。したがって、データは集めた瞬間から、研究対象であると同時に、管理対象でもある。

来歴として最低限必要なのは、動機、収集者、対象集団、収集期間、収集方法、前処理、欠損の扱い、ラベル付け方法、利用許諾、推奨用途と非推奨用途である。これらが揃うと、データが何を表し、何を表さないかを他者が判断できる。特に、推奨用途と非推奨用途を明確にすることは重要である。データは作成目的から外れると、偏りや欠落が急に問題化することがあるからである。

Datasheets for Datasetsは、データの動機・収集方法・推奨用途などを文書化する枠組みを提案している[S16]。この枠組みの意義は、データが中立の素材ではなく、選択と価値判断の産物であることを、文書という形で表面化させる点にある。文書化があると、利用者はデータの条件を理解した上で再利用でき、開発者は誤りが起きたときに原因を探索しやすくなる。逆に文書化がないと、データの前提が共有されず、性能比較も不正確になりやすい。

文書化は、後から書く作業ではなく、収集と同時に行う作業である。収集時点でしか分からない情報が多く、時間が経つほど記憶や記録が失われるためである。さらに、データには版が存在しうる。欠損処理の方法を変えた、誤記を修正した、ラベルを再付与したなどの変更は、結果を変えうるため、どの版を使ったかを記録する必要がある。版管理は、同じ実験をやり直せるという意味で、研究の再現可能性を支える。

本講義では、文書化を研究の作法として学び、透明性を実践へ落とす。透明性とは、すべてを公開するという意味ではなく、判断に必要な情報が辿れるという意味である。学内課題の範囲でも、データの由来と処理手順を短い文書として添付するだけで、議論の質が大きく上がる。後の章で扱う制度や倫理とも接続するため、文書化は技術の外側ではなく、技術の一部として位置付ける必要がある。

3.6 データと権利

データには個人情報・機密情報・著作物が混在しうる。例えば、学習支援のために提出レポートを集めると、個人の学習履歴や思想に近い情報が含まれうる。研究データには、未公開の実験条件や企業との共同研究情報が含まれうる。文章や画像には著作権が絡む場合があり、利用許諾の条件が用途を制約することがある。データは数値配列に変換されるが、変換されたからといって権利問題が消えるわけではない。

生成AIの利用では、入力内容の扱いに慎重さが要請される。日本では個人情報保護の観点から生成AI利用に関する注意喚起が公表されており、入力内容が第三者提供や学習利用に結びつきうる点が論点として提示されている[S9]。したがって、個人情報や機密情報を入力してよいかは、AIの性能ではなく、契約・規約・制度の条件で決まる。利用者は、便利さのために入力範囲を広げるのではなく、入力してよい情報と避けるべき情報を区別できる必要がある。

個人情報の観点では、識別子だけが問題になるのではない。氏名や学籍番号のような直接識別子を消しても、組み合わせにより特定につながる場合がある。さらに、内容自体がセンシティブである場合、本人の不利益につながる可能性がある。したがって、匿名化は魔法の処理ではなく、リスクを下げるための手段であり、完全な安全を保証しないという理解が必要である。

著作物の観点では、データがどこから来たかが重要である。教材、論文、記事、画像、音楽などは著作権の対象であり、複製や再配布、学習利用が許される範囲は条件によって異なる。引用が許される場合でも、引用の形式や必要性が問われる。生成AIは文章を作り替えるが、元の著作物の表現に近い形を再現する可能性があるため、生成物の扱いも含めて慎重な検討が必要になる。

機密情報の観点では、情報が外部へ出ること自体が問題になりうる。研究計画、未公開データ、企業秘密、審査前の文書などは、漏えいした時点で損害が確定することがある。したがって、AIへ入力する前に、情報区分を考える必要がある。学内ルールや共同研究契約、利用規約が優先される場合があるため、技術の話だけで結論を出せない。

権利の問題は法制度と結びつくため、技術だけで解決できない。だが、技術を学ぶ側としてできることはある。第一に、データの由来と許諾条件を確認し、文書化することである。第二に、必要最小限の情報だけを扱うという発想を持つことである。第三に、第三者の権利や本人の不利益を想像し、利用の目的と手段の釣り合いを説明できるようにすることである。これらは、後の章で扱う倫理・制度の理解と結びつき、AI利用の責任を支える。

第4章 学習の型

本章では、AIが何を手がかりに学び、何を目標として振る舞いを調整するのかを、学習の型として整理する。学習の型は、データの形と目的の形が対応しており、型を取り違えると、性能以前に「何を学ばせたことになるのか」が不明確になりやすい。

4.1 教師あり学習

教師あり学習は、入力xから出力yを当てる関数fθを学び、損失を小さくする枠組みである。基本形は経験損失最小化であり、

θ^=argminθ1Ni=1N(fθ(xi),yi)

と書ける。ここで重要なのは、学習とはθという調整可能なつまみを回して、予測と正解のずれを小さくすることであり、モデルが何かを理解しているかどうかとは別に、当てる規則を作っているに過ぎない点である。

教師あり学習は、yの形によっていくつかに分かれる。yが離散値(カテゴリ)なら分類であり、例えば迷惑メール判定、画像のラベル付け、合否予測のような問題が入る。yが連続値なら回帰であり、例えば来週の気温、試験点数、需要量の予測のような問題が入る。yが複数の値を同時に持つ場合は多出力となり、画像の中の複数物体検出や、文章の中の固有表現抽出のように、出力が構造を持つ課題も含まれる。

損失の選び方が目的を規定し、社会的価値判断を含みうる点が核心である。例えば分類では、正解率を上げたいのか、見逃しを減らしたいのか、誤検出を減らしたいのかで、最適な学習目標や評価が変わる。医療のスクリーニングでは見逃しが重大であり、犯罪検知のような領域では誤検出が重大になりうる。したがって、同じモデルでも損失の設計によって望ましい振る舞いが変わり、どの誤りを重く扱うかは価値判断と結びつく。

分類でよく使われる損失の一つに交差エントロピーがある。モデルがクラスkの確率をpθ(y=k|x)として出すとき、正解yに対する損失は

=logpθ(y|x)

の形で書ける。これは正解に高い確率を割り当てるほど損失が小さくなるという意味であり、確率としての出力を学習することを促す。回帰でよく使われる二乗誤差は

=(fθ(x)y)2

であり、外れ値に強く引っ張られる性質があるため、誤差の大きな点をどの程度重く扱うかという意図が反映される。

教師あり学習では、学習データで当てられることと、未知のデータで当てられることを区別しなければならない。学習データへの当てはまりを良くするだけなら、モデルは複雑にして記憶に近い振る舞いができてしまうことがある。未知データでの性能を一般化と呼び、一般化を確かめるために、学習用と評価用を分けて考える必要がある。評価用データを学習に混ぜると、評価が自己採点になり、性能を誤認しやすくなるためである。

さらに、教師あり学習はラベルの質に強く依存する。ラベルが揺れている場合、モデルは揺れを含む規則を学んでしまうため、後で説明責任を果たしにくい。ラベルの定義、付与方法、付与者の一致度、測定誤差の性質は、教師あり学習の一部として扱うべきである。モデルの賢さだけで結果を説明せず、ラベル生成の条件を含めて説明する姿勢が必要である。

4.2 教師なし学習

教師なし学習は、正解ラベルがなく、データの構造を捉える枠組みである。構造とは、似ているもの同士のまとまり、低次元の並び方、外れた点の存在などであり、分類や予測の前にデータの性質を把握する目的で使われることが多い。教師なし学習は、人間が見落としやすい規則性を可視化したり、整理したりする役割を担うが、結果の意味づけは人間側の解釈に依存しやすい点を理解しておく必要がある。

クラスタリングは、データをいくつかの集団に分ける方法である。例えば、アンケート回答を傾向ごとに分ける、ニュース記事を話題ごとに分ける、購買履歴から利用者の傾向を分けるといった用途がある。クラスタリングは、分類のように正解が与えられないため、得られた集団が何を意味するかは、特徴量の選び方と人間の解釈に左右される。クラスタ数をいくつにするかも自明ではなく、目的に応じて妥当性を議論する必要がある。

次元削減は、高次元のデータを低次元へ写像し、見通しを良くする方法である。例えば、文章の埋め込みを2次元へ落として散布図にすると、話題の近さや外れた文章が視覚的に把握できる。主成分分析は線形な次元削減の代表であり、データXを分散が大きい方向へ射影することで、情報をなるべく保ちながら次元を減らす。

z=W(xμ)

のように、平均μで中心化した後に射影行列Wで低次元へ写すと考えるとよい。次元削減は便利であるが、低次元に落とした瞬間に失われる情報があり、散布図が示す距離や形が元の空間の性質をそのまま保証するわけではない。

異常検知は、通常とは異なる振る舞いを見つける目的で用いられる。例えば、ネットワークのアクセスログの急な変化、センサの故障らしい値、会計データの不自然な取引などが対象になる。異常は頻度が低いため教師ありで十分なラベルを集めにくいことが多く、教師なしの考え方が役に立つ。ここでも、何を異常とみなすかは制度や目的に依存し、誤検知の許容度も場面によって異なる。

教師なし学習の結果は、可視化と説明の訓練が重要である。例えば、2次元散布図で近い点が、元の意味で近いとは限らない場合があるため、複数の表現や複数の手法で確かめる姿勢が必要である。得られたクラスタに名前を付けるときも、名前が先に立つと解釈を固定しやすい。したがって、教師なし学習は発見を与えるが、結論を自動で与えるものではないという立場を明確にする必要がある。

4.3 強化学習

強化学習は、環境との相互作用の中で報酬を最大化する方策を学ぶ枠組みである。教師あり学習が、過去の正解から当て方を学ぶのに対し、強化学習は、試行の結果として得られる報酬を手がかりに、行動の選び方を改善する。ここで重要なのは、正解ラベルが与えられるのではなく、行動の系列の結果として評価が返ってくる点である。したがって、短期的には損でも長期的に得になる行動を学ぶ必要があり、時間の概念が本質的に入る。

強化学習では状態s、行動a、報酬r、方策π(a|s)を導入し、割引率γ(0,1)を用いて、将来報酬の和を最大化する。

π=argmaxπE[t=0γtrt]

割引率γは、どの程度未来を重視するかを表す。γが小さいと目先の報酬を優先し、γが大きいと先の報酬を重視する。これは単なる数値設定ではなく、システムがどの時間尺度で最適化されるべきかという設計に対応している。

価値関数Vπ(s)は、状態sから方策πに従ったときに得られる将来報酬の期待値である。

Vπ(s)=Eπ[t=0γtrts0=s]

行動価値Qπ(s,a)は、最初に行動aを選んだ後に方策πに従った場合の期待値である。

Qπ(s,a)=Eπ[t=0γtrts0=s,a0=a]

価値関数を推定し、価値が高くなる行動を選ぶことで、方策を改善するという考え方が基本にある。

強化学習で避けて通れないのは探索と活用の両立である。活用とは、今までの経験から良さそうな行動を選ぶことであり、探索とは、未知の行動を試して学習材料を増やすことである。探索が弱いと局所的に良い行動に固まり、より良い行動を見逃すことがある。探索が強すぎると学習が安定せず、危険な行動を取り続けることがある。現実の応用では安全性や制約条件が加わるため、探索の設計は技術だけでなく社会的要請とも結びつく。

報酬設計が不適切だと望まない行動が学習されるため、目的の定義が核心となる。例えば、作業の速さだけを報酬にすると安全性を犠牲にする行動が選ばれうる。点数だけを報酬にすると、不正や近道が誘発されうる。強化学習は、目的を数値化して最適化する枠組みであるからこそ、数値化が何を取りこぼすかを常に意識する必要がある。

4.4 自己教師あり学習

自己教師あり学習は、入力データそのものから教師信号を作り、表現を学ぶ枠組みである。教師あり学習のように人がラベルを付けなくても、データの一部を隠して当てさせる、順序を当てさせる、対応関係を当てさせるなどの課題を作ることで、学習の目標を構成できる。ここでの狙いは、まず汎用的な表現を獲得し、その表現を後で分類や予測に利用できるようにする点にある。

大規模言語モデルの次トークン予測は自己教師あり学習の代表例である。トークン列(x1,,xT)に対し、各時刻tで次のトークンxtを予測するように学習し、負の対数尤度を小さくする。

L(θ)=t=1Tlogpθ(xtx<t)

この学習目標は一見単純であるが、長い文脈の整合性、語彙の使い方、説明の型など、多様な規則性を取り込むことができる。重要なのは、会話ができるように見える振る舞いも、次を当てる学習の積み重ねから現れうるという点である。

画像分野でも自己教師あり学習は広く使われる。画像の一部を隠して復元する課題や、同じ画像から作った二つの変形を近づけ、異なる画像は遠ざける課題などがある。これらは、ラベルがなくても、視覚にとって意味のある表現を獲得しやすい。自己教師あり学習は、ラベル不足の現実に対する重要な手段であるが、入力データの質と多様性に強く依存する。

自己教師あり学習は大量データを前提とすることが多く、データ権利・計算資源との関係が強くなる。データが多いほど表現は豊かになりうる一方、データの由来が不透明だと権利問題や偏りの問題が増幅する。計算資源が大きいほど学習が進む一方、環境負荷や費用の制約が現実の境界になる。したがって、自己教師あり学習は技術的な枠組みであると同時に、社会的条件と密接に結びついた枠組みである。

また、自己教師あり学習で得られる表現は、目的に直接最適化されたものではない。表現が汎用的であることは利点であるが、目的に必要な情報が十分に含まれているかは別問題である。後で少量のラベルを使って調整する段階で、どの情報が足りないかが明らかになることがある。初学者は、自己教師あり学習を万能の近道として捉えるのではなく、表現の獲得と目的への適合が段階的に進むという理解を持つべきである。

4.5 生成と識別

識別モデルはP(y|x)を、生成モデルはP(x)P(x,y)を扱うと説明されることが多い。識別モデルは、与えられた入力xから目的の出力yを直接当てることに焦点があり、分類や回帰で中心的に使われる。生成モデルは、データそのものが現れる確率構造を学び、そこから新しいデータを作ったり、欠損を補ったり、条件付きで生成したりすることに焦点がある。

確率の関係を式で整理すると、識別と生成の違いが見えやすい。ベイズの定理により、

P(y|x)=P(x|y)P(y)P(x)

である。識別モデルは左辺P(y|x)を直接推定する立場であり、生成モデルはP(x|y)P(x)、あるいはP(x,y)を推定する立場である。どちらが良いかは目的による。分類だけが目的ならP(y|x)を直接学ぶ方が効率的なことが多いが、データ生成や欠損補完まで行いたいなら生成の立場が有利になることがある。

生成モデルはデータ分布そのものを学ぶため、合成データ生成や欠損補完にも使われる。例えば、欠けた単語を補う、画像の欠損領域を埋める、音声の欠損区間を推定するなどは、P(x)の構造を学ぶことと結びつく。条件付き生成では、条件cを与えてP(x|c)からサンプルすることで、指定に沿った文章や画像を作る。生成AIはこの方向の技術が社会へ大きく現れた形である。

一方で、生成は社会へ及ぼす影響が大きい。生成物が事実に見える形で流通すると、誤情報の拡散、捏造、権利侵害、人格権の問題が生じうる。さらに、生成物の出所が不明確だと、責任の所在が曖昧になり、被害救済が困難になりうる。したがって、生成モデルを扱うときは、性能だけでなく、透明性と責任の議論が不可欠となる。

識別と生成は対立ではなく、相補的である。例えば、生成モデルで表現を獲得し、それを識別へ利用することがある。逆に、識別の誤りを減らすために、生成によるデータ拡張を行うこともある。初学者に必要なのは、どの確率を推定しているのかを言語化し、その結果として何ができ、何ができないかを説明できることである。

4.6 学習の型の整理

学習の型は目的とデータ条件で使い分ける対象であり、万能な型は存在しない。型の違いは、与えられる情報、最適化する対象、評価の考え方の違いとして整理できる。例えば、教師あり学習ではyが与えられるため予測誤差で評価しやすいが、教師なし学習では正解がないため解釈と目的適合で評価する必要がある。強化学習では時間に沿った報酬の積み上げが対象となり、自己教師あり学習ではデータ内部の課題によって表現を作ることが中心になる。

次の表は、講義内で扱う使い分けの軸を整理するためのものである。

学習の型主な入力目的代表例主な論点
教師あり(x, y)予測精度の向上画像分類、成績予測ラベルの質、過学習
教師なしx構造の発見クラスタリング、次元削減解釈の恣意性
強化(s, a, r)報酬最大化ゲーム、制御報酬設計、安全性
自己教師ありx表現学習言語モデル、表現学習データ権利、計算資源

表の読み方として、まず主な入力に注目するのが有効である。教師ありは(x,y)が揃うため、何を当てるかが明確である。教師なしと自己教師ありはxだけを起点にするが、教師なしは構造を見つけることに向き、自己教師ありは後の利用に効く表現を作ることに向く。強化学習はs,a,rという相互作用の記録が必要であり、データの形が他の型と異なる。

次に目的に注目すると、同じデータでも型が変わりうることが分かる。例えば、文章データxがあるとき、教師ありなら感情ラベルyを当てる分類ができる。教師なしなら文章のまとまりを見つけるクラスタリングができる。自己教師ありなら次トークン予測で表現を学べる。目的が変われば、同じデータでも学習の問いが変わり、得られる知識も変わる。

最後に主な論点に注目すると、技術と社会の接点が見える。教師ありではラベルの質が中心であり、ラベルが制度や評価者に依存する以上、説明責任が課題になる。教師なしでは解釈が入るため、結果を決定事項として扱わず、可視化や言語化を通じて妥当性を議論する必要がある。強化学習では報酬設計と安全性が核心であり、目的の数値化が何を取りこぼすかが問われる。自己教師ありではデータと計算資源が制約となり、権利と資源の条件が学習の成立条件になる。

学習の型は互いに混ざることも多い。例えば、自己教師ありで得た表現を教師ありで微調整する、教師なしでデータのまとまりを把握してから教師ありで予測する、強化学習において人間の評価を用いて報酬を補うなどである。混ぜれば自動的に良くなるわけではないが、目的と条件を言語化した上で組み合わせると、単独の型では得られない性質が得られることがある。本講義では、各型を暗記するのではなく、入力・目的・評価・責任の対応関係として理解することを目指す。

第5章 基本モデルの考え方

本章では、AIを支える基本モデルを通じて、予測とは何か、学習とは何かを数式と言葉で結び付けて理解する。高度な深層学習も、突き詰めれば「入力xから出力yを作る関数を、データに合うように調整する」という点で共通しており、基本モデルはその最小構成である。

5.1 線形回帰

線形回帰は、連続値を予測する最も基本的なモデルである。入力ベクトルxRdに対し、出力を

y^=wx+b

と置く。ここでwRdは各特徴量の重み、bRは切片であり、xの各成分がyにどの方向へどれだけ影響するかを、符号と大きさで表す。

学習は、予測y^と正解yのずれを小さくするようにw,bを決めることである。代表的には平均二乗誤差(MSE)を用い、

L(w,b)=1Ni=1N(wxi+byi)2

を最小化する。二乗を取るため、誤差の大きな点が強く罰せられ、外れ値があると結果が引っ張られやすい。この性質は欠点にも利点にもなり、外れ値が本当に重要な変化を表す場合には敏感に反応する一方、測定ミスのような外れ値には弱くなる。

線形回帰が重要なのは、単純であるが説明がしやすい点にある。wjは「他の条件が同じとみなせる範囲で、特徴量xjが1増えるとy^がどれだけ変わるか」を示す解釈を持つ。例えば、学習時間、出席回数、課題提出数などを特徴量にしたとき、重みの符号は影響の方向を表す。ただし、これは因果を保証しない。相関を見ているだけであり、交絡(本当の原因が別にある)を含む場合には、解釈を誤りやすい点に注意が必要である。

また、線形回帰は「線形で表せる範囲」を理解する道具でもある。入力と出力の関係が直線で近似できるなら、少ないデータでも安定して学びやすい。逆に、曲がった関係を無理に直線で当てようとすると系統的にずれる。このずれを残差と呼び、残差に構造が残っているかを見ることで、モデルが取りこぼしている要因が推測できる。基本モデルは、誤りを通じてデータの性質を学ぶ入口にもなる。

5.2 ロジスティック回帰

ロジスティック回帰は、確率的分類を行う基本モデルである。2値分類では、y{0,1}として、まず線形スコア

z=wx+b

を作り、それをシグモイド関数

σ(z)=11+ez

に通して確率として解釈する。

p(y=1|x)=σ(wx+b)

ここでzは「1らしさ」の連続スコア、σ(z)は0から1の範囲に収まる確率である。

学習では、交差エントロピー損失を用いることが多い。2値の場合、

L(w,b)=1Ni=1N[yilogpi+(1yi)log(1pi)]

ただしpi=σ(wxi+b)である。この損失は、正解クラスに高い確率を割り当てるほど小さくなり、確率推定として自然な性質を持つ。

出力が確率として読める点は、意思決定と接続するうえで重要である。例えば、合否判定のように二者択一に見える問題でも、確率が0.51と0.99では意味が違う。前者は不確かさが大きく、追加情報や人間の確認が必要かもしれない。後者は自動化してよいかもしれない。ロジスティック回帰は、閾値をどこに置くかという設計(例:0.5以上なら1とする)を明示でき、誤りの種類(見逃しと誤検出)を議論しやすい。

さらに、ロジスティック回帰では係数の解釈が「対数オッズ」に結びつく。オッズをp/(1p)とすると、

logp1p=wx+b

となり、wjは特徴量xjが1増えたときに対数オッズがどれだけ変わるかを表す。これは医学統計などで広く使われる見方であり、確率の変化を直接追うより線形に扱える利点がある。ただし、確率の変化量はpの位置によって変わるため、係数の大きさをそのまま直感的影響として読み替えると誤解が起きやすい。

5.3 ナイーブベイズ

ナイーブベイズは、特徴の条件付き独立を仮定して確率計算を単純化する基本モデルである。ベイズの定理より、

P(y|x)=P(x|y)P(y)P(x)

であり、分類ではP(x)はクラス比較に共通なので、

P(y|x)P(y)P(x|y)

を最大化するクラスを選べばよい。ナイーブベイズはここで、

P(x|y)jP(xj|y)

と仮定し、特徴がクラスyの下で独立であるとみなす。仮定は強いが、その代わり計算が軽く、少ないデータでも動作しやすい。

文章分類の例が分かりやすい。単語の出現を特徴量とし、クラスを「スポーツ」「政治」などにすると、ナイーブベイズは「このクラスではこの単語が出やすい」という統計を学び、それを掛け合わせて判断する。単語同士は実際には独立ではないが、独立と仮定しても分類がうまくいく場合がある。これは、分類に必要な情報が単語の出現頻度に強く含まれているとき、近似が十分に働くためである。

ナイーブベイズの利点は、モデルの構造が明快で、誤りの原因も追いやすい点である。どの単語や特徴がどのクラスを支持しているかを確率として確認できるため、説明がしやすい。さらに、学習が速く、データが小さい段階でベースラインとして使いやすい。高度なモデルを使う前に、単純モデルで到達できる性能を把握することは、問題設定が適切かどうかを点検するうえで重要である。

一方で、独立仮定が崩れると弱点が露呈する。例えば、特徴同士が強く相関していると、同じ情報を二重に数えてしまい、確率が極端に振れることがある。したがって、ナイーブベイズは「仮定が厳密に正しい」から使うのではなく、「仮定が荒くても十分に機能する」領域で使うという理解が必要である。

5.4 k近傍法

k近傍法は、学習というより記憶に近い方法であり、近いデータの多数決で予測する。新しい入力xが与えられたとき、学習データの中で距離が近いものをk個選び、そのyの多数決(分類)や平均(回帰)で予測を作る。モデルのパラメータを事前に学ぶのではなく、データを保持しておき、問い合わせのたびに参照する点が特徴である。

この方法では距離の定義が結果を支配する。例えばユークリッド距離

d(x,x)=j(xjxj)2

を用いると、尺度の大きい特徴量が距離を支配してしまうため、標準化のような前処理が不可欠になる。カテゴリ変数が混ざる場合は、距離をどう定義するかがさらに難しくなる。距離は数学的定義であると同時に、「何を似ているとみなすか」という判断の埋め込みである。

kの選び方も本質的である。kが小さいと局所的な特徴に敏感になり、ノイズに弱くなることがある。kが大きいと平均化が強まり、境界がなだらかになる一方、局所構造を潰してしまうことがある。したがって、kは一つの正解があるのではなく、データ量、ノイズ、目的に応じて調整すべき設計変数である。

高次元では距離が意味を失いやすいという問題があり、次元削減と併せて学ぶ価値がある。高次元空間では、全ての点が互いに同じくらい遠く見える現象が起きやすく、近い点を選ぶという発想が弱くなる。これはデータ数が少ないほど顕著であり、必要なデータ量が急激に増えるという形で現れる。したがって、k近傍法は単純で直感的だが、表現の設計とデータ条件への依存が大きいモデルである。

5.5 決定木とアンサンブル

決定木は、特徴量の条件分岐で予測するため直観的である。例えば「もし出席回数が一定以上で、課題提出が一定以上なら合格の確率が高い」といった形で、木構造として判断規則を表せる。各ノードで特徴量の閾値判定を行い、葉に到達したらクラスや値を出力する。人が分岐を追って説明できるため、ルールベースに近い理解が可能である。

決定木の分岐は、データをどれだけよく分けられるかによって選ばれる。分類では不純度(例えばジニ不純度やエントロピー)を減らすように分割し、回帰では分割後の分散が小さくなるように分割する。例えばエントロピーは

H=kpklogpk

で表され、クラスの混ざり具合が大きいほど値が大きい。良い分割は、子ノードの混ざり具合を減らし、純度を上げる分割である。

だが単体の決定木は不安定になりやすい。少しデータが変わるだけで分岐が入れ替わり、全体の形が大きく変わることがある。深く作れば学習データへ過度に適合しやすく、浅く作れば表現力が不足しやすい。この不安定さを抑えるために、複数の木を組み合わせるアンサンブルが実用で広く用いられる。

ランダムフォレストは、データをランダムにサブサンプルし、さらに分岐で使う特徴量もランダムに制限した木を多数作り、その多数決や平均で予測する。これにより、個々の木の癖が平均化され、汎化性能が上がりやすい。勾配ブースティングは、弱いモデルを順に追加し、前の誤りを次のモデルが補うように学習する。性能が高くなることが多い一方、設定が多く、過度に複雑化すると説明が難しくなる。

複雑化するほど説明が難しくなるため、透明性の議論と接続する必要がある。決定木は分岐を追えるが、森やブースティングでは木が多数あるため、全体としての説明は別の方法で行う必要がある。例えば、特徴量重要度、部分依存、サンプルごとの寄与の分解などが用いられるが、それぞれが何を保証するかを理解しないと、説明が見かけだけになりやすい。モデル選択は性能と説明可能性の両方を踏まえて行うべきである。

5.6 学習と最適化の入口

学習は損失を最小化する最適化問題として定式化される。モデルが複雑でも、結局はθというパラメータを調整し、損失L(θ)を小さくする作業である。多くの場合、解析的に最小値を求めるのは難しいため、反復的な更新で近づける。最も基本的な方法が勾配降下法である。

θθηθL(θ)

ここでηは学習率であり、一回の更新でどれだけ進むかを決める。

勾配とは、損失を増やす方向を示すベクトルであり、θLが損失を減らす方向になる。学習率ηが大きすぎると最小値を飛び越えて発散しやすく、小さすぎると収束が遅くなる。したがって、ηは性能のためだけでなく、学習が成立するかどうかを左右する条件である。初学者は、学習率が単なる調整つまみではなく、数値計算としての安定性を左右する量だと理解する必要がある。

実用では、全データで勾配を計算する代わりに、ミニバッチと呼ばれる小さな部分集合で勾配を近似し、更新を繰り返すことが多い。この方法は計算を軽くし、大規模データでも学習できるようにするが、更新がノイズを含むため、収束挙動が揺れることがある。揺れは悪いことだけではなく、局所的な谷から抜ける助けになる場合もあるが、評価のばらつきや再現性の問題につながることもある。

複雑なモデルほど最適化が難しくなり、評価設計の重要性が増す。損失が小さくなったからといって目的に合っているとは限らない。例えば分類では、損失は下がっても特定の集団に対する誤りが増えているかもしれない。したがって、学習中には損失だけでなく、評価指標や条件ごとの誤りの形を合わせて点検する必要がある。学習と評価は分離された作業ではなく、一体として設計されるべきものである。

本章の基本モデルは、深層学習の前段として重要である。なぜなら、複雑なモデルに進むほど、内部が見えにくくなり、誤りの原因が分かりにくくなるからである。基本モデルを理解しておくと、どのモデルでも共通する「表現」「損失」「最適化」「評価」という骨格を見失わずに済む。以降の章では、この骨格を保ったまま、より複雑なモデルと社会的論点へ進む。

第6章 深層学習の基礎

深層学習は、入力を数値の配列として受け取り、層と呼ばれる変換を何段も重ねることで、複雑な対応関係を学習する枠組みである。第5章で扱った線形回帰やロジスティック回帰は、深層学習の最小構成に相当し、深層学習はそれらを多段化し、表現の自由度を増やしたものとして理解できる。

6.1 ニューラルネットワークの表現

ニューラルネットワークは、線形変換と非線形関数の合成で表現される。最も基本的な全結合(密)層を考えると、入力xRdに対し

h=Wx+b

と計算し、ここでWRm×dbRmが学習されるパラメータである。これに活性化関数ϕ()を適用して

a=ϕ(h)

とし、この操作を層ごとに繰り返す。L層のネットワークは、合成関数として

fθ(x)=ϕL(WLϕL1(ϕ1(W1x+b1))+bL)

のように表される。ここでθ={W,b}=1Lが学習対象である。

層を深くする意味は、単純な変換を重ねて複雑な関数を作る点にある。1層の線形モデルは入力空間を平面(超平面)で分けるが、非線形を挟んで層を重ねることで、入力空間を曲がった境界で分けたり、複雑な形の対応関係を表現できる。例えば、画像の識別では、画素の単純な足し合わせだけでは形を区別しにくいが、局所的特徴を組み合わせる多段構造によって識別が可能になる。深さは万能の合言葉ではないが、表現を段階的に組み立てられることが深層学習の中心である。

非線形性がなければ結局は線形になるため、活性化関数の役割が重要である。もし全ての層が線形であれば、WLW2W1という一つの線形変換に潰れてしまい、層を重ねる意味が失われる。活性化関数はこの潰れを防ぎ、入力の領域ごとに異なる変換を可能にする部品である。代表例として、シグモイドσ(z)=1/(1+ez)、双曲線正接tanh(z)、ReLUReLU(z)=max(0,z)がある。近年は滑らかなReLU系としてGELUなども広く用いられ、学習の安定性や表現の質に影響する。

ただし活性化関数は、表現力だけでなく学習のしやすさにも関わる。例えばシグモイドやtanhは入力の絶対値が大きいと飽和し、微分が小さくなる領域が広がる。勾配が小さいと学習が進みにくくなり、深いネットワークで顕在化しやすい。ReLUは飽和しにくい領域を持つため学習が進みやすい一方で、入力が負側に偏ると出力が0になり続ける成分が生じうる。したがって、活性化関数は見かけの形だけでなく、勾配の流れまで含めて選ばれるべき対象である。

ニューラルネットワークを確率モデルとして読むことも重要である。分類では最終層でクラス確率を出すためにsoftmaxを用いることが多い。クラス数Kに対しロジットzRKを出し、

p(y=k|x)=ezkj=1Kezj

とする。これにより出力は確率として解釈でき、損失関数(交差エントロピー)とも整合する。深層学習は複雑であるが、最終的にどの量を出力し、何を確率として扱うかを言語化できないと、結果の解釈や責任の議論が曖昧になりやすい。

6.2 誤差逆伝播

誤差逆伝播は、合成関数の微分を連鎖律で効率よく計算する方法である。深層学習は多段の合成関数であり、パラメータθの数が非常に多い。各パラメータについて損失L(θ)の勾配θLを求め、勾配降下法などで更新することが学習の中核である。誤差逆伝播は、その勾配を現実的な計算量で求めるための基本原理である。

連鎖律の最小例で直観を作ると理解しやすい。例えばy=f(u)u=g(x)の合成y=f(g(x))に対して、

dydx=dydududx

が成り立つ。深層ネットワークはこの合成が多数連なった形であり、各層の局所微分を掛け合わせて全体の微分を得る。順方向(フォワード)では入力から出力まで値を計算し、逆方向(バックワード)では出力側から入力側へ誤差の情報を伝えていく。この逆方向の伝播が誤差逆伝播である。

1層の例で式の形を示す。h=Wx+ba=ϕ(h)、損失L=L(a)とすると、Wに関する勾配は

LW=LaahhW

となる。ここでh/Wは入力xに依存し、a/hは活性化関数の微分ϕ(h)に依存する。重要なのは、各層で必要な量が局所的に決まっており、それを順序良く伝播すれば全体の勾配が得られる点である。これが、巨大なパラメータ数でも学習が成立する計算上の理由である。

誤差逆伝播を実装の観点で見ると、計算グラフという考え方が役に立つ。ネットワークの計算を、加算、乗算、行列積、活性化といった基本演算の組み合わせとして表し、それぞれの演算に局所微分を割り当てる。逆方向では、出力側から微分値を受け取り、局所微分を用いて入力側の微分値へ変換して渡す。これを繰り返すことで、全てのパラメータに対する勾配が一括して得られる。この考え方は自動微分の基礎であり、現代の深層学習フレームワークが高速に学習できる根底にある。

ただし、勾配を掛け合わせる構造は学習を難しくもする。深いネットワークでは、掛け合わせの結果として勾配が極端に小さくなる(勾配消失)か、極端に大きくなる(勾配爆発)ことが起きうる。小さすぎると学習が進まず、大きすぎると更新が不安定になる。これに対して、活性化関数の選択、重みの初期化、正規化手法、勾配クリッピングなどの工夫が蓄積されてきた。深層学習の成功は計算資源だけではなく、勾配を安定に流す設計思想が整ったことにも依存する。

6.3 正則化と汎化

訓練データでよく当たることと、未知データで当たることは異なる。訓練データに過度に合わせすぎると、見かけの性能は高くても新しいデータで性能が落ちることがある。この現象は過学習として知られ、深層学習のように表現力が高いモデルほど起きやすい。したがって、学習では誤差を下げるだけでなく、未知データでも安定して機能する性質を作る必要がある。

正則化は、モデルの複雑さを抑え、過学習を防ぐための仕組みである。最も基本的なL2正則化(重み減衰)は、

Lreg(θ)=L(θ)+λθ22

の形で損失に罰則項を加える。λ>0は罰則の強さであり、重みが大きくなりすぎる解を避ける方向に学習が進む。重みが極端に大きいと、入力の微小な変化に出力が過敏になり、データのノイズまで拾いやすくなるため、重みの大きさを抑えることが汎化に寄与しうる。

L1正則化はθ1=j|θj|を罰し、不要な重みを0に近づけやすい性質を持つ。特徴量選択に近い効果が現れることがあり、解釈の助けになる場合もある。ただし深層学習ではパラメータが非常に多く、単純な疎性だけで議論しきれないことも多い。どの正則化が適するかは、データ量、ノイズ、目的、説明の要請によって変わるため、固定の万能手段としてではなく、設計の一部として扱う必要がある。

Dropoutは、学習中に一部のユニットを確率的に無効化することで、特定の経路への依存を減らす方法である。直観的には、毎回少し違うサブネットワークで学習しているような効果があり、アンサンブルに近い安定化が得られる。無効化を確率pで行うとき、出力を適切にスケーリングして期待値を保つようにする。Dropoutはデータが少ない場合に特に効くことがあるが、モデル構造や正規化手法との相互作用もあるため、効果は状況に依存する。

早期終了は、学習を長く続けるほど訓練データへの適合が進み、ある時点から未知データの性能が悪化する現象を利用する。評価用データでの損失や指標を見ながら、改善が止まった時点で学習を止める。これは数学的罰則を追加せずに、実質的に複雑さを抑える方法である。ただし、評価用データの使い方を誤ると、評価そのものが学習に混ざり、性能の見積も triggering となるため、学習用と評価用の分離を厳密に守る必要がある。

汎化を支えるのは正則化だけではない。データ拡張は、入力に意味を保つ変換(画像の小さな回転、切り出し、明るさ変化など)を加え、モデルが本質的特徴に注目するよう促す。正規化手法(例:ミニバッチ内で統計を揃える)も学習の安定性を高め、間接的に汎化に寄与することがある。重要なのは、汎化とは魔法の性質ではなく、データの作り方、損失の設計、学習の止め方、モデルの制約が合わさって生じる性質だと理解することである。

6.4 畳み込みと再帰

CNN(畳み込みニューラルネットワーク)は局所パターンを共有重みで捉え、画像のような空間構造に適する。畳み込みは、入力の近傍(局所領域)に同じフィルタ(重み)を適用して特徴を抽出する操作である。2次元畳み込みを簡略化して書くと、入力XとフィルタKに対し

Y[i,j]=uvK[u,v]X[iu,jv]

のように表せる。ここで同じKが画像全体の各位置に使われるため、重みの数が抑えられ、位置が少しずれても同様のパターンを検出できる。これが画像認識でCNNが強い基本理由である。

畳み込みが持つもう一つの重要な性質は、受容野の拡大である。浅い層では局所のエッジや模様を捉え、層を重ねるとより広い範囲の形や配置を捉えやすくなる。プーリングやストライドを用いると解像度を下げつつ特徴を集約でき、計算量を抑えながら抽象度を上げられる。ただし、集約は情報の破棄でもあるため、細かい位置精度が必要な課題(例:セグメンテーション)では工夫が必要になる。

RNN(再帰型ニューラルネットワーク)は系列データを扱うために使われてきた。系列とは、時刻や順序に沿って並ぶデータであり、文章、音声、時系列ログなどが含まれる。基本形では、時刻tの入力xtと前の隠れ状態ht1から新しい状態htを作る。

ht=ϕ(Whht1+Wxxt+b)

そしてhtから出力を得る。RNNは「過去の情報を状態に圧縮して運ぶ」仕組みであり、順序を持つ情報処理の最小構成として理解できる。

しかしRNNは長距離依存の学習が難しかった。過去へ遡るほど勾配が小さくなる、あるいは大きくなる問題が起き、遠い過去の情報が学習で扱いにくい。これに対してLSTMやGRUといったゲート機構を持つ拡張が提案され、情報の保持と破棄を制御できるようにした。ゲートは、どの情報を残すかを学習によって決める部品であり、単純な再帰よりも安定に長い依存を扱える。

その後、注意機構が系列処理を置き換えていく流れが生じた。注意機構は、過去を一つの状態に圧縮する代わりに、必要な情報へ直接アクセスして重み付けする発想である。これにより、遠い要素でも必要なら強く参照でき、長距離依存の扱いが改善された。CNNとRNNを学ぶ意義は、空間構造と系列構造という二つの代表的な構造を、どのような仮定(局所性、共有重み、再帰)で取り込むかを理解する点にある。現在の大規模モデルの位置付けも、この延長線上で捉えると見失いにくい。

6.5 注意機構

注意機構は、入力のどこに注目すべきかを重みとして計算する仕組みである。Transformerでは、クエリQ、キーK、バリューVという3つの表現を用意し、注意を

Attention(Q,K,V)=softmax(QKdk)V

の形で表す[S12]。QKは類似度(内積)をまとめた行列であり、softmaxによって各クエリがどのキーへどれだけ注目するかの重みになる。最後にその重みでVを重み付き平均することで、参照結果が得られる。直観としては、クエリが問いであり、キーが索引であり、バリューが実際に取り出す内容であると考えるとよい。

dkで割る理由は、内積のスケールが次元dkに比例して大きくなり、softmaxが極端に尖りやすくなるのを抑えるためである。softmaxが尖りすぎると、ほぼ一つの要素だけに注意が集中し、勾配が流れにくくなる場合がある。スケーリングは学習の安定性を支えるための工夫であり、注意機構が実用的に機能する重要な部品である。

注意機構の長所は、系列の全ての位置を相互に参照できる点にある。RNNでは情報が時間方向に伝播するため、遠い関係は間接的になりやすい。注意では、遠い位置同士でも一回で結びつき、必要な相関を捉えやすい。例えば文章では、主語と動詞、代名詞と先行詞のように離れた依存が多く、注意の利点が現れやすい。さらに計算が並列化しやすく、GPUによる高速化と相性が良い点も重要である。

一方で注意機構には計算量の問題もある。系列長をnとすると、QKn×nであり、計算量とメモリがO(n2)で増える。長文や高解像度入力ではこの負担が大きくなるため、近年は計算を近似する方法や参照範囲を制限する方法などが多数提案されている。ここで理解すべきことは、注意機構は万能の魔法ではなく、参照の自由度と計算資源の制約を交換している仕組みだという点である。

Transformerでは注意を複数並列に持つ多頭注意(multi-head attention)が用いられることが多い。複数の頭が異なる観点の類似度を学び、異なる関係を同時に捉えられる。例えば同じ文でも、語順関係、意味の近さ、構文の関係など複数の関係が混在するため、頭を分けることで表現が豊かになりうる。加えて、系列の順序情報を入れるために位置埋め込みが必要になる。注意は集合の処理に近く、順序を自動では持たないため、順序をどのように数値表現へ組み込むかが設計上の要点となる。

6.6 深層学習の限界

深層学習は万能ではなく、外れ値、分布変化、説明責任に弱い面を持つ。訓練時に見たことのない入力や、統計的性質が異なる入力に対しては、性能が急に落ちることがある。これは深層学習に限らず統計学習一般の性質であるが、深層学習は高い表現力ゆえに訓練分布へ強く適合し、分布変化の影響が顕在化しやすい場面がある。したがって、運用環境が変わりうる現実では、学習時と同じ条件が保たれるという前提を置けない。

外れ値に対しては、誤りが目立ちにくい形で現れることがある。深層モデルは自信ありげな出力を返す場合があり、見かけの確信と正しさが一致しないことがある。確率出力があるから安心とは言えず、確率が校正されているか、すなわち信頼度が現実の正答率と整合しているかが別問題になる。校正が不十分だと、0.9と出たものが実際には半分程度しか当たらないといった状況が起きうる。これは意思決定と直結するため、後の章で扱う信頼性の議論と結びつけて理解すべきである。

説明責任の点では、モデルが複雑であるほど、なぜその出力になったかを人間が追いにくい。入力のどの部分が効いたかを示す手法は多数あるが、それらが何を保証し、何を保証しないかを理解せずに使うと、説明が見かけに留まりうる。深層学習は、性能を上げる道具であると同時に、責任を果たすための説明の形式を難しくする道具でもある。したがって、説明は付け足しではなく、モデル設計と評価設計に組み込む必要がある。

また、深層学習はデータと計算資源への依存が強い。学習に必要なデータが偏っていると、偏りを含んだ表現や判断が形成されうる。計算資源が増えるほど性能が伸びる局面はあるが、資源制約や環境負荷の制約も現実の条件になる。性能だけを基準にするのではなく、必要資源、更新可能性、監査可能性といった条件も含めてモデルを選ぶことが、社会の中でAIを使ううえで重要である。

最後に、深層学習の信頼性はモデル単体では完結しない。どのようなデータで評価したか、どのような誤りが許容されないか、運用中の入力分布が変わったときにどう対応するかといった設計が不可欠である。深層学習は強力な道具であるが、その力は条件付きであり、条件を言語化して初めて適切に扱える。以降の章では、深層学習の仕組みを踏まえた上で、評価、制度、権利、倫理へと議論を進め、技術と社会の接続をより具体にしていく。

第7章 生成AIと基盤モデル

生成AIは、入力に対して答えを選ぶだけでなく、文章・画像・音声などの新しい出力を合成するAIである。基盤モデルは、広いデータで事前学習された大規模モデルが、多様な用途へ転用されるという研究開発の枠組みであり、近年は制度上も重要な対象になっている[S21]。

7.1 生成の学習目標

生成モデルは、観測されたデータが従う確率分布を近似し、そこから新しいサンプルを生成できるようにする枠組みである。言語の生成では、文章をトークン列(x1,,xT)として表し、自己回帰分解により

P(x1,,xT)=t=1TP(xt|x<t)

を満たすようにモデルを設計する。学習は通常、負の対数尤度(クロスエントロピー)を最小化する形で書け、

L(θ)=t=1TlogPθ(xt|x<t)

を小さくすることで、観測された列を高い確率で再現できるようにする。

この学習目標は、文の意味や真偽を直接教えるものではなく、訓練データに見られる次トークン分布を統計的に近似することを要請する。したがって、生成結果が自然で流暢であっても、真であることは保証されない。生成AIの評価では、言語としての自然さ、目的タスクでの有用性、そして安全性・権利侵害の抑制が同時に問われるが、これらはしばしばトレードオフになる。例えば「もっと多様に生成する」ことは創造性を高める一方で、不正確さや不適切さを増やす方向にも働きうるため、評価軸を分けて捉える必要がある。

生成の品質評価には、人間評価と自動評価が併用されることが多い。人間評価は、読みやすさ、指示への適合、危険性の有無などを総合的に判断できる一方で、評価者間のばらつきやコストの問題がある。自動評価は大量に回せるが、指標が「何を良いとみなすか」を暗黙に固定してしまう。したがって、評価指標は結果の説明責任と結びつけて選び、どの観点を優先した結果なのかを言語化できることが重要である。

また、生成モデルは確率分布を通じて出力を作るため、同じ入力でも出力が変わりうる。温度Tを用いたサンプリングでは

PT(xt|x<t)exp(ztT)

のように分布の鋭さを調整し、Tが小さいほど決定的になり、Tが大きいほど多様になる。これは便利であるが、設定によって「誤りが出やすい状態」を自ら作ってしまう場合もある。生成の学習目標と生成時の確率操作を区別して理解することが、生成AIを過信せずに扱う基礎になる。

7.2 大規模言語モデル

大規模言語モデル(LLM)は、次トークン予測で事前学習されるTransformer系モデルが中核であり、広いタスクに転用される。GPT-4の技術報告では、GPT-4がTransformerベースであり、文書中の次トークン予測を学習目標として事前学習されたことが述べられている[S14]。ここで重要なのは、LLMが「答えを知っている」から出力しているのではなく、学習した分布に従って次に来やすいトークンを逐次的に選ぶことで、結果として多様な作業が可能になっている点である。

LLMが多用途に見える理由の一つは、表現学習としての側面である。次トークン予測は、文法、語彙、談話構造、世界知識の断片など、多様な規則性を同時に捉えることを促す。さらに近年のLLMは、単なる事前学習に加えて、指示追従のための追加学習(指示データでの微調整)や、人間の選好を反映する学習(例として人間評価に基づく最適化)が組み合わされることが多い。この段階で「役に立つ応答」「危険な応答を避ける応答」へ寄せられるが、何を避け、何を許容するかという価値判断が設計に入り込むため、技術と社会の接点として扱う必要がある。

LLMの限界として、事実誤りが自然な文体で出力される現象が広く問題化してきた。これは、モデルが真偽を検証する機構を内在的に持つとは限らず、確率的に整合しそうな文章を構成できてしまうことに関係する。したがって、LLMの出力は、正しさの根拠(どの資料に基づくか、どの手続きで確からしさを高めたか)と切り分けて扱われるべきである。LLMを「会話ができる存在」として捉えるほど過信が生まれやすいため、統計的学習の帰結としての理解を保つことがAIリテラシーの中心になる。

加えて、LLMは入力の与え方に敏感である。質問の条件が曖昧だと、モデルは曖昧さを埋める方向に補完して出力を作るため、利用者の意図とずれることがある。逆に、制約条件、想定読者、引用の要請、禁止事項などを明示すると、出力の品質は大きく改善しうる。この性質は「モデルの能力」だけでなく「相互作用の設計」に依存することを示しており、生成AIを学ぶことは、問いの立て方を学ぶことでもある。

7.3 画像生成と拡散モデル

画像生成では拡散モデルが中心的手法になっている。DDPM(Denoising Diffusion Probabilistic Models)は、データに少しずつノイズを加える前向き過程と、ノイズからデータへ戻す逆過程を学習する枠組みとして提示され、高品質な画像生成を実現した[S13]。前向き過程は、時刻tでの状態xtが直前のxt1からガウス雑音で作られるように定義されることが多く、

q(xt|xt1)=N(xt;1βtxt1,βtI)

のように書かれる。ここでβtはノイズの強さを表す。

逆過程は未知であるため、ニューラルネットワークで近似した

pθ(xt1|xt)

を学び、xT(ほぼ純粋ノイズ)から順に復元していく。実装上は「加えたノイズを当てる」形へ変形されることが多く、モデルがϵを推定することで復元が進む。重要なのは、拡散モデルが一度に完成画像を出すのではなく、多段階の復元として生成が構成されている点である。この構造により、生成の安定性や品質が得られやすくなる一方、計算量や生成時間が課題になり、改善のための研究が継続している。

拡散モデルの理解で押さえるべき点は、画像生成が「意味を理解して描く」ことと同義ではないことである。拡散モデルは、訓練画像の分布的な規則性(例えば質感、構図、物体の共起)を学習し、それに沿う画像を合成する。したがって、入力文がもっともらしい画像を誘導できても、現実の出来事の再現や証拠の提示には直結しない。画像が社会の記録として扱われてきた歴史を踏まえると、生成画像の普及は、真偽判定の習慣や制度と強く結びつく問題である。

この問題への技術的対応として、出所・来歴(provenance)情報を付与し、改変や生成の履歴を検証できる仕組みが整備されつつある。C2PAは、メディアの来歴と真正性のための技術仕様を公開しており、コンテンツの出所や編集履歴をメタデータとして扱う枠組みを示している[S25]。日本語での解説も出ており、社会実装の文脈で理解する助けになる[S26]。ただし、来歴情報は全ての環境で必ず保持されるわけではなく、制度・運用と組み合わせて初めて効果が出る点を忘れてはならない。

7.4 基盤モデルという考え方

基盤モデルは、広いデータで大規模に事前学習され、下流タスクへ適用・転用されるモデル群を指す概念である。Stanfordの報告は、基盤モデルを「広いデータで自己教師あり学習などにより学習され、多様な下流タスクへ適応できるモデル」として位置付け、能力とリスクを横断的に整理している[S21]。この考え方により、個別タスクごとにモデルを一から作る流儀から、共通基盤を作って使い回す流儀へ研究開発の重心が移った。

転用可能性は、教育・翻訳・補助執筆・検索支援・画像生成など、多方面で利用を促進した。しかし同時に、用途が広がるほど、想定外の使われ方が増え、責任の所在が複雑になる。例えば、同じ基盤モデルでも、利用者が追加学習や外部ツール連携を施すことで、挙動は大きく変わりうる。したがって「モデルそのものの責任」と「利用形態に由来する責任」を区別し、どの段階の設計判断が何に影響したのかを説明できる枠組みが必要になる。

近年、この領域は制度上も明確に議論対象になっている。EU AI Actでは、一般目的AI(GPAI)モデルの提供者に対する義務が条文として整理され、技術文書化や透明性に関する要求が含まれている[S22]。さらにEUは、GPAIの法的義務への対応を助ける任意の行動規範(Code of Practice)を公表し、透明性・著作権・安全保障の章立てで整備している[S23]。ここでの含意は、基盤モデルが単なる研究成果ではなく、社会基盤に近い位置を占め始めたため、透明性や安全性の説明が社会的要請として強まっているという点である。

基盤モデルを学ぶ際には、性能の上がり方にも目を向ける必要がある。モデルの規模、データ量、計算量の増加に伴って性能が滑らかに伸びる現象が報告され、能力の出現が議論されてきた。GPT-4技術報告も、幅広い評価で性能が現れる一方で、限界やリスクの議論が不可欠であることを示している[S14]。したがって、基盤モデルは「大きいほど良い」と単純化する対象ではなく、目的・制約・社会的影響のもとで設計されるべき対象である。

7.5 検索拡張生成

検索拡張生成(Retrieval-Augmented Generation, RAG)は、モデル外部の文書集合を検索し、その結果を根拠として取り込みながら生成する考え方である。RAGの基本は、パラメータに埋め込まれた知識(parametric memory)だけで答えを作るのではなく、外部インデックス(non-parametric memory)から関連文書を取得し、生成を条件付ける点にある。原論文は、Wikipediaのような大規模文書集合を密ベクトル検索で参照し、知識集約型タスクでの改善を示している[S20]。

形式的には、入力u(質問など)に対し、検索で得た文書zを潜在変数として

P(y|u)=zP(y|u,z)P(z|u)

のように分解して捉えることができる。ここでP(z|u)が検索(あるいは検索器の確率)に相当し、P(y|u,z)が生成器に相当する。直観としては、検索が「材料の提示」、生成が「材料を用いた文章化」である。材料が適切なら事実性が上がりやすく、材料が不適切なら誤りが混入しやすい。したがって、RAGは万能薬ではなく、検索の品質と、引用・要約の規律が成否を左右する。

RAGが重要になる背景には、生成AIの情報の鮮度と検証可能性の問題がある。パラメータに保持された知識は更新が容易ではなく、学習時点以降の出来事や修正を自動で反映しない。RAGは外部文書を参照することで、更新を文書側で行える可能性がある。また、参照した文書を利用者が確認できる形に整えることで、出力の検証性を高められる。これは学術の作法(根拠を示し、反証可能性を確保する)に近い態度であり、生成AIの利用を学術的営みへ接続する鍵になる。

一方で、検索拡張は新しい難しさも導入する。検索で得た文書が偏っていれば、生成も偏る。また、文書の信頼性が低ければ、誤情報を根拠として流暢に要約してしまう。したがって、検索拡張生成を理解するには、モデル側だけでなく、文書の選別、参照の提示形式、更新と監査の仕組みまで含めて考える必要がある。

7.6 生成AIの透明性

透明性は、生成AIの内部を全て公開することと同義ではなく、利用者や監督主体が判断に必要な情報へ到達できる状態を指す。EUのGPAI Code of Practiceは、AI Act上の義務への対応を支援する枠組みとして、透明性に関する章を含み、モデル文書化の様式も提示している[S23]。ここで求められるのは、モデルの能力だけでなく、学習・評価・制約・意図された用途などを、後から点検できる形で記録し続けることである。

EU AI Actの条文整理でも、GPAIモデルの提供者に対して技術文書の整備や透明性に関する義務が示されている[S22]。さらにEUは、学習データの要約(training contentのサマリ)に関するテンプレートを公表し、一定の要件のもとで利用を求める方針を示している[S24]。この動きは、著作権やデータ由来の説明可能性が、生成AIの社会実装において避けて通れない論点になっていることを示唆する。

透明性を学術的に捉えるなら、少なくとも次の三層に分けて考える必要がある。第一に、利用者に対する透明性であり、生成物であることの明示、限界、根拠提示の形式、利用条件を含む。第二に、開発と提供に関する透明性であり、評価結果、既知の不具合、想定外用途での危険、更新履歴などが含まれる。第三に、監督と監査のための透明性であり、当局や第三者が点検できる記録と手続きが含まれる。これらは同じ透明性という語で呼ばれがちだが、必要な情報の粒度と受け手が異なるため、混同しないことが重要である。

また透明性は、単に情報を増やせば達成されるわけではない。情報が多すぎると、利用者は判断できず、透明性が形式化してしまう。したがって、透明性は「受け手が判断できる形式」で設計されるべきであり、文書化の様式、要約の粒度、参照の提示、更新の通知といった設計が要点になる。ここでも、技術(出力の根拠提示、来歴情報)と制度(義務、監査、権利)の両輪で考える必要がある。

第8章 マルチモーダルと応用領域

本章では、画像・音声・言語など異なる情報を同時に扱うAIが、どのような課題設定と評価のもとで社会に導入されているかを整理する。便利さだけでなく、誤りの起き方、責任の分担、利用者側の検証作法まで含めて理解することが重要である。

8.1 画像理解

画像理解は、画像という二次元(あるいは動画なら三次元)の信号から、意味のある情報を取り出す営みである。ここでいう意味は、人間の言葉で説明可能な対象(猫、車、腫瘍の疑い)に限らず、画像同士の類似性、異常らしさ、変化の検出といった統計的な性質も含む。したがって「見えているものを当てる」だけではなく、「どこを根拠にそう判断したか」「誤りが起きたときにどの段階で気づけるか」までが、画像AIを学ぶ対象である。

画像理解の代表的な課題は、分類、物体検出、セグメンテーションである。分類は画像全体にラベルを付ける課題であり、物体検出は画像内の物体の位置(バウンディングボックス)と種類を同時に推定する課題である。セグメンテーションは、画素単位で領域を分ける課題であり、医療画像の病変領域や製造検査の欠陥領域の抽出に直結しやすい。近年は、プロンプト(点や枠)を与えるだけで未知の対象も切り出す「汎用セグメンテーション」型のモデルが注目されており、Segment Anything のように大量のマスクを用いた学習により、転用のしやすさが示されている。

評価は、正しく当てたかどうかだけでなく、用途に応じた指標で行う必要がある。分類では正解率(accuracy)や適合率・再現率が用いられ、物体検出では平均適合率(mAP)のように位置ずれと誤検出を同時に評価する指標が用いられる。セグメンテーションでは IoU(Intersection over Union)が基本であり、

IoU=|AB||AB|

のように、予測領域Aと正解領域Bの重なりで測る。指標は便利である一方、何を良いとするかという価値判断を含むため、医療なら見逃し(偽陰性)を強く避ける、交通なら誤検出による急ブレーキを避ける、など用途に合わせて重み付けを調整する必要がある。

画像AIで重要なのは、撮影条件と母集団の違いが性能を容易に崩す点である。照明、カメラ、解像度、季節、患者集団、工場ラインの変更といった要因は、学習時の分布と運用時の分布をずらし、期待した精度を出せなくする。ここで必要なのは、モデルの高性能さを語ることではなく、条件が変わったときに性能がどの程度落ちるかを事前に確かめ、落ち方が許容範囲かを判断する態度である。さらに、視覚と言語を結びつける学習(画像と説明文を対応づける学習)により、未知クラスへの対応や検索が可能になるが、その分だけデータの来歴と権利の扱いが重要になる。CLIPは画像とテキストの対応学習が汎用表現を生みうることを示した代表例である。

課題出力代表的な指標利用例注意すべき点
分類クラス(確率)正解率、適合率、再現率良品/不良品、疾患スクリーニング分布変化で急に崩れる
物体検出位置+クラスmAP監視、在庫、交通誤検出が安全に直結する
セグメンテーション画素領域IoU、Dice病変抽出、欠陥抽出正解マスクの定義が揺れる

8.2 音声と言語

音声と言語のAIは、音の波形、話者、言語内容、意図、応答という複数の層をつなぐ技術である。音声認識(ASR)は波形から文字列を推定し、言語理解は文字列から意味や意図を推定する。さらに音声合成(TTS)が加わると、人間の会話に近い入出力が成立するが、誤りが「それらしい言い回し」で覆い隠されやすくなるため、利用者が誤りに気づける設計が重要になる。

音声認識の性能は、しばしば単語誤り率(WER)で測られる。WERは、置換S、削除D、挿入I、参照語数Nを用いて

WER=S+D+IN

と定義される。WERは直観的であるが、医療や法務のように一語の誤りが重大になる領域では、重要語の誤りを別に評価する必要がある。また、方言、専門用語、雑音、同時発話、話者の多様性は性能を左右しやすく、学習データが主にどの話者・どの環境に偏っているかを確認しないと、特定集団だけが不利になる可能性がある。

近年は、大規模な弱教師データ(インターネット上の音声と文字起こし)を用いて、頑健な音声モデルを作る研究が進んでいる。Whisper は大規模な多言語データで学習し、追加学習なしでも多くの状況で高い性能を示しうることが報告されている。一方で、現場の録音条件や話者が学習時と異なると、存在しない内容を補ってしまうなど、利用者が気づきにくい誤りが起きうるため、重要用途では人間の確認と手続きが不可欠である。

翻訳や多言語対話では、テキストだけでなく音声から音声へ変換する技術が重要になる。SeamlessM4T は、音声・テキストをまたぐ複数の変換(音声→テキスト、音声→音声など)を単一モデルで扱う設計を示し、多言語間コミュニケーションの可能性を広げた。ただし、翻訳には敬語、婉曲表現、文化的含意が絡むため、BLEUなどの指標だけでは「適切さ」を言い切れない。学習者は、指標が測っているものと、測れていないものを区別して扱う必要がある。

8.3 マルチモーダル

マルチモーダルAIは、画像・文章・音声など異なる形式を同じモデルが扱い、相互参照しながら推論する枠組みである。例えば、画像を見て説明文を生成する、文章を読んで図の意味を答える、音声と映像から状況を判断する、といった課題が対象になる。ここでの要点は、単に入力が増えることではなく、異なる形式の情報が矛盾する場合に、どの情報を優先するかという判断がモデル内部で起きる点にある。

技術的には、各形式をベクトル表現(埋め込み)に変換し、同じ空間で比較・統合する発想が中心にある。画像と言語の対応学習では、画像埋め込みvとテキスト埋め込みtの類似度を高めるように学習し、コントラスト学習として

L=logexp(sim(v,t)/τ)texp(sim(v,t)/τ)

のような目的関数が用いられる。CLIPはこの方向性が汎用表現の獲得に有効であることを示した。近年は、このような表現を大規模言語モデルと結合し、画像・音声も含めた対話型の推論へ広げる取り組みが進んでいる。

実用面では、マルチモーダルモデルは「それらしい説明」で整合してしまう危険も増える。例えば、画像の細部を誤認しても、文章生成が流暢であれば利用者が信じてしまう可能性がある。したがって、出力だけでなく根拠の参照(どの部分に基づく判断か)、反例提示、別の情報源との照合を組み込むことが重要である。GPT-4 技術報告は、モデル能力の幅広さと同時に、限界や誤り、慎重な扱いの必要性を強調している。また、近年のマルチモーダルモデルでは音声入出力も含む設計が前面に出ており、運用上の安全策や情報提供が議論されている。

8.4 推薦と意思決定支援

推薦は、利用者の履歴や文脈から、次に見るべき候補を順位づけして提示する仕組みである。動画配信、EC、ニュース、学習教材、求人など多くの場面で使われ、日常の選択を静かに形づくる。ここで重要なのは、推薦は「当てる」だけではなく「何を見せるかを決める」ため、社会的な影響が大きい点である。

基本的な考え方として、利用者uとアイテムiの相性をスコアs(u,i)で表し、上位を提示する。協調フィルタリングでは、行列因子分解により

s(u,i)=puqi

のように潜在ベクトルpu,qiを学ぶ。近年は深層学習で文脈(時間、場所、直前の行動)も含めてランキングを学ぶが、精度が上がるほど「なぜそれが出たのか」が見えにくくなりやすい。したがって、推薦では、精度指標(クリック率など)と同じ重みで、説明可能性、偏り、過度な誘導の抑制を検討する必要がある。

社会制度の側面では、推薦が大規模プラットフォームに与える影響が問題になり、透明性や利用者の選択肢を確保する動きがある。EUのデジタルサービス法(DSA)は、特に非常に大規模なオンラインプラットフォームに対し、推薦システムの主要なパラメータの説明や、プロファイリングに基づかない選択肢の提供に関する要請を含む。これは、推薦が単なる技術ではなく、説明責任を伴う社会的仕組みとして扱われ始めていることを示す。利用者側の学びとしては、推薦結果を自分の好みの鏡と誤解せず、目的と指標が違えば結果も変わることを理解することが重要である。

意思決定支援では、AIの提案が人間の判断を上書きしてしまう現象(自動化への過信)が起きうる。例えば、採用、与信、成績評価、医療のトリアージのように、AIが示す順位やスコアが「客観的」に見えやすい領域ほど、判断根拠の点検が不可欠である。ここで必要なのは、AIの出力を否定することではなく、人間が責任を負う判断と、AIが提供する材料を分離して説明できることである。

8.5 研究と学術への応用

学術分野でのAI利用は、文献探索、要約、仮説の候補出し、実験計画の補助、データ解析支援など幅広い。とくに生成AIは、文章作成や発想支援に使われやすいが、生成物はそのまま根拠にならない点を最初に固定する必要がある。研究の根拠は、観測・実験・計算・一次文献に置かれ、生成文はそれらを代替できない。したがって、研究でのAI利用は「作業の効率化」と「根拠の管理」を同時に満たす形で設計されるべきである。

学術出版の側面では、著者資格や透明性に関する方針が整理されてきた。Nature Portfolioは、AIツールを著者として認めないこと、利用した場合の開示や責任の所在を明確にすることを示している。COPE(出版倫理委員会)も、著者責任とAIツールの位置付けに関する議論を継続している。国内でも、学会や分野ごとに生成AI利用に関する考え方が示されつつあり、例えば日本教育工学会は論文誌や発表における生成AI利用の基本的考え方を提示している。初学者は、分野の規範が揃っていない部分があることを前提に、所属機関・学会・投稿先の規定を参照し、開示と再現性の確保を優先する姿勢を身につける必要がある。

また、研究ではデータの権利と機密性が深刻な論点になる。企業共同研究、未公開データ、個人情報を含むデータを外部サービスに入力すると、契約や法令に抵触する可能性がある。日本の個人情報保護委員会は、生成AIサービス利用に関する注意喚起を公表しており、入力情報の扱いを慎重に検討する必要がある。研究でAIを使うとは、能力を借りるだけではなく、研究倫理と法制度の中で正当な形に整えることでもある。

8.6 教育への応用

教育でのAI利用は、学習支援、教材作成、フィードバック生成、学習履歴の分析など多岐にわたる。ここでの要点は、教育は単に答えに到達することではなく、到達までの思考過程を形成する営みである点にある。したがって、AIが正答らしい文章を返すことが、そのまま学習の成立を意味しない。むしろ、学習者がどの段階でつまずき、どの説明で理解が進むかを丁寧に設計する必要がある。

国際的には、生成AIの教育利用に関する指針が整備されつつある。UNESCOは教育と研究における生成AIのガイダンスを公表し、教師・学習者の能力形成、透明性、データ保護、人権の観点を含めて整理している。これは、教育現場では利便性よりも先に、学習者の権利と学習の質を守る枠組みが必要であることを示す。加えて、教師のAI利用の実態や課題を扱う国際調査も更新されており、教育システム全体としての対応が求められている。

国内では、学校現場での生成AI利用に関する留意事項が文部科学省から整理されている。初等中等教育向けの文書であっても、情報セキュリティ、利用規約の確認、生成物の扱い、指導の観点など、大学の授業設計にも接続できる観点が多い。大学の「AI入門」では、これを単なる規則として教えるのではなく、なぜその配慮が必要かを、具体的な事例(個人情報、著作物、誤情報、学習評価の公平性)と結びつけて理解させることが重要である。

評価の観点では、AIが容易に文章を生成できる状況で、何をもって学習成果とみなすかが問い直される。対策は監視強化ではなく、学習目標を「説明できること」「根拠を示せること」「反例を検討できること」へ移す方向が本質的である。例えば、レポートなら、参照した一次資料の提示、生成物を使った場合の利用範囲の明記、結論に至る推論の分解を要求することで、学習者の理解を評価しやすくなる。教育におけるAI利用は、道具の導入ではなく、評価と学習活動の設計変更を伴う改革である。

利用場面期待できる効果注意すべき点望ましい扱い
学習支援(質問応答)理解の手がかりが増える誤答が流暢に出る根拠提示と自己説明を必須にする
教材作成叩き台の作成が速い誤情報・著作権教員が一次資料で点検する
レポート作成構成案の生成が容易学習成果の偽装利用範囲の開示と推論過程の提出
学習分析支援が必要な学習者の発見プライバシー目的を限定し、最小限のデータで扱う

8.7 まとめと展望

マルチモーダルAIは、画像・音声・言語を横断して扱うことで、従来は別々に行っていた理解と生成を統合し、応用範囲を急速に広げている。いっぽうで、入力が増えるほど誤りの原因が見えにくくなり、責任と検証の設計が重要になる。

今後は、モデルの改良だけでなく、データの権利処理、透明性、学術・教育の規範、組織の管理の仕組みが同時に整備される必要がある。国際標準や政策の更新も進んでおり、例えばAIマネジメントの国際規格や国の発信は、技術を社会に載せるための前提条件を強めている。個別ツールの流行に追随するのではなく、入力・出力・評価・責任という枠組みで応用を読み解く力を身につけるべきである。

第9章 評価と不確かさ

第9章では、AIの出力をどう測り、どこまで信じてよいかを定量と判断の両面から扱う。

9.1 指標と目的

AIの評価は、単に当たった回数を数える作業ではなく、目的に照らして誤りの種類を区別し、その影響を見積もる営みである。たとえば二値分類では、真陽性TP、偽陽性FP、真陰性TN、偽陰性FNという混同行列で誤りを分解し、どの誤りが重いかを先に決める必要がある。医療検査や安全監視のように見逃しが重大な領域では、偽陰性FNを小さくすることが中心になりやすく、単純な正解率

Accuracy=TP+TNTP+TN+FP+FN

だけでは判断できない。

適合率と再現率は、誤りの重み付けを明示するための基本語彙である。適合率は陽性と判断したもののうち正しかった割合

Precision=TPTP+FP

であり、再現率は本当に陽性であるものをどれだけ拾えたか

Recall=TPTP+FN

である。両者はしばしば両立せず、閾値を動かすと一方が上がれば他方が下がる関係になりやすい。F1はその折衷として

F1=2PrecisionRecallPrecision+Recall

で定義されるが、折衷である以上、何を守りたいかという価値判断を省略できない。

生成AIでは、評価がさらに多面化する。言語として自然であること、事実に整合すること、危険な内容を出さないこと、根拠を辿れることが同時に問われ、単一指標に押し込めにくい。NISTは生成AI向けのリスク整理の中で、誤情報や作り話に相当する問題を含め、目的に応じた評価と検証の設計を重視している。

指標選択を支える考え方として、利害関係者と被害の分布を言語化することが重要である。誰が利益を得て、誰が不利益を受けるかが異なる場合、同じ精度でも社会的含意が変わるからである。評価は技術の内側だけで完結せず、責任の所在と結びつく設計課題である。

課題の性質重視しやすい誤り指標の例追加で見るべき点
検査・安全監視偽陰性FN再現率、PR曲線閾値運用、見逃し時の影響
フィルタ・審査偽陽性FP適合率誤検知時のコスト、救済手段
不均衡データ少数クラスの見落としマクロ平均F1、AUPRC分割方法、母集団の違い
生成AI誤情報・危険出力多面評価根拠提示、外部照合、安全性評価

9.2 訓練と検証とテスト

評価の基本原則は、学習に使った情報と独立な情報で性能を測ることである。訓練データで損失を下げるほど、同じデータ上では良く見えるが、それは未知データでの性能を保証しない。したがって、訓練・検証・テストを分け、検証で調整し、テストは最終確認に限定するという役割分担が要点である。

分割の方法は、データの生成過程に合わせないと誤った結論になる。たとえば時系列データを無作為に混ぜて分割すると、未来の情報が訓練側に紛れ込み、過大評価を招きやすい。個人単位の記録では、同一人物が訓練とテストの両方に入ると、人物固有の癖を覚えるだけで性能が高く見えてしまう。したがって、時間で切る、個人や施設でまとめて切るなど、漏れを防ぐ分割規則を先に定め、説明可能にしておく必要がある。

データが少ないときの交差検証は有効であるが、使い方を誤ると同じく過大評価になる。モデル選択と最終評価を同じ交差検証で済ませると、選択の過程で情報が回り込みやすい。必要に応じて、外側で評価、内側で調整を行う入れ子構造の考え方を理解しておくことが望ましい。再現性を含む信頼性の扱いは、NISTのAIリスク管理の枠組みでも重要な要素として整理されている。

9.3 不確かさと校正

AIの出力が確率で与えられるとき、その確率が意思決定に使える水準で意味を持つかが問われる。分類器が0.9と出したとき、実際に約90%当たるのが望ましいが、深層学習はしばしば確率を過信する傾向がある。したがって、確率の意味を点検し、必要に応じて修正する校正が重要になる。深層学習の校正問題は、現代的なネットワークが高精度であっても過信しうることを系統的に示した研究でも整理されている。

校正の直観は、予測確率をいくつかの区間に分け、各区間での実測正答率と照合することで得られる。定量化の一例として、Brier score

BS=1Ni=1N(piyi)2

があり、確率と正解のずれを二乗誤差として測る。別の例として、期待校正誤差ECEは、区間ごとのずれを重み付き平均して

ECE=m=1M|Bm|N|acc(Bm)conf(Bm)|

のように定義される。ここでBmは確率区間の集合、accは区間内正答率、confは区間内平均確率である。これらは数式としては簡潔であるが、区間の切り方や不均衡データへの配慮が必要であり、手続きを含めて説明できることが重要である。

不確かさには、データそのもののばらつきに由来する偶然的不確かさと、知識不足に由来する認識的不確かさがあると整理できる。前者は観測ノイズや本質的な曖昧さであり、後者は訓練データの不足や分布変化に敏感である。後者に関しては、アンサンブル、ベイズ的近似、あるいは分布外検知などで兆候を掴む考え方があるが、万能ではない。

近年、意思決定に直結する保証の形として、コンフォーマル予測が注目されている。予測を点ではなく集合C(x)として出し、弱い仮定の下で

Pr{YC(X)}1α

という被覆率の保証を目標にする考え方である。保証は魅力的であるが、独立同分布の仮定が崩れると性質が変わり、分割の設計や運用条件の明示が不可欠である。

9.4 生成AIの誤情報

生成AIの誤情報は、単なる知識不足だけでなく、文章の整合性を優先して根拠のない内容をもっともらしく組み立てることで生じうる。ここでは、参照文献の捏造、事実関係の取り違え、古い情報の混入、数値や固有名詞の取り違えなど、形が複数に分かれる点を押さえる必要がある。NISTの生成AI向けプロファイルは、こうした誤情報や作り話に相当する問題を含むリスクを整理し、用途に応じた検証と管理を求めている。

誤情報への対処は、出力を信じるか否かの二択ではなく、根拠を提示できる形に寄せる設計である。検索拡張生成は、外部文書を参照して生成し、参照箇所を併記することで、検証可能性を上げる方向である。ただし、参照した文書の品質が低ければ誤りの見た目だけが強化されるため、参照元の選別と、参照内容と生成文の整合確認が必要になる。外部参照の有無を問わず、重要な主張は一次情報に当たり、異なる資料で照合するという学術的手続きを授業内で反復することが有効である。

制度面でも、誤情報と透明性は主要論点である。EUのAI法は、特定のAIシステムに透明性義務を課す条文を置き、生成された内容であることの通知などを含む枠組みを示している。 生成AIが社会基盤に入り込むほど、技術的対策だけでなく、表示、責任分担、苦情処理の仕組みが同時に必要になる。

9.5 ロバスト性と攻撃

ロバスト性とは、入力が少し変わっても結論が破綻しにくい性質であり、安全性の中心にある。画像認識では、見た目には同じでもモデルには大きな差として見える微小摂動が研究され、言語モデルでは、入力文の細工や外部ツール連携の悪用が重要になる。攻撃は、モデルそのものを壊すだけでなく、周辺の仕組みを通じて情報を抜き取る形でも起きるため、モデル単体の精度だけでは語れない。

生成AIでは、プロンプト注入が代表的な脅威として整理されている。たとえば、外部文書を読み込む設定で、文書内に命令文を紛れ込ませ、隠し情報の出力やツールの不正使用を誘導する形がある。OWASPはLLMアプリケーション向けに、プロンプト注入、機密情報漏えい、供給網の問題、過剰権限などを含む脅威の整理を公開している。 国内でも、IPAが情報セキュリティ上の脅威動向を継続的に整理しており、社会的影響の大きい脅威と対策の考え方を示している。

対策の方向は、入力と出力を監視すること、外部ツールに渡す権限を最小化すること、機密情報をモデル入力から隔離することに分けて考えると整理しやすい。たとえば、検索結果や添付文書は信頼できない入力として扱い、命令と資料を分離して解釈する設計が重要である。外部ツール連携では、実行できる操作の範囲を制限し、実行前後の記録を残して追跡可能にすることが望ましい。攻撃と対策は固定されず更新されるため、脅威の分類に基づいて定期的に見直す姿勢が必要である。

9.6 再現性と比較可能性

AIの結果は、同じアルゴリズム名であっても、データ処理、乱数、学習設定、計算環境が違えば変わりうる。したがって、研究として主張するには、第三者が同条件を再構成できる程度に情報を残し、比較可能にする必要がある。これは倫理や公平性の議論以前に、科学的方法の基礎である。

再現性のために最低限言語化すべき情報には、データの版と分割規則、前処理、学習の停止条件、評価手順、乱数種、使用ライブラリと実行環境が含まれる。学習が不安定な場合は、単一試行の値ではなく、複数試行の分布や分散を示すことが重要になる。学会側でも再現性に関する情報開示を促す枠組みが整備されてきており、研究報告の作法として身につける意義が大きい。

比較可能性は、他者と争うためではなく、知見を積み上げるための条件である。評価データが異なれば結論が揺れる場合、どの母集団で成立する主張なのかを分離して述べる必要がある。生成AIの評価では、評価者や評価基準が結果を大きく左右しうるため、採点規則と判断手続きを具体化することがとくに重要である。

要素記録すべき内容変動しやすい理由
データ取得元、期間、前処理、分割規則分布変化、漏れ、欠損の扱い
学習目的関数、最適化、停止条件、乱数種初期値とミニバッチの影響
評価指標、閾値、集計方法、信頼区間不均衡、母集団の違い
環境ライブラリ版、GPU種、精度設定数値誤差、非決定性

第10章 公平性と説明

第10章では、公平性と説明責任を数式と制度の両面で整理し、社会に接続されるAIの条件を考える。

10.1 公平性とは何か

公平性は、単一の数式で自動的に決まる性質ではなく、誰のどの不利益を避けるかという規範と結びついた概念である。たとえば採用支援や融資審査では、誤って不合格にすることと、誤って合格にすることの意味が集団ごとに異なりうる。したがって、公平性は数式化の前に、制度目的と救済手段、説明責任の相手を明確にする必要がある。

統計的な公平性の定義には複数があり、同時に満たせない場合があることが重要である。代表例として、予測スコアが各集団で同じ意味を持つ校正と、誤り率を揃える要請は一般に両立しないことが示されている。公平なリスクスコア決定に内在するトレードオフは理論的にも整理されており、何を守るかを選ぶことが避けられない。

数式で見ると、たとえば集団属性Aに対して、人口比率を揃えるデモグラフィック・パリティは

Pr(Y^=1A=a)=Pr(Y^=1A=b)

のように書かれる。一方、機会の平等に近い要請として、真に陽性の人に対する再現率を揃える等機会は

Pr(Y^=1Y=1,A=a)=Pr(Y^=1Y=1,A=b)

である。どちらが望ましいかは用途で異なり、単に式を満たすことが倫理的に正しいとは限らない。

10.2 バイアスの起点

バイアスは、データの偏りという一言で片付かず、複数の段階に入り込む。収集段階では、そもそも観測される人が偏っている選抜バイアスが起きうる。ラベル付け段階では、評価者の主観、制度上の定義、過去の差別の反映が混ざり、ラベル自体が社会の歪みを内包しうる。目的関数と評価段階では、何を最適化したかが価値判断となり、特定の集団に不利な誤りを見えなくすることがある。

生成AIでは、バイアスが出力文の文体、連想、推薦に現れやすい。これは、学習データの分布だけでなく、対話調整や安全設計によっても変化しうるため、原因が単一ではない。したがって、出力を観察し、どの属性や文脈で差が拡大するかを記録し、修正方針を議論できる形にする必要がある。

国内では、AIの利活用に関して、事業者側の配慮事項やガバナンスの考え方を整理したガイドラインが整備されてきている。ここでは透明性や安全性とともに、リスクに応じた管理の必要性が示され、運用設計の中でバイアスを扱う視点が求められる。

10.3 説明可能性

説明可能性は、モデルの内部が分かることそのものではなく、利用者が判断に必要な根拠を得られることである。医療なら医師が臨床的に妥当性を検討できる説明が必要であり、行政なら手続き的正当性に耐える説明が必要である。したがって、説明は相手と目的に依存し、同じモデルでも求められる説明形式が変わる。

方法論としては、モデル自体が解釈しやすい内在的説明と、複雑モデルに後から説明を付ける事後的説明に分かれる。決定木や線形モデルは、係数や分岐が説明として読みやすい一方、表現力に限界がある。深層学習では、局所的な近似や寄与度の推定で説明を作るが、説明がモデルの忠実な写像である保証は弱く、説明の信頼性を別途点検する必要がある。

局所説明の代表としてLIMEは、入力近傍で単純モデルを当てはめて寄与を推定する考え方を提示した。 SHAPは、協力ゲーム理論に基づくShapley値の枠組みで寄与度を定義し、複数のモデルに適用可能な統一的見方を与えた。 これらは便利であるが、相関と因果を混同しやすい点、入力表現の選び方で結果が変わる点に留意が必要である。説明は結論を飾るためではなく、誤りを発見し、責任の線引きを可能にするための道具である。

10.4 モデルとデータの文書化

文書化は、透明性を理念で終わらせず、第三者が点検できる形に落とす方法である。Model Cardsは、モデルの用途、性能、制約、想定外の影響などを整理して提示する枠組みを提案し、モデルの責任ある提供のための共通形式を与えた。 Datasheets for Datasetsは、データの動機、収集、前処理、推奨用途、注意点を記録することで、データに起因する問題を追跡可能にする方針を示した。

文書化の利点は、問題が起きた後に原因を追うためだけではない。設計段階で、誰が何を前提にしたかを可視化し、見落としを減らす効果がある。さらに、公平性や説明可能性の議論を、感想ではなく点検可能な情報に接続できる。生成AIでは、学習データの詳細開示が難しい場合でも、能力、制限、評価条件、既知の弱点、想定用途を具体化することが可能であり、利用者の判断材料になる。

対象文書に入れる情報の例目的
データ収集方法、期間、母集団、ラベル定義、推奨用途偏りと適用限界の明示
モデル用途、性能、制約、評価条件、安全配慮誤用の抑制と説明責任
運用入力制限、監督方法、記録、更新方針事故対応と継続的改善

10.5 人間の関与

人間の関与は、最終ボタンを人が押すことだけを意味しない。判断が形骸化してAI出力に追随するなら、実質的に自動化と変わらず、責任の所在が曖昧になる。したがって、どの局面で誰が何を点検し、異議申立てや修正がどう流れるかまで含めて設計する必要がある。

国際的な原則として、UNESCOは人権と尊厳を中心に据え、透明性や人間の監督を含む倫理的要請を提示している。 OECDも信頼できるAIの原則を掲げ、説明責任、頑健性、安全性などを含めた枠組みを示している。 これらは抽象的に見えるが、授業では、誰がどの情報を見て判断するかという具体の設計に落とし込むことで理解が進む。

国内でも、生成AIの利用に関して、個人情報の入力や取り扱いに対する注意喚起が公的機関から示されている。たとえば個人情報保護委員会は、生成AIサービスの普及を踏まえた注意喚起を公表し、入力内容の扱いに慎重さが求められることを明確にしている。 人間の関与は倫理の標語ではなく、入力、監督、記録、救済を含む手続きの設計である。

10.6 社会的影響の考え方

AIの社会的影響は、個々の誤りの総和ではなく、制度への信頼、集団間格差、情報環境の質といった形で現れる。推薦や生成の仕組みは、注意の配分や世論形成に影響し、誤情報が拡散すると訂正が追いつかない状況を作りうる。したがって、影響は個人の損失に還元せず、集団レベルの指標と手続きで捉える必要がある。

この点で、リスク管理の枠組みが重要になる。ISO/IEC 23894は、AIを用いる製品・システム・サービスに特有のリスク管理の指針を示し、組織活動に統合する考え方を述べている。 さらにISO/IEC 42001は、AIマネジメントシステムの要求事項を標準として整理し、ガバナンスを組織的に扱う方向を示している。

EUのAI法は、リスクに応じた義務を課す法制度として位置づけられ、透明性や管理の要求を条文として持つ。 これらの動きは、技術が速く変わるからこそ、制度と組織の側で一貫した管理の枠組みを用意する必要があることを示している。授業では、性能だけを追う姿勢から一歩進め、目的、影響、責任を同時に扱う態度を身につけることが重要である。

まとめと展望

第9章では、評価は指標の選択から始まり、分割規則、校正、不確かさ、攻撃耐性、再現性へと連続していることを学んだ。第10章では、公平性と説明は単独の技術で解ける問題ではなく、文書化と人間の関与を通じて責任ある運用へ接続されることを確認した。

今後は、生成AIを含む基盤モデルが社会基盤に入り込むほど、評価とガバナンスを同時に学ぶ重要性が増すため、国際標準や法制度の更新を追いながら、点検可能な形で設計に落とす力を鍛える必要がある。

第11章 プライバシーとセキュリティと著作権

本章では、生成AIを含むAI利用に伴うプライバシー、セキュリティ、著作権の論点を整理し、次章で制度とガバナンスの構造を扱う。技術の理解だけでなく、権利・責任・透明性の条件を同時に言語化できる状態を目指す。

11.1 個人情報と入力データ

生成AIに文章や画像を入力すると、その内容が個人情報や機密情報を含む場合に、意図しない第三者提供や二次利用のリスクが生じうる。個人情報は氏名や学籍番号のような直接識別子だけでなく、所属、顔写真、位置情報、学内ID、研究テーマといった組合せによって特定個人に結びつく情報も含みうるため、入力前に情報の性質を分類して把握する必要がある。

日本の個人情報保護委員会は、生成AIサービスの利用に関して、入力内容が個人情報等を含む場合の留意点を示しており、利用者側の配慮と事業者側の説明の 双方が重要であると位置付けている。入力した情報がサービス提供者側の学習や品質改善に用いられるか、保存期間がどの程度か、第三者提供の有無がどう規定されているかは、サービスごとの利用規約・プライバシーポリシーに依存するため、同じ生成AIという名称でもリスク構造は一様ではない。

個人情報保護法の議論は固定ではなく、いわゆる3年ごと見直しの検討が継続している。したがって、講義では、現行の注意喚起を前提にしつつ、法令・行政文書・事業者説明が更新されることを前提に、一次資料の読み替えができるように用語と責務の枠組みを学ぶ。

11.2 盗聴・漏えい・なりすまし

AIシステムはクラウド、API、アカウント、ログ、外部連携(文書検索や社内データ参照など)と結びつくため、情報セキュリティの基本原理(機密性・完全性・可用性)を前提に整理する必要がある。盗聴は通信経路や端末の脆弱性だけでなく、誤った共有設定や権限設定、ログの過剰保存などの運用設計からも起きうる。

生成AI固有の攻撃面として、プロンプト注入が挙げられる。これは、外部文書やWebページに埋め込まれた指示が、検索拡張生成などの仕組みを通じてモデルに取り込まれ、秘密情報の抽出や誤誘導を引き起こす現象である。さらに、なりすましは、音声合成・画像生成によって本人らしいコンテンツを作れてしまう点で深刻化し、認証や合意形成の手続が攻撃対象になる。

この領域では、AIモデル単体の安全性だけを論じても不十分であり、データ入出力、連携先、権限、監査といった周辺機構を含めて一体として安全性を扱う必要がある。近年は、生成AI向けの脅威分類(例:LLMアプリケーションのトップリスク整理)や、リスク管理枠組みに生成AIの論点を対応付ける文書が整備されつつあり、講義ではそれらを参照しながら、攻撃と防御を概念図として整理する。

11.3 著作権と学習データ

学習データに著作物が含まれる場合、複製や収集、解析、学習といった行為が著作権とどのように関係するかが論点となる。日本では、著作権法の柔軟な権利制限規定の整備により、情報解析のための利用が一定条件のもとで整理されており、文化庁は解釈の参考となる資料を公表している。

生成AIに関して文化庁が取りまとめた文書は、法的拘束力を持つ断定ではなく、公表時点での整理であること、今後の裁判例や技術発展に応じて見直しがありうることを明示している。したがって、講義では、単一の断言を暗記するのではなく、どの段階が問題になるのか(収集・学習・出力・配布・商用利用など)を分解して、どの資料がどの範囲を対象にしているのかを読み分ける作法を学ぶ。

加えて、著作権以外にも、契約(利用規約)、営業秘密、個人情報、研究倫理などが同時に関係する場合がある。権利関係を一つの制度だけで閉じず、複数の規範が同時に作用する状況を前提に整理する必要がある。

11.4 生成物と権利

生成物が既存作品に類似する場合、依拠性と類似性が争点になりうるが、個別具体的な判断が必要である。文化庁の整理も、特定事例の確定的評価ではなく、基本的な考え方の提示として位置付けられているため、生成物の公開・配布・商用利用の局面では慎重な対応が求められる。

利用者の観点では、生成物をそのまま成果物として固定化する前に、引用・転載・翻案の可能性を点検し、必要に応じて権利者の許諾やライセンス条件を確認する姿勢が重要である。特に画像・音声は、類似性が視覚・聴覚で直感的に把握されるため、問題が顕在化しやすい一方、データセット由来の偶然一致もありうるため、短絡的に断定しない態度が必要である。

講義では、権利侵害の有無を学生が最終判断できる状態を目標には置かず、どの情報が不足しているか、どの一次資料に当たるべきか、どの関係者に確認すべきかを説明できる状態を到達点として設定する。

11.5 透明性と出所表示

生成物が社会へ流通すると、真偽判定や出所追跡が難しくなるため、透明性と出所表示が重要な論点となる。EUのAI法では、深偽コンテンツや生成コンテンツに関する透明性義務が規定されており、受け手が判断に必要な情報へ到達できるようにするという方向性が明確である。

技術的には、透かし(ウォーターマーク)や来歴情報(プロベナンス)を付与する試みが進んでおり、Content Credentialsのように改ざん耐性を意識した標準化も議論されている。ただし、透かしは除去・改変の攻撃に晒されうるうえ、生成と加工が混在する現実の編集過程では、単純な二値判定では扱いきれない。

したがって透明性は、技術の一手段で完結するものではなく、説明の粒度(何を、どの程度、誰に示すか)と、記録と監査(いつ、どのモデルで、どの入力から生成したか)を含む制度・運用の設計と結びつく必要がある。講義では、透明性を、内部が全公開であることではなく、判断に必要な情報が提供されることとして理解する。

11.6 論点の整理

プライバシー、セキュリティ、著作権は独立した箱ではなく、同一の出来事に同時に現れることが多い。例えば、学生のレポートを生成AIで添削する場面では、本文に個人情報が含まれる可能性があり、添削結果の共有や保存方法が漏えいの経路になりうるうえ、引用や転載が含まれる場合は著作権の論点も重なる。

このため、講義では、何を守るのか、誰が守るのか、どの段階でリスクが顕在化するのかを、同じ枠組みで整理する。次の表は、領域ごとに守る対象と、技術・制度が担う役割を並列に置いて理解するためのものである。

領域守る対象代表的なリスクの形技術側で扱う要素制度側で扱う要素
プライバシー個人情報、個人データ、推測可能な属性入力・出力・ログからの漏えい、二次利用、再同定最小化、仮名化、アクセス制御、保存期間設計個人情報保護法制、監督当局の注意喚起、契約・同意
セキュリティ端末、アカウント、API鍵、連携先データ、モデル設定不正アクセス、改ざん、なりすまし、プロンプト注入、情報抽出認証、権限管理、監査、分離、脅威分析組織ルール、責任分担、報告体制、外部基準
著作権創作物の権利、利用市場、ライセンス条件無断利用、類似生成、配布による侵害、契約違反データ管理、出所管理、類似検査、履歴記録著作権法制、文化庁資料、利用規約、裁判例の蓄積

第12章 ガバナンスと制度

12.1 リスクに基づく規制

制度は、技術を一律に禁止・許可するのではなく、用途と影響に応じて義務を段階化する方向へ進んでいる。EUのAI法は、禁止される利用類型、高リスクAIに課される要求、一般目的AI(基盤モデルを含む)に関する要求などを分けて規定しており、リスクに基づく設計を中心に据えている。

同法では、透明性義務や文書化、リスク管理、監督といった要求が、開発者・提供者だけでなく、利用する主体にも関係する形で整理されている。さらに、AIリテラシーに関する条項も含まれ、単に製品を規制するだけでなく、使い手の能力を制度の一部として位置付ける点が重要である。

講義では、EUの制度を暗記対象として扱うのではなく、どの義務がどの主体に課されるのかを読み分け、国内制度との比較で共通項と相違点を言語化できるようにする。

12.2 日本の指針と行政文書

日本では、事業者向けのAIに関する指針が整備され、開発・提供・利用の各主体に期待される行動が示されている。総務省・経済産業省が公表するAI事業者ガイドラインは、信頼性確保、透明性、説明責任、安全性といった観点を、技術・組織の双方にまたがる形で整理しており、法律とは異なる形で行動規範として機能する。

また行政機関の利用に関しては、調達・利活用の考え方を示すガイドラインが公表されており、公共部門が扱う情報の性質、説明責任、調達時の要件定義が前面化する。公共部門の文書は、単に組織内の手引きに留まらず、社会に対して政府がどのリスクを重視しているかを示すシグナルとしても読める。

さらに、2025年末には人工知能基本計画が公表されており、研究開発、利活用、ガバナンスの方向性が政策文書として更新され続けることが分かる。講義では、法律・指針・行政文書の役割の違いを押さえ、どの文書が自分の置かれた状況に関係するのかを判断できるようにする。

12.3 国際原則

国際的には、各国の制度がばらばらに動くのではなく、共通の原則を参照しながら整合を取る動きがある。OECDのAI原則は、人間中心、透明性、頑健性、説明責任などを柱として政策形成に影響を与えてきた。UNESCOの勧告は、人権と尊厳を中心に据え、社会における影響を倫理の言葉で整理している。

G7広島AIプロセスでは、高度AIシステムに関する国際指針や行動規範が取りまとめられ、基盤モデルや生成AIを含む領域の安全・信頼が、政府間の合意として扱われた。ここで重要なのは、原則が抽象語の羅列ではなく、各国の法規制や業界の実装指針へ翻訳される前段の共通言語として機能している点である。原則を唱えること自体を目的にせず、原則が具体の設計要求(透明性、記録、監督、救済)へどのように落ちるかを、制度文書の読み比べで学ぶ。

12.4 リスク管理枠組みとマネジメントシステム

制度が求めるのは、単発の技術対策ではなく、継続的にリスクを見つけ、測り、扱い続ける仕組みである。NISTのAIリスク管理枠組みは、GOVERN、MAP、MEASURE、MANAGEの機能で整理し、組織がAIのリスクを統治する視点を提供している。近年は生成AIに特有の論点をこの枠組みに接続するプロファイルも公表され、モデルの能力だけでなく、データ、評価、運用上の失敗様式を扱う方向が明確になっている。

国際規格としては、ISO/IEC 42001がAIマネジメントシステムの要求事項を規定しており、組織が方針、役割、手順、継続改善を整備する枠組みを提供する。これは、AIを導入した事実それ自体よりも、意思決定の経路と説明可能性を組織として作ることを重視する点で、技術中心の学習とは異なる学びを要請する。特に、枠組みと規格の位置付けを、法律と同列に扱うのではなく、法律が何を義務として要求し、枠組みや規格がそれを組織の運用へ実装する道具になるという関係として理解する。

12.5 責任分担と説明責任

AIの責任は、開発者、提供者、導入主体、利用者で分散し、境界が曖昧になりやすい。EUのAI法では、提供者、導入主体、輸入者、流通者などの役割が制度上定義され、誰がどの義務を担うかを明確化する設計が採られている。日本の指針も、主体ごとの取組を整理し、責任が空中分解しないように行動の期待値を示している。

説明責任は、事故が起きた後の釈明だけではなく、導入前から整えるべき条件である。文書化(データの来歴、モデルの用途と制約、評価結果、監督手続)は、責任分担を現実のものにするための媒体であり、誰がどの情報へアクセスできるかという設計にも直結する。説明責任を倫理の言葉だけで語らず、記録・監査・報告・是正という手続の連鎖として捉え、制度文書がなぜ文書化を繰り返し要求するのかを理解する。

12.6 制度と技術の共進化

制度は技術の後追いになりやすいが、生成AIの社会的影響の大きさから、更新が継続している。EUのAI法は施行・適用が段階的に進む設計であり、運用を通じて解釈と実装が更新される。日本でも、個人情報保護法の見直し議論が進行し、政策としての人工知能基本計画も更新されている。

したがって、AIを学ぶことは、固定された教科書を暗記することではなく、一次資料を読んで更新に追随する能力を身につけることでもある。制度・枠組み・規格を、技術の外側にある別物として扱わず、技術の信頼性を成立させる条件として同じ地図上に置く。

次の表は、主要な枠組みの位置付けを、主体と性格の観点で整理するためのものである。

枠組み主体性格中心概念
EU AI法EU域内でAIを提供・導入・流通させる主体法規制リスク分類、義務、透明性、一般目的AI
NIST AI RMF組織一般任意枠組み統治、マッピング、測定、管理
NIST 生成AIプロファイル組織一般任意文書生成AIの失敗様式と管理の対応付け
ISO/IEC 42001組織一般国際規格AIマネジメントシステム要求事項
OECD AI原則各国政策国際原則人間中心、透明性、頑健性、説明責任
UNESCO勧告各国政策国際倫理人権、尊厳、透明性、人間の関与
G7広島AIプロセス各国政府・関係主体国際指針高度AIの安全・信頼、行動規範
日本のAI事業者ガイドライン事業者等行動指針主体別の取組、信頼性確保
日本の行政向けガイドライン行政機関行政文書調達・利活用に伴う要件定義と管理

小まとめ

プライバシー、セキュリティ、著作権は、生成AIの入口で最初に直面する三つの論点であり、技術の理解と同じ重さで扱う必要がある。ここで重要なのは、何が守る対象で、どの段階にどのリスクがあり、どの一次資料が判断の根拠になるかを、状況に応じて言語化できることである。制度とガバナンスは、技術の上に後付けされる飾りではなく、技術が社会で用いられる条件を定義する。

今後は、透明性義務、出所表示、文書化、監督の要請が強まり、AIを使う能力には、制度文書を読み替え続ける能力が組み込まれていく。したがって本講義では、技術と制度を別科目に分離せず、同じ対象を異なる言語で説明する訓練として統合していく。

第13章 まとめと展望

本章は、本講義で扱ったAIの考え方を、技術と社会の双方から結び直す章である。受講者が自分の専門や生活の場面に戻ったときに、AIを使う判断を自力で組み立てられる状態を目指す章である。

13.1 技術の理解と社会の理解の統合

AIは、数理モデルfθ、データ、計算資源によって実装される技術であるが、その働きは常に社会の制度・組織・慣行の中で意味づけられるものである。したがって、性能指標が高いことは重要な条件であるが、それだけで利用が正当化されるわけではない。誰がどの目的で、どの情報を入力し、どの出力をどの範囲で使い、どの責任を負うのかが決まって初めて、AIが社会の中で機能する。

技術側の理解としては、AIが最終的に行っていることを、入力xを表現ϕ(x)へ変換し、推定器がy^や確率P(y|x)を返すという形に言い換えられることが重要である。例えば分類であればy^=argmaxyP(y|x)、意思決定であれば期待損失

E[C|x]=yP(y|x)C(y)

の最小化として捉えられる。ここでC(y)の置き方は、技術の外にある価値判断を含むため、誰の利益・不利益をどう扱うかの議論と直結する。

社会側の理解としては、規制や指針が、技術の細部よりも、責任の分担、透明性、監督、人権といった観点で枠を与える点を押さえる必要がある。EUのAI法は、リスクに基づいて義務を段階化し、禁止される行為、透明性義務、高リスク用途の要求事項などを定めている。日本でも、事業者向けの指針や行政での生成AI利用の文書が整備され、開発・提供・利用の各主体の行動が言語化されている。これらは、技術理解を社会の説明責任へ接続するための共通言語として機能する。

この統合の要点は、AIを単体のモデルとしてではなく、社会技術システムとして扱う姿勢にある。モデルの誤り、データの偏り、運用の設計、教育の不足が連鎖して被害が生じるため、どこか一箇所の改善だけでは十分になりにくい。したがって、講義で学んだ評価・公平性・権利・ガバナンスの論点は、互いに別物ではなく、同じ現象を異なる角度から点検する道具立てである。

13.2 これからの学び方

AIの変化が速いという事実は、用語を追いかけ続ける必要があるという意味ではない。変化に耐える学びは、概念を固定し、更新される部分を切り分けることで成立する。例えば、モデルの種類が変わっても、データの来歴、評価の独立性、確率の校正、分布変化、説明責任といった論点は残り続ける。これらを自分の言葉と式で再構成できる状態が、最も強い学習成果になる。

一次資料を読む習慣は、技術文書にも制度文書にも共通して有効である。技術では、研究論文や標準化文書が、何を前提として何を保証していないかを明確に書くため、過信を避けやすい。制度では、法律本文や行政文書が、義務の主体と範囲、例外、適用時期を明示するため、伝聞による誤解を避けやすい。SNSや二次解説は導入として役立つが、結論を固定する段階では一次資料へ戻る姿勢が必要である。

学びを継続するうえでは、更新情報を集める対象を少数に絞ることも重要である。信頼できる国際機関や標準化機関、国内当局の公開資料を定点として持ち、そこから枝分かれして自分の関心領域の文書へ進むと、情報の質を保ちやすい。NISTのAI RMFは、リスク管理の機能を整理し、組織がどの順序で点検するかを言語化しているため、分野を問わず参照点になる。生成AIに特化した補助資料も公開されており、技術の更新を制度設計へ接続しやすい。

13.3 生成AI時代の情報行動

生成AIにより、文章の生成や要約が容易になった一方で、真偽判定の負担は利用者側へ移動した側面がある。ここで重要なのは、AIの出力を情報そのものとして扱うのではなく、仮説として扱う態度である。仮説であれば、根拠を集め、反例を探し、他資料で照合し、必要なら保留するという手続きが自然に組み込まれる。市民生活でも学術でも、この手続きは同じである。

根拠提示の文化は、生成AI利用の中心的な作法である。根拠とは、外部の参照可能な文書、データ、観測記録、あるいは制度上の一次資料であり、出力文の流暢さではない。検索拡張生成の考え方は、この根拠を外部から取り込み、生成の検証可能性を上げる方向で発展してきた。しかし、検索が入っても誤りが消えるわけではないため、参照先の質、参照先の日付、参照の整合性を自分で点検する必要がある。

生成物の流通が増えると、画像・音声・動画・文章の出所を確かめる手段も重要になる。EUのAI法では、対話型AIであることの通知や、深偽造を含む生成コンテンツの表示に関する透明性義務が論点として整理されている。技術側では、C2PAのContent Credentialsのように、改ざん検知可能なメタデータで出所や編集履歴を扱う標準化が進んでいる。これらは万能の解決策ではないが、証拠の鎖を残すという発想を社会へ導入する点で意味がある。

個人としての情報行動は、便利さと安全の両方を満たすように設計できる。例えば、重要度が低い作業では生成AIを広く使い、重要度が高い作業では根拠資料を必須にし、最終判断を自分が行うという分離が有効である。情報の重要度は、誤ったときの損失Cの大きさと、修正可能性で決まると捉えられる。損失が大きいほど、根拠の数、照合の回数、第三者の確認といった手続きに資源を割くべきである。

13.4 仕事と専門の変化

AIは職業全体を一様に置き換えるのではなく、作業の粒度で再配置を引き起こす。したがって、将来を考えるときは、職業名ではなく、自分が行っている作業を分解して眺めることが有効である。分解とは、入力、処理、判断、責任、説明の要素へ切り分けることである。AIが得意な部分は、入力が形式化され、評価が明確で、反復可能な処理に寄りやすい。

一方で、専門の核は、目的の定義、評価軸の選択、例外の扱い、社会的責任の引き受けに残りやすい。例えば同じ推薦でも、売上最大化と学習機会の公平性は目的が異なり、目的が異なれば損失関数や制約条件が変わる。目的と制約を言語化し、関係者へ説明し、必要なら運用を変更する能力は、AIが高性能になっても代替されにくい。ここで求められるのは、抽象的な倫理感情ではなく、目的関数の設計が価値判断であることを理解したうえで、その判断を説明できる力である。

専門性の再設計では、人間の役割を監督者と位置づけるだけでは不十分である。人間が監督するとは、エラーの種類を想定し、監督の頻度と方法を決め、記録を残し、改善につなげることである。監督が形式化してAI出力への追従になれば、実質的には自動化と変わらなくなる。この問題は自動化バイアスとして知られ、組織の意思決定の弱点になりやすい。したがって、AIを導入した後に専門が薄くなるのではなく、むしろ専門を守るために監督設計の専門性が要請されると捉えるべきである。

また、学習と評価の設計ができる人材だけが価値を持つという理解も偏りである。多くの分野では、現場の知識がなければラベルの意味づけができず、評価が成立しない。したがって、AI時代の専門は、数理だけでなく、領域知を言語化し、データ化し、制度へ接続する役割を含む。文系・理系の区別よりも、説明責任を支える翻訳能力が重要になる。

13.5 発展学習

発展学習は、数学・統計・計算機科学だけに限られない。情報倫理、法制度、セキュリティ、標準化、エネルギー政策といった領域が、AIの利用条件を決めるからである。受講後にまず行うべきことは、自分の関心領域で、AIが関わる場面を具体的に一つ選び、入力データ、出力、利害関係者、誤りの損失、必要な根拠を整理することである。この整理ができれば、学ぶべき追加知識が自動的に絞り込まれる。

枠組みとしては、NISTのAI RMFが、組織がAIのリスクを扱うときの観点を提供する。そこでは、統治、状況把握、測定、運用管理という機能が提示され、技術評価だけでなく意思決定と説明責任が含まれる。国際原則としては、UNESCOやOECD、G7広島AIプロセスが、人権・透明性・説明責任・頑健性といった共通軸を提示している。これらを参照しながら、自分の領域における信頼性要件を定義する訓練が有効である。

組織的な取り組みまで視野に入れる場合、AIマネジメントシステムの国際規格が参照点になる。ISO/IEC 42001は、AIを扱う組織が方針・役割・運用・改善を体系化する枠を与えるものであり、技術の改善と同時に組織の改善を促す。大学や研究室でも、研究データの来歴、実験ノート、モデルの文書化といった作法は、同じ方向の実践である。個人の能力を伸ばす学習と、組織の責任を整える学習は連続している。

国内文書も、受講後に参照する価値が高い。日本のAI事業者ガイドラインは主体別に取り組みを整理し、行政での生成AI調達・利活用の文書は、公共部門での責任や調達条件を具体化している。個人情報保護当局の注意喚起は、入力データの扱いを日常的な行為へ落とすための基準になる。自分が属する組織の規程や契約と、これらの公的文書を往復しながら、具体的な行動規範を作ることが発展学習の中心になる。

13.6 おわりに

基盤モデルの普及により、AIは個別のアプリケーションを超えて、社会の基盤インフラとして扱われる度合いが増している。インフラ化は、利便性を高める一方で、障害や誤りが連鎖する範囲を広げるため、透明性と責任の仕組みがより重要になる。EUのAI法は、適用時期を段階化しながら義務を運用へ落とし込む設計であり、透明性義務も含めて実装が進む。日本でも、指針や行政文書の更新を通じて、AIの利用条件が整えられつつある。

同時に、エネルギー制約がAIの将来像を規定する論点になっている。大規模モデルの学習と推論はデータセンターの電力需要と結びついており、国際機関は需要増加の見通しと政策課題を示している。したがって、AIを学ぶことは、計算資源の制約を理解し、効率化や適正利用を考えることでもある。性能の競争だけでなく、社会にとっての費用と便益を比べ、持続可能性の観点で設計を選ぶ態度が必要になる。

さらに、生成コンテンツの増加は、情報の信頼を支える技術と制度の両方を求める。出所や編集履歴を扱う標準化は進んでいるが、社会がそれを表示し、解釈し、責任を割り当てる運用が伴わなければ効果は限定される。透明性の義務化、出所表示の慣行、教育でのリテラシー形成が同時に進むことで、情報環境の健全性が保たれる。

本講義で得た基礎は、AIを便利な道具として消費するためではなく、責任ある形で組み込むための基礎である。受講者は、自分の領域で何を任せ、何を任せないかを、損失の大きさ、根拠の要件、権利と安全の条件に基づいて説明できる状態へ進むべきである。そして、一次資料を読み、根拠を示し、照合し、改善するという学術的態度を、生活と専門の両方で継続することが、AI時代の最も堅い学び方である。

参考ドキュメント

  1. [S1] Regulation (EU) 2024/1689 Artificial Intelligence Act(EUR-Lex Official Journal) https://eur-lex.europa.eu/eli/reg/2024/1689/oj/eng
  2. [S2] NIST AI Risk Management Framework 1.0 https://www.nist.gov/itl/ai-risk-management-framework
  3. [S2-GenAI] NIST AI 600-1 Generative AI Profile(AI RMF companion resource) https://csrc.nist.gov/pubs/ai/600/1/final
  4. [S3] UNESCO Recommendation on the Ethics of Artificial Intelligence https://unesdoc.unesco.org/ark:/48223/pf0000380455
  5. [S4] OECD Recommendation of the Council on Artificial Intelligence https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449
  6. [S5] European Commission AI Act Service Desk Article 50(Transparency obligations) https://ai-act-service-desk.ec.europa.eu/en/ai-act/article-50
  7. [S6] 経済産業省 AI事業者ガイドライン(第1.1版) https://www.meti.go.jp/shingikai/mono_info_service/ai_shakai_jisso/20240419_report.html
  8. [S8] デジタル庁 行政の進化と革新のための生成AIの調達・利活用に係るガイドライン(PDF) https://www.digital.go.jp/assets/contents/node/basic_page/field_ref_resources/e2a06143-ed29-4f1d-9c31-0f06fca67afc/80419aea/20250527_resources_standard_guidelines_guideline_01.pdf
  9. [S9] 個人情報保護委員会 生成AIサービスの利用に関する注意喚起等(PDF) https://www.ppc.go.jp/files/pdf/230601_shiryou-1.pdf
  10. [S17] IEA Energy and AI(data centres, electricity demand) https://www.iea.org/reports/energy-and-ai
  11. [S19] G7 Hiroshima AI Process International Guiding Principles for Organizations Developing Advanced AI Systems https://digital-strategy.ec.europa.eu/en/library/hiroshima-process-international-guiding-principles-organizations-developing-advanced-ai-systems
  12. [S20] ISO/IEC 42001:2023 Artificial intelligence management system(ISOカタログ) https://www.iso.org/standard/81230.html
  13. [S21] C2PA / Content Credentials(仕様・導入情報) https://contentcredentials.org/ / https://c2pa.org/
  14. [S22] European Commission Code of Practice on marking and labelling of AI-generated content https://digital-strategy.ec.europa.eu/en/policies/code-practice-ai-generated-content