E資格を受けるために現在ラビットチャレンジを受講中である。その受講内容をレポートとしてまとめる。
今回はAIの基礎を形成されている応用数学について学んだこと・気づいたことを記す。
線形代数
固有値と固有ベクトル
ある行列Aと特殊なベクトルのが右辺のスカラー係数 λ の同じになるとき、 λ を行列Aに対する固有値、ベクトルxをλに対する固有ベクトル呼ぶ。
Ax = λx(x≠0)
(x≠0) と記載している理由は0ベクトルを許容すると両辺の値が0になり簡単に式を満たしてしまうからである。
固有値・固有ベクトルが成立する例は下記の通り。
$$\begin{pmatrix}
3 & 1 \\
2 & 2
\end {pmatrix}\
\begin{pmatrix}
1 \\
1
\end {pmatrix}
=
4\begin{pmatrix}
1 \\
1
\end {pmatrix} $$
確率・統計
条件付き確率
条件付確率はある事象Bが所与の状態でAとなる確率である。
例えば、サイコロが偶数の目が出たという情報が開示されている状態で4以上が出た確率を求めるときに使う。
ベイズの定理を利用して条件付確率は下記の通り求められる
$$ P(A|B) = {P(A \cap B)}/{P(B)}$$
条件付確率はある事象Bが所与の状態でAとなる確率である。
例えば、サイコロが偶数の目が出たという情報が開示されている状態で4以上が出た確率を求めるときに使う。
ベイズの定理を利用して条件付確率は下記の通り求められる
$$ P(A|B) = {P(A \cap B)}/{P(B)}$$
$$ ( P(B|A) = {P(A \cap B)}/{P(A)} でも可)$$
確率変数・確率分布
統計学を扱ううえで下記の概念が重要になる。
- 確率変数
事象と結びつけられた数値であり、事象そのものを指すと解釈する場合が多い。(特定のサイコロの目が出る確率等) - 確率分布
自称が発生する確率の分布。離散値(連続していない値)の場合は表形式で提示することが可能。
確率分布における確率変数の期待値(E)の算出方法は下記の通り。
離散値
$$ E = \sum_{k=1}^{n} P(X=x_k)f(X=x_k) $$
連続値
$$ E = \int P(X=x_k)f(X=x_k)) $$
また、確率分布における確率変数の期待値の算出方法は下記の通り
$$ Var = E(f^2(X=x))- E(f) ^2 $$
情報理論
自己情報量
情報を確率の関数に置き換えたものを事故情報量という。統計物理学でいう「エントロピー」と同じ概念になる。
対数のそこが2のとき、単位はbitであり、対数の底が‘eのとき単位はnatになる。
自己情報量(I)の算出方法は下記の通り。
$$ I(x) = -log(P(x)) = log(W(x)) $$
シャノンエントロピー
自己情報の期待値のことをシャノンエントロピーという。シャノンエントロピー(H)は自己情報量の平均値を求めることで算出できる。
$$ H(x) = E(I(x)) = -E(log(P(x))) = – \sum P(x)log( P(x)) $$
カルバック・ライブラー ダイバージェンス
2つの確率分布が異なるものを比較する下記のような計算方法をカルバック・ライブラーダイバージェンスという。
ダイバージェンスは情報量というよりは比較している分布P、Qの距離を測るような概念。数学的な距離を満たす条件をすべて満たしているわけではないので、距離そのものではない。
$$ D_KL (P||Q) = E_{k~p}[log P(x)-Q(x)] $$
2021/12/25
コメント