要点まとめ

自己情報量は情報の価値を数値化したもので、 $- \log P(x)$ と定義される。積を和差で扱える logを取り、情報の価値に対応するように負の値をとっている。

情報の価値の期待値、シャノンエントロピーは、 $H(x) = -\sum (P(x) \log_2 (P(x)))$ 。

情報量の距離をカルバック・ライブラーダイバージェンスと言い、式は、 $D_{KL}(P||Q) = \sum_{x} P(x)(\log \frac {P(x)}{Q(x)})$ 。

自己情報量

定義

$\displaystyle I(x) = -\log_2 (P(x))$

f:id:yui-gen-ron:20211109125223p:plain

どのくらい珍しいか = 情報としての価値が高いかを示す。例えば、20面体のサイコロで4以下が出るという情報は、10以下が出るという情報よりも価値がある。

定義

$\displaystyle H(x) = E(I(x)) \\ = -E \log_2 (P(x)) \\ = -\sum (P(x) \log_2 (P(x)))$

自己情報量の期待値

定義

$\displaystyle D_{KL}(P||Q) = E_{x \sim P}(\log \frac {P(x)}{Q(x)}) \\ = E_{x \sim P}(\log P(x) - \log Q(x))$

考え方・・・情報量の差を考える情報量の距離のようなもの

$\displaystyle I(Q(x)) - I(P(x)) \\ =(-\log(Q(x)) - (-\log P(x)) \\ = \log \frac{P(x)}{Q(x)}$

また、

$\displaystyle E(f(x)) = \sum_{x} P(x)f(x)$

なので、

$\displaystyle D_{KL}(P||Q) = \sum_{x} P(x)(\log \frac {P(x)}{Q(x)}) \\ \displaystyle = \sum_{x} P(x)(- \log Q(x) -(- \log P(x)))$

$\displaystyle H(P,Q) = -\sum_{x} P(x) \log Q(x)$