yui-gen-ronの日記

機械学習3:ロジスティック回帰モデル

要点まとめ

ロジスティック回帰モデルは2クラス分類問題に用いる。入力はm次元のベクトルで、目的変数は0or1の値になる。ロジスティック回帰の予測モデルは、線形回帰モデルとシグモイド関数 $\sigma (x) = \frac{1}{1+\exp (-ax)}$ を組み合わせた、 $\hat{y} = \sigma (\boldsymbol{w}^T\boldsymbol{x})$ で表される。

モデルの学習は、負の尤度関数の微分を用いて、確率的勾配降下法(SGD)等を用いて最適解を探索する。

演習実施

f:id:yui-gen-ron:20211114023713p:plain

ロジスティック回帰モデルの数式

説明変数

目的変数

パラメータ

線形結合

線形回帰モデルと似ているが、目的変数が0or1という点が異なる。ここで、線形結合の出力 $\hat{y}$ を0～1の範囲に変換する関数としてシグモイド関数を導入。

シグモイド関数

f:id:yui-gen-ron:20211113003743p:plain — シグモイド関数のグラフ

入力は実数全体、出力は0～1の範囲
単調増加関数
クラス1に分類される確率を表現する目的で使用する。

シグモイド関数の微分

式を自分でも導出できるようにすることと、

この形は暗記する。

シグモイド関数を用いて $\hat{y}$ を0～1の範囲に対応させる

$P(Y=1|\boldsymbol{x})$ は、説明変数 $\boldsymbol{x}$ が与えられたときに $y=1$ となる確率を表す。

$\boldsymbol{x}_i$ が与えられたときに、 $y=1$ となる確率 $p_i$ を、下記のように表す.

一般的には、 $p_i \geqq 0.5$ の場合は $y$ を $1$ と予測、それ以外は $0$ と予測する。

ベルヌーイ分布

コイントスのように、確率 $p$ で $1$ 、確率 $1-p$ で $0$ を取る離散確率分布を ベルヌーイ分布 という

ベルヌーイ分布に従う確率変数 $Y$

$Y=1$ と $Y=0$ になる確率をまとめて表現すると、

確認のためにこの式に対して $y=1$ とすると $p(1)=p$ が得られ、 $y=0$ とすると $p(0)=(1-p)$ が得られる。

ベルヌーイ分布の期待値

ベルヌーイ分布の分散

最尤推定

ベルヌーイ分布の最尤推定

下の例のように色分けして表記する

既知と考える変数 $\color{magenta}{既知 \alpha}$
未知と考える変数 $\color{blue}{未知 \beta}$

確率が既知 $\color{magenta}{p}$ のベルヌーイ分布1回の試行で $y=y_1$ になる確率

確率が既知 $\color{magenta}{p}$ のベルヌーイ分布 $n$ 回の試行で、 $y_1$ ～ $y_n$ が同時に起こる確率

確率が未知 $\color{blue}{p}$ のベルヌーイ分布 $n$ 回の試行で、 $y_1～y_n$ が得られた際の尤度関数

ロジスティック回帰モデルの最尤推定

既知の $\color{magenta}{\boldsymbol{x}} , \color{magenta}{\boldsymbol{y}}$ から、尤もらしい未知のパラメータ $\color{blue}{\boldsymbol{w}}$ を探索する。

確率は、

尤度関数は、

負の対数尤度関数を考えると都合が良い

対数をを取ることで、積を和の形に変換可能
尤度関数は非常に小さな値になり、浮動小数点で扱うと不都合が生じる場合があるが、対数を取ると値が小さくならずに都合が良い。
対数関数は単調増加である
微分可能
尤度関数は最大値を求めたいが、負の値を取ることで「最小二乗法の最小化」と合わせる。

勾配降下法 $\newcommand{\partialdiff}[2] {\frac{\partial {#1}}{\partial{#2}}} \boldsymbol{w}^{k+1} = \boldsymbol{w}^{k} + \eta \partialdiff{E(\boldsymbol{w})}{\boldsymbol{w}}$ を使用するために、負の対数尤度関数について、パラメータ $\boldsymbol{w}$ の偏微分を求める。

これを勾配降下法に当てはめると、

評価指標

評価指標については、別途まとめる