機械学習2:非線形回帰モデル

要点まとめ

線形では表現しきれない現象に対して、非線形回帰モデリングを実施する。代表的な非線形関数には、多項式関数、ガウス型基底関数等があるが、非線形関数を一般的に $\phi$ をすると、線形モデルのパラメータが $\hat{\boldsymbol{w}} = (\boldsymbol{X}^{(train)T} \boldsymbol{X}^{(train)})^{-1} \boldsymbol{X}^{(train)T} \boldsymbol{y}^{(train)}$ と表されたのと同様に、非線形回帰モデルのパラメータも $(\boldsymbol{\Phi}^{(train)T} \boldsymbol{\Phi}^{(train)})^{-1} \boldsymbol{\Phi}^{(train)T} \boldsymbol{y}^{(train)}$ と表すことができる。

また、非線形化で表現力が高いモデルを使用したときに発生する問題として過学習(Overfitting)があるが、正則化項を導入することで表現力を抑止することで表現力を抑止することが可能。

Pythonで実装する場合

Lasso正則化

alpha で重みをつける。

from sklearn.metrics.pairwise import rbf_kernel
from sklearn.linear_model import Lasso

kx = rbf_kernel(x_train, y_train, gamma=5)
lasso_clf = Lasso(alpha=0.0001, max_iter=1000)
lasso_clf.fit(x_train, y_train)
y_predict = ctf.predict(x_valid)

Ridge正則化

'rbf' ガウス基底カーネル, 重み =0.0002 重みを下げるとオーバーフィッティング、上げると未学習。

from sklearn.kernel_ridge import KernelRidge

# kernel
clf = KernelRidge(alpha=0.0002, kernel='rbf')
clf.fit(x_train, y_train)
y_predict = clf.predict(x_valid)

Reidge正則化 + rbf の別実装こちらは rbf_kernel にデータのサイズを渡さなければならない。

from sklearn.metrics.pairwise import rbf_kernel
from sklearn.linear_model import Ridge
kx = rbf_kernel(X=data, Y=data, gamma=50)
# K(x, y) = exp(-gamma ||x-y||^2)

clf = Ridge(alpha=30)
clf.fit(x_train, y_train)

y_predict= clf.predict(x_valid)

多項式関数を次数を1～9まで振る Pipeline というのを使うと簡潔に書けるようだ。

from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import Pipeline
deg = [1,2,3,4,5,6,7,8,9,10]
for d in deg:
    regr = Pipeline([
        ('poly', PolynomialFeatures(degree=d)),
        ('linear', LinearRegression())
    ])
    regr.fit(x_train, y_train)
    y_predict = regr.predict(y_valid)

サポートベクタ回帰というのもあるらしい

金子先生が資料を公表してくださっている。

datachemeng.com

コードはまだ咀嚼できていない。

from sklearn import model_selection, preprocessing, linear_model, svm

# SVR-rbf
clf_svr = svm.SVR(kernel='rbf', C=1e3, gamma=0.1, epsilon=0.1)
clf_svr.fit(data, target)
y_rbf = clf_svr.fit(data, target).predict(data)
 
# plot

plt.scatter(data, target, color='darkorange', label='data')
plt.plot(data, y_rbf, color='red', label='Support Vector Regression (RBF)')
plt.legend()
plt.show()