第6回：RとPythonで学ぶデータサイエンス数学~ベクトル、行列の微分~

前回までで、微分、偏微分、最小二乗法、ベクトル、行列までを書いてきました。

今回は、今までの知識を総動員し、ベクトルと行列による微分について書いていきます。ここまでの内容は、かの有名なディープラーニングにも使われています！

今回の目的は以下になります。

回帰モデルをベクトルと行列を使って表現できる。
ベクトルや行列の式変形に慣れる。
ベクトルを使った微分を理解する。

誰が読んでも理解できることを目指していますので、分かりにくい、理解できない等ありましたら、お気軽にコメント頂けると幸いです。なお、RやPythonを使わなくても、学ぶことができる内容ですので、数学の知識だけ学びたいという方も是非ご覧ください（^^）

行列を使って回帰モデルを表す。
行列を使って誤差の平方和を表す。
ベクトルとベクトルの微分
- 　二次形式の微分
正規方程式から回帰モデルのパラメーターを求める。
RとPythonによる実践
まとめ
参考

行列を使って回帰モデルを表す。

さて前回までの記事で、ベクトル・行列は"たくさんある式をコンパクトにまとめられる"ことがメリットであると書きました。前回の記事で偏微分を使って作成した回帰モデルですが、ベクトルと行列を使うことで、コンパクトに、スマートに、回帰モデルを作成できます。

前回同様に、メール数と売上データを使います。こんなデータでした。

mail	sales
1	12500
2	19700
3	29600
4	53700
5	47700
6	75200
7	54500
8	85800
9	91200
10	102200

データサイエンス数学

このmailを $x$ 、salesを $y$ 、線形モデルの切片は $\beta_{1}$ 、傾きを $\beta_{2}$ として、それぞれベクトルと行列で表現してみます。以前の記事で補足として書いた誤差を使った表し方です。

$\boldsymbol{y} =\boldsymbol{X}\boldsymbol{\beta}+ \boldsymbol{\epsilon}$

データサイエンス数学

www.medi-08-data-06.work

ここでも横×縦の考え方です。メールの数であるxは、すべて1のベクトルをくわえることで、2行10列の行列となり、係数ベクトル $\boldsymbol{\beta}$ とのかけ算を可能にし、切片係数の $\beta_{1}$ を式の中に加えることができます。一種のお作法のようなものですね(^^;)

上記の式を展開してみると、

$\begin{pmatrix} y_{1}\\ y_{2}\\ \vdots\\ y_{10} \end{pmatrix} = \begin{pmatrix} \beta_{1}+\beta_{2}x_{1}+\epsilon_{1}\\ \beta_{1}+\beta_{2}x_{2}+\epsilon_{2}\\ \vdots\\ \beta_{1}+\beta_{2}x_{10}+\epsilon_{10}\\ \end{pmatrix}$

となって、全部で10この式が、1行にまとめられていることがわかります。

行列を使って誤差の平方和を表す。

さて、ここから誤差を最小にするためには、誤差 $\epsilon=\boldsymbol{y}-\boldsymbol{X\beta}$ の平方和を最小にする必要がありますが（最小二乗法）、誤差はベクトルとなっていて二乗することができません。そこで、転置をした同じ誤差ベクトルとの内積を求めます。（前回まででやったように、ベクトルや行列のかけ算は内積でしたね。）

$\epsilon^{T}\epsilon = (\boldsymbol{y}-\boldsymbol{X\beta})^{T}(\boldsymbol{y}-\boldsymbol{X\beta})$

$(\boldsymbol{y}-\boldsymbol{X\beta})^{T}(\boldsymbol{y}-\boldsymbol{X\beta}) \\=\boldsymbol{y}^{T}\boldsymbol{y}-\boldsymbol{y}^{T}(\boldsymbol{X\beta})-(\boldsymbol{X\beta})^{T}\boldsymbol{y}+(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta})$

ここから行列における以下の二つのルールを用いて式変形を行います。

1.スカラーは転置しても値は同じ $例: 5^{T} = 5$

2.行列の内積の転置はそれぞれを転置して順番を逆にする。 $\begin{pmatrix} AB \end{pmatrix}^{T}=B^{T}A^{T}$

1のルールは分かりやすいですね。2のルールは、実際に計算してみましょう。

$A=\begin{pmatrix} 1&2\\ 1&2\\ 1&2 \end{pmatrix} \, B=\begin{pmatrix} 3\\ 4\\ \end{pmatrix} \\ \begin{pmatrix} AB \end{pmatrix}^{T}=\left[ \begin{pmatrix} 1&2\\ 1&2\\ 1&2 \end{pmatrix} \begin{pmatrix} 3\\ 4\\ \end{pmatrix}\right]^{T} \\ B^{T}A^{T} = \begin{pmatrix} 3& 4 \end{pmatrix} \begin{pmatrix} 1&1&1\\ 2&2&2 \end{pmatrix}$

と確かに同じになっていることが分かります。このルールを式に適応してみると、 $\boldsymbol{y}^{T}(\boldsymbol{X\beta})$ はスカラーになるので、

$\boldsymbol{y}^{T}(\boldsymbol{X\beta}) \\=\left[\boldsymbol{y}^{T}(\boldsymbol{X\beta})\right]^{T}←ルール1 \\=(\boldsymbol{X\beta})^{T}\boldsymbol{y}←ルール2$

と変形できます。すると

$\boldsymbol{y}^{T}\boldsymbol{y}-\boldsymbol{y}^{T}(\boldsymbol{X\beta})-(\boldsymbol{X\beta})^{T}\boldsymbol{y}+(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta}) \\=\boldsymbol{y}^{T}\boldsymbol{y}-2(\boldsymbol{X\beta})^{T}\boldsymbol{y}+(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta})$

となります。これで誤差の平方和を行列で表すことができました。

ベクトルとベクトルの微分

さて、前回の記事で、最小二乗法を解くために偏微分を使いました。今回も微分を使って、誤差が最小となる値を求めるのですが、ここでベクトルや行列で微分をすると、一気に値を求めることができます。先ほどの式を $\beta_{1}, \beta_{2}$ を要素としてもつベクトル $\boldsymbol{\beta}$ で微分してみます。微分は、足してから微分しても、微分してから足しても同じという性質を使うと以下のようになります。

$\boldsymbol{y}^{T}\boldsymbol{y}$ は $\boldsymbol{\beta}$ と関係ないので、微分によって消えます。次の項についてですが、これがベクトルをベクトルで微分する項になります。まずは

$-2\dfrac{d}{d\boldsymbol{\beta}}(\boldsymbol{X\beta})^{T}\boldsymbol{y}$

の項からみていきましょう。ここでも微分の性質である、かけてから微分しても、微分してからかけても同じという性質を使って、

$\dfrac{d}{d\boldsymbol{\beta}}(\boldsymbol{X\beta})$

の微分を考えていきます。 $\boldsymbol{X\beta}$ は10行1列のベクトルです。

$\boldsymbol{X\beta}=\begin{pmatrix} \beta_{1}+\beta_{2}x_{1}\\ \vdots\\ \beta_{1}+\beta_{2}x_{10}\\ \end{pmatrix}$

これをベクトルである $\boldsymbol\beta$ で微分すると、以下のようなイメージになります。

データサイエンス数学

ポイントは、ベクトルをベクトルで微分すると行列になるところです。これが分かれば、あとは偏微分するだけなので、

$-2(\dfrac{d}{d\boldsymbol{\beta}}\boldsymbol{X\beta})^{T}\boldsymbol{y}= -2\left[\begin{pmatrix} 1&x_{1}\\ \vdots&\vdots\\ 1&x_{10} \end{pmatrix}\right]^{T}\boldsymbol{y} \\=-2\boldsymbol{X}^{T}\boldsymbol{y}$

となっていきます。ここで注目して欲しいのが、

$\dfrac{d}{d\boldsymbol{\beta}}\boldsymbol{X\beta} =\boldsymbol{X}$

となる点です。例えば、ベクトルではなく、スカラーの微分では、

$\dfrac{d}{d\beta}x \beta =x$

となりますよね。これはベクトルの微分でも同じように適応できるところがポイントです。

　二次形式の微分

さて、次に

$\dfrac{d}{d\boldsymbol{\beta}}(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta})$

を計算してみましょう。実は上記の微分は二次形式の微分という公式を用いることができます。その公式前に二次形式について紹介していきましょう。

二次形式とは、

変数の二次の項のみからなる式
$ベクトル\,対称行列\,ベクトル$ の形に変換できる。

という特徴を持っています。例えば、こんな式です。

$\beta_{1}^{2}+2\beta_{1}\beta_{2}+2\beta_{2}\beta_{1}+4\beta_{2}^{2}$

上記の式の中にある項は全て、 $\beta_{1}$ 、 $\beta_{2}$ の二次の項からなっていますね。これを以下のように変形してみます。

$\beta_{1}^{2}+2\beta_{1}\beta_{2}+2\beta_{2}\beta_{1}+4\beta_{2}^{2} =\begin{pmatrix} \beta_{1}\\ \beta_{2} \end{pmatrix}^{T} \begin{pmatrix} 1&2\\ 2&4 \end{pmatrix} \begin{pmatrix} \beta_{1}\\ \beta_{2} \end{pmatrix}$

これはまさしく、 $ベクトル\,対称行列\,ベクトル$ の形になっていますね！実は、式が2次形式の形であればどんな式でも上記の形に変形することができます。ここで、最初の式をベクトルで微分したらどうなるでしょうか？ポイントは、スカラーをベクトルで微分するとベクトルになるということです。やってみましょう。

$\dfrac{d}{d\boldsymbol{\beta}} \beta_{1}^{2}+2\beta_{1}\beta_{2}+2\beta_{2}\beta_{1}+4\beta_{2}^{2} \\=\begin{pmatrix} \dfrac{\partial}{\partial\beta_{1}} \beta_{1}^{2}+2\beta_{1}\beta_{2}+2\beta_{2}\beta_{1}+4\beta_{2}^{2}\\ \dfrac{\partial}{\partial\beta_{2}} \beta_{1}^{2}+2\beta_{1}\beta_{2}+2\beta_{2}\beta_{1}+4\beta_{2}^{2} \end{pmatrix}←スカラーをベクトルで微分するとベクトルになる。 \\= \begin{pmatrix} 2\beta_{1}+2\beta_{2}+2\beta_{2}\\ 2\beta_{1}+2\beta_{1}+8\beta_{2} \end{pmatrix} \\= 2\begin{pmatrix} \beta_{1}+\beta_{2}\\ 2\beta_{1}+4\beta_{2} \end{pmatrix} \\= 2 \begin{pmatrix} 1&2\\ 2&4 \end{pmatrix} \begin{pmatrix} \beta_{1}\\ \beta_{2} \end{pmatrix}$

となります。つまり、

$\dfrac{d}{d\boldsymbol{\beta}} \begin{pmatrix} \beta_{1}\\ \beta_{2} \end{pmatrix}^{T} \begin{pmatrix} 1&2\\ 2&4 \end{pmatrix} \begin{pmatrix} \beta_{1}\\ \beta_{2} \end{pmatrix}= 2\begin{pmatrix} 1&2\\ 2&4 \end{pmatrix} \begin{pmatrix} \beta_{1}\\ \beta_{2} \end{pmatrix}$

です。これが二次形式の微分の公式です。これは、

$\dfrac{d}{d \beta} x\beta^{2}= 2x\beta$

となるような二乗微分のベクトル版とも言えますね。

データサイエンス数学

この公式を使うと

$\dfrac{d}{d\boldsymbol{\beta}}(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta}) \\=\dfrac{d}{d\boldsymbol{\beta}}\boldsymbol{\beta}^{T}\boldsymbol{X}^{T}\boldsymbol{X\beta} \\=2\boldsymbol{X}^{T}\boldsymbol{X}\boldsymbol{\beta}$

と変形することができます。これは、 $\boldsymbol{X}^{T}\boldsymbol{X}$ を計算してみると対称行列になることを利用しています。

正規方程式から回帰モデルのパラメーターを求める。

さて、これで準備が整いました。式を整理してみましょう。

$\epsilon^{T}\epsilon \\= (\boldsymbol{y}-\boldsymbol{X\beta})^{T}(\boldsymbol{y}-\boldsymbol{X\beta}) ←　回帰モデルの誤差平方和を表す式 \\=\boldsymbol{y}^{T}\boldsymbol{y}-2(\boldsymbol{X\beta})^{T}\boldsymbol{y}+(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta}) ←　行列の変形ルールを用いて変形$

$\dfrac{d}{d\boldsymbol{\beta}} \boldsymbol{y}^{T}\boldsymbol{y}-2(\boldsymbol{X\beta})^{T}\boldsymbol{y}+(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta})←ベクトルで微分 \\=-2\dfrac{d}{d\boldsymbol{\beta}}(\boldsymbol{X\beta})^{T}\boldsymbol{y}+ \dfrac{d}{d\boldsymbol{\beta}}(\boldsymbol{X\beta})^{T}(\boldsymbol{X\beta}) \\=-2\boldsymbol{X}^{T}\boldsymbol{y}+ 2\boldsymbol{X}^{T}\boldsymbol{X}\boldsymbol{\beta}←ベクトル同士の微分と二次形式の微分$

最小二乗法で学んだように、微分した結果が0になるところが最小となる値となるので、

$-2\boldsymbol{X}^{T}\boldsymbol{y}+ 2\boldsymbol{X}^{T}\boldsymbol{X}\boldsymbol{\beta}=0 \\ \boldsymbol{X}^{T}\boldsymbol{y}= \boldsymbol{X}^{T}\boldsymbol{X}\boldsymbol{\beta} \\ \boldsymbol{\beta}=(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y}$

を解けば回帰モデルのパラメーターを求めることができます。この一番したの式を正規方程式とよび、多くの参考書等でいきなり出てくることがありますが、導出方法は上記の通りです！

あとは前回行列の回で扱った逆行列の知識を使えば、正規方程式を解くことができます。

www.medi-08-data-06.work

$\boldsymbol{\beta} \\=(\boldsymbol{X}^{T}\boldsymbol{X})^{-1}\boldsymbol{X}^{T}\boldsymbol{y} \\= \begin{pmatrix} 3253...\\ 9810... \end{pmatrix}$

これで回帰モデルは、

$y=3253+9810x+\epsilon$

と求めることができます。

RとPythonによる実践

最後に実際にRとPythonを使って正規方程式をとき、 $\boldsymbol{\beta}$ を計算してみましょう。

#データの作成
mail <- seq(1,10)
sales <- c(12500,19700,29600,53700,47700,75200,54500,85800,91200,102200)

y <- sales
X <- matrix(c(rep(1, 10), mail),ncol = 2)

#正規方程式をとく
beta <- solve(t(X) %*% X) %*% t(X) %*% y  
print(beta)

>        [,1]
[1,] 3253.333
[2,] 9810.303

#データの生成
mail = np.arange(1,11)
sales = np.array([12500,19700,29600,53700,47700,75200,54500,85800,91200,102200])

X = np.zeros((10,2))
X[:,0] = 1
X[:,1] = mail
y = sales

#正規方程式を解く
inv_XTX = np.linalg.inv(np.dot(X.T, X))
beta = np.dot(np.dot(inv_XTX, X.T),y)
print(beta)

>[3253.33333333 9810.3030303 ]

まとめ

ベクトルを使った微分は、データサイエンスの中でも肝となる部分で、逆にここをしっかりと理解することで、基礎的な統計学からディープラーニングを始めとする機械学習手法まで、幅広く理解することができます。最後に本記事のポイントをまとめてみます。

回帰式は $\boldsymbol{y} =\boldsymbol{X}\boldsymbol{\beta}+ \boldsymbol{\epsilon}$ と表すことができる。
スカラーは転置しても値は同じ $例: 5^{T} = 5$
行列の内積の転置はそれぞれを転置して順番を逆にする。 $\begin{pmatrix} AB \end{pmatrix}^{T}=B^{T}A^{T}$
スカラーをベクトルで微分するとベクトルに、ベクトルをベクトルで微分すると行列になる。
変数の二次の項のみからなる式を二次形式と呼ぶ。
正規方程式を解くことで、回帰モデルのパラメーターを求めることができる。