10/07/2019

[機器學習] 回歸問題應用例:Dow Jones 指數的 回歸模型估計

考慮歷史 Dow Jones 指數如下圖所示


令 $v(t)$ 表示 從1795年到 2019年每年的 Dow Jones 指數其中 $t=1,1,\ldots,T$ 且 $t=1$表示 1795年,$t=T$表示至今 (上圖為2019年,但任意年皆可)。由上圖,我們假設 $v_t$ 可由以下 指數函數 近似:亦即  $v: \mathbb{N} \to \mathbb{R}$ 滿足
\[
v(t):= e^{at+b}
\]其中  $t=1,...,T$,$a,b$ 為 待估計參數。我們想問是否能找出 $a,b$ 使得我們可以用此模型來預估未來 Dow Jones 指數的走向:

上述問題可化簡為回歸問題。首先對 $v_t$ 等式兩邊同取 $\log$,我們可得
\[
\log v(t) = at+b
\]故對任意 $t=1,...,T$我們有
\[
\begin{bmatrix}\log v(1)\\\log v(2)\\ \vdots \\ \log v(T) \end{bmatrix} = \begin{bmatrix}1 & 1 \\ 2 & 1 \\ 3 & 1\\ \vdots & \vdots \\ T & 1  \end{bmatrix} \begin{bmatrix} a\\b\end{bmatrix}
\]
令  ${\bf x}=[a \;\; b]^T$,${\bf b}=\begin{bmatrix}\log v(1) & \log v(2) & \vdots \log v(T) \end{bmatrix}^T$ 且 $$A:=\begin{bmatrix}1 & 1 \\ 2 & 1 \\ 3 & 1\\ \vdots & \vdots \\ T & 1  \end{bmatrix} \in \mathbb{R}^{T \times 2} $$ 則我們得到 $
A{\bf x} = {\bf b}
$ 。由於 $T>>2$,方程 $A{\bf x} = {\bf b}$無解 (參閱 comment 2),但我們可問是否有近似解。為此, 欲求解 ${\bf x}$ 一種常見的手段是採用最小平方法:考慮以下無拘束最小平方最佳化問題
\[
\min_{{\bf x} \in \mathbb{R}^2 }\|A{\bf x} - {\bf b}\|_2^2
\]讀者不難驗證上述問題之解必定滿足以下 normal equation
\[
A^TA{\bf x} = A^T {\bf b}
\]由於 $A$矩陣之 columns 為線性獨立,$A^TA$為 positive definite 其反矩陣存在,故可得解
\begin{align*}
\widehat{{\bf x}}&:=(A^TA)^{-1}A^T{\bf b}
\end{align*}

Comments:
1. 讀者可進一步分析
$$A^TA = \begin{bmatrix}1 & 2& \cdots &T\\ 1 & 1 & \cdots & 1  \end{bmatrix} \begin{bmatrix}1 & 1 \\ 2 & 1 \\ 3 & 1\\ \vdots & \vdots \\ T & 1  \end{bmatrix}   = \begin{bmatrix} \sum_{t=1}^T t^2 & \sum_{t=1}^T t \\ \sum_{t=1}^T t & T \end{bmatrix} = \begin{bmatrix} \frac{T(T+1)(2T+1)}{6} & \frac{T(T+1)}{2} \\ \frac{T(T+1)}{2} & T \end{bmatrix}
$$故其反矩陣
\[
(A^TA)^{-1} = \frac{1}{\frac{T^2(T+1)(2T+1)}{6} -  \bigg(\frac{T(T+1)}{2} \bigg)^2 } \begin{bmatrix} T & - \frac{T(T+1)}{2} \\ - \frac{T(T+1)}{2} &  \frac{T(T+1)(2T+1)}{6}  \end{bmatrix}
\]


2. 令 $A \in \mathbb{R}^{m\times n}$,${\bf b}\in\mathbb{R}^{m}$,${\bf x} \in \mathbb{R}^n$。考慮 $A{\bf x} = {\bf b}$為一線性系統方程。我們說此系統有解 若且唯若
\[
rank(A) = rank([A|{\bf b}])
\]在上述 Dow Jones 指數的例子中,讀者不難驗證 $rank(A)=2$ 但是 $rank([A|{\bf b}])=3$。故原方程 $A{\bf x} = {\bf b}$無解。












沒有留言:

張貼留言

[數學分析] 連續函數族的逐點上包絡函數不一定連續

連續函數有諸多用途,一般在參數最佳化領域中常見的情況是考慮所謂的 上包絡函數(upper envelope function)。 Definition:  定義函數族 \(\{f_t : t \in T\} \) 其中 \(T\) 為 index set 並考慮對任意 \(x ...