跳到主要內容

發表文章

目前顯示的是 2019的文章

[隨筆] 博士之路的感謝

六十餘年妄學詩,功夫深處獨心知 夜來一笑寒燈下,始是金丹換骨時 陸游 --- 夜吟 --- 昨天 (12/17/2019) 我完成了我的博士論文答辯。我想趁著一切記憶還鮮明的時候 寫寫我的想法與心中的感謝。 心境 從 2013 到執筆寫下這篇文章的今天,六年多將近七年的留美歲月恍如昨日,當日少年轉眼變成大叔。我猶記剛剛踏上 Madison, Wisconsin 時候的大雪紛飛與零下 20 度的氣溫。我瑟瑟發抖,套上好友送的防寒手套,心中想著即將與剛新婚不久的 太太 順瑩 分離,經濟上與課業上的全新挑戰。這是個用英文點杯咖啡都顯得結巴困難的日子。 關於課業與研究 我是在 UW-Madison   電機與電腦工程系  攻讀博士,主修 控制系統 輔修 數學。我有幸師從 B. Ross Barmish 教授,他是 強健控制 與 控制工程 在財務應用 的幾位領頭人物之一。 我主要研究領域是落在 隨機系統 與 財務工程 的交集 1 。讀博期間很慶幸在許多師長的幫助之下,順道取得同校的 數學與電機 雙碩士學位,加上我原本在台灣的機械碩士,僥倖集滿了三碩,多了幾根白髮,發了幾篇文章。最開心的大概是我終於可以厚顏自稱自己是 (應用) 數學家 。 彷彿又更接近了一點當年在大學時候的夢想:成為一位 控制理論 學者。 讀博過程,除了研究之外,更常時候是在等待論文審核的時光中度過。填補這個等待就是做新的研究。一個挖坑又自己填坑的過程。很多煎熬,很多難關。許許多多的人在這路上幫助過我,或先或後,或直接或間接,難以計數,我由衷謝謝他們。 關於經濟 除了幾個特定 超熱門領域 之外,做理論研究並沒有太多經費。所以我得在 興趣 與 麵包 之間做選擇。我選了前者,也因此開啟了長年教課的日子。我感謝 UW-Madison  數學系 與 電機系 願意給我機會擔任 助教 或者 講師 職位。我由衷謝謝他們。 關於博士答辯之後與博士頭銜 答辯之前與答辯之後並沒有不同,答辯之後並沒有讓我對研究領域的認識就瞬間有了質的飛躍,更多時候是細水長流的累積直到答辯的那一刻。論文答辯 本身 不過是給我一個機會 分享總結 自己過去這些年的一些些研究成果。若要說博士頭銜有什麼作用,大概就是讓我得到了一個奢侈的特權:得到申請 助理教授 職位被拒絕的特權。希望這個特權

[分享] 板橋教會敬拜讚美團 『決定,回家』 20週年 紀念音樂專輯

板橋教會敬拜讚美團 『決定,回家』 20週年 紀念音樂專輯。 整張專輯: 謝謝你們。

[凸分析] 凸優化最佳解所成之集合為凸集

在凸優化問題中,僅管凸性保證了任意局部最優解 (local minimizer) 就是 全局最優解 (global minimizer),但凸性並沒有保證所考慮的凸優化問題 一定 存在 最優極小解。下面的結果刻劃了凸優化最佳解的性質,常被用來檢驗最佳解的存在性,是個十分有用的結果。 =========== Theorem: (凸優化最佳解的集合為凸集) 令 $S \subseteq \mathbb{R}^n$ 為 凸集合 且 $f: S\to \mathbb{R}$ 為 凸函數。令 $S^*$ 為所有極小點所成之集合亦即 \[ S^* := \{x\in S: f(x) \leq f(y), \forall \; y \in S\; \} \] 則 $S^*$ 為凸集。 =========== Proof : 若 $S^* = \emptyset$ 則上述定理陳述自動成立。若 $S^* \neq \emptyset$,則存在 $x_0 \in S^*$。考慮 level set \[ S_{\leq f(x_0)} := \{x\in S: f(x) \leq f(x_0)\} \] 則不難驗證 $S_{\leq f(x_0)} = S^*$。接著由下述 Lemma 可知 $S^*$ 為 convex。至此證明完畢。$\square$ =========== Lemma:  令 $S \subseteq \mathbb{R}^n$為凸集,且 $f:S \to \mathbb{R}$  為凸函數。則對任意 $\alpha \in \mathbb{R}$, (lower) level set $$ S_{\leq \alpha}:= \{x \in \mathbb{R}^n: f(x) \leq \alpha\} $$ 為 凸集。 =========== Proof:  若 level set $S_{\leq \alpha}$ 為空集合或者單點集,則陳述自動成立。若不然,取 $x_1,x_2 \in S_{\leq \alpha}$ ,則 $f(x_1) \leq \alpha$ 且 $f(x_2) \leq \alpha$。我們要證明 convex combination of $x_1$ 與 $x_2$ 仍落在 $

[機器學習] 主成分分析 (1)

以下我們介紹機器學習/統計學習理論 中把 高維度資料 降維 的一種常用工具,稱作 主成分分析 (Principal Component Analysis) 。假設我們有 $n$ 組 $m$ 維度 (去除平均) 資料點集,下圖 顯示 $n=100$ 組 $m=2$ 維 資料點集 注意到上述資料集已經先預先處理使其資料集 中心 在 $(0,0)$。任意(有限維度)資料集皆可預先做此處理將其資料點的平均值 預先 移除。此為主成分分析的首要步驟。 主成分分析(Principal Component Analysis): 我們的目標為 找到一個向量 ${\bf x} \neq {\bf 0}$ 使得 由此向量所 線性張成(span) 的子空間,記作 $X:=span\{{\bf x}\}$ ,能 最佳適配我們得資料集 (此 subspace $X$ 又稱作 "best line ") 使得\[ \min_{\bf x} \sum_{i=1}^n d_i^2 \]其中 $d_i$ 為第 $i$ 個 資料點 到此  best line (subspace) $X$ 的距離。 Comments: (1) 此處最佳 "best line" 意指我們要找 ${\bf x}$ 使得 資料點到此 best line 的距離平方最小,此想法可參閱下方示意圖,其中 ${\bf a}_i$ 為代表 第 $i$ 個資料點的向量,$proj_X{\bf a}_i$ 代表 ${\bf a}_i$ 投影到 我們的 subspace $X$ 的投影向量。 (2) 當然,距離平方最小並不是唯一的選擇,讀者可以考慮使用 $\sum_i |d_i|$ 當作 最佳化的目標函數或者其他種類的目標函數,但為求簡單起見,且符合經典 主成分分析的內容,在此我們僅考慮 距離平方誤差 作為我們的 目標函數。 (3) 由下圖,讀者不難發現對任意資料向量 ${\bf a}_i$ 而言,此向量 與 subspace $X$ 的 距離平方 $d_i^2$ 可表為 \[ d_i^2  = \| {\bf a}_i - proj_X {\bf a}_i \|_2^2 \]其中 $proj_X {\bf a}_i$ 表示 ${\bf a}_i$ 投影到 sub

[線性代數] 一類含有反矩陣的等式

Claim: 令 $A \in \mathbb{R}^{m \times n}$,且 $\lambda >0$ 則以下等式成立 \[ (A^TA+\lambda I)^{-1}A^T = A^T(AA^T+\lambda I)^{-1} \] Proof: 觀察 $A^TAA^T+\lambda A^T$ 可對其從左方或者右方提出 $A^T$,亦即 \[\begin{align*} A^T(AA^T+\lambda I) = (A^TA+\lambda I)A^T \end{align*}\]由於 $(AA^T +\lambda I)$ 為可逆,$(AA^T+\lambda I)^{-1}$存在,故對上式兩邊從右方同乘此項可得 \[ A^T = (A^TA+\lambda I)A^T(AA^T+\lambda I)^{-1} \]又注意到 $(A^TA+\lambda I)$ 為可逆,$(A^TA+\lambda I)^{-1}$存在,對上式從左方同乘此項可得 \[ (A^TA+\lambda I)^{-1}A^T = A^T(AA^T+\lambda I)^{-1} \]至此證明完畢。$\square$ Comments: 上述結果多出現於一類稱作 Tikhonov Regularization (或者有拘束的最小二乘方問題)問題之中:亦即令 $A \in \mathbb{R}^{m \times n}$ 且 ${\bf x},{\bf y}\in \mathbb{R}^{n}$,$\lambda >0$考慮 \[ \min_{\bf x}\|A{\bf x} - {\bf y}\|_2^2 + \lambda \|{\bf x}\|_2^2 \]則不難證明上述最佳化問題之解為 \[ {\bf x}= (A^TA+\lambda I)^{-1}A^T {\bf y}  = A^T(AA^T+\lambda I)^{-1}{\bf y} \]上述第二等式成立因為 前述 claim。故我們在實際計算反矩陣時,可以決定到底要用 哪一個 inverse來加速計算速度,比如 $A \in \mathbb{R}^{5000\times 100}$ 那麼 $(A^TA+\lambda I)^{-1}$ 要求對 $10

[機器學習] 回歸問題應用例:Dow Jones 指數的 回歸模型估計

考慮歷史 Dow Jones 指數如下圖所示 令 $v(t)$ 表示 從1795年到 2019年每年的 Dow Jones 指數其中 $t=1,1,\ldots,T$ 且 $t=1$表示 1795年,$t=T$表示至今 (上圖為2019年,但任意年皆可)。由上圖,我們假設 $v_t$ 可由以下 指數函數 近似:亦即  $v: \mathbb{N} \to \mathbb{R}$ 滿足 \[ v(t):= e^{at+b} \]其中  $t=1,...,T$,$a,b$ 為 待估計參數。我們想問是否能找出 $a,b$ 使得我們可以用此模型來預估未來 Dow Jones 指數的走向: 上述問題可化簡為回歸問題。首先對 $v_t$ 等式兩邊同取 $\log$,我們可得 \[ \log v(t) = at+b \]故對任意 $t=1,...,T$我們有 \[ \begin{bmatrix}\log v(1)\\\log v(2)\\ \vdots \\ \log v(T) \end{bmatrix} = \begin{bmatrix}1 & 1 \\ 2 & 1 \\ 3 & 1\\ \vdots & \vdots \\ T & 1  \end{bmatrix} \begin{bmatrix} a\\b\end{bmatrix} \] 令  ${\bf x}=[a \;\; b]^T$,${\bf b}=\begin{bmatrix}\log v(1) & \log v(2) & \vdots \log v(T) \end{bmatrix}^T$ 且 $$A:=\begin{bmatrix}1 & 1 \\ 2 & 1 \\ 3 & 1\\ \vdots & \vdots \\ T & 1  \end{bmatrix} \in \mathbb{R}^{T \times 2} $$ 則我們得到 $ A{\bf x} = {\bf b} $ 。由於 $T>>2$,方程 $A{\bf x} = {\bf b}$無解 (參閱 comment 2),但我們可問是否有近似解。為此, 欲求解 ${\bf x}$ 一種常見的手段是採用最小平方法:

[線性代數] 構造 正定矩陣 其元素含有負值的例子

首先回憶 正定 (positive definite) 矩陣 定義: Definition: 令 $Q \in \mathbb{R}^{n\times n}$且 $Q^T=Q$。我們說 $Q$ 為 positive definite 若下列條件成立: 對任意 ${\bf x} \in \mathbb{R}^n$ 且 ${\bf x} \neq {\bf 0}$, $$ {\bf x}^TQ{\bf x}>0 $$ 我們想問是否有可能構造出一正定矩陣其部分元素取值為負。答案是肯定的。請看以下例子: ============== Example:  令 $Q = \begin{bmatrix}2 & -1 \\ -1 & 2 \end{bmatrix}$。試証 $Q$ 為 positive definite。 ================ Proof: 首先注意到 $Q^T=Q$ 為顯然。故我們僅需証明 對任意 ${\bf x} \neq 0$, ${\bf x}^TQ{\bf x}>0。$為此,取${\bf x}=[x_1\;\;x_2]^T$ 且 $x_1,x_2$不全為零, 觀察 $$ {\bf x}^TQ{\bf x} = [x_1 \;\; x_2]  \begin{bmatrix}2 & -1 \\ -1 & 2 \end{bmatrix} \begin{bmatrix}x_1\\x_2 \end{bmatrix} = 2x_1^2+2x_2^2-2x_1x_2$$上述稱為 矩陣二次式(quadratic form)。 以下我們分幾個情況討論: Case 1: 若 $x_2 \neq 0$ 且 $x_1 \neq 0$: 若 $x_1\geq x_2$ ,則 $2x_1^2+2x_2^2-2x_1x_2 \geq 2x_2^2>0$ 若 $x_2 \geq x_1$,則 $2x_1^2+2x_2^2-2x_1x_2 \geq 2x_1^2>0$ Case 2: 若 $x_2 \neq 0$ 且 $x_1 = 0$:則我們有 $$  2x_1^2+2x_2^2-2x_1x_2 = 2x_2^2 > 0 $$ Case 3: 若 $x_

[三角函數] 一類 離散餘弦取負值的條件

Claim 1:  令 $\omega \in (0, \pi/2)$,則 存在 正整數 $k $ 使得 \[ \cos(\omega k ) <0 \]========== Proof:  首先回憶 floor 函數:對任意 $x \in \mathbb{R}$, $\lfloor x \rfloor$具備以下性質 \[ x-1 < \lfloor x \rfloor \leq x \]現在給定 $0 < \omega < \pi/2$,並取 \[ k := 1 + \bigg \lfloor \frac{\pi}{2\omega} \bigg\rfloor \]則利用前述的 floor 函數性質,我們有 \[ \frac{\pi}{2\omega} < k \leq 1 + \frac{\pi}{2\omega} \]兩邊同乘 $\omega$ 則 \[ \frac{\pi}{2} < \omega k \leq \omega + \frac{\pi}{2} \]因為 $\omega \in (0, \pi/2)$,我們可以進一步取上述不等式右方的上界,亦即 $ \omega + \frac{\pi}{2} < \pi$。故 \[ \omega k \in \bigg(\frac{\pi}{2}, \pi \bigg) \subset \bigg( \frac{\pi}{2}, \frac{3\pi}{2}\bigg) \]注意到對任意 $\theta \in  \bigg( \frac{\pi}{2}, \frac{3\pi}{2}\bigg)$, $\cos \theta < 0$ ,故 $\cos(\omega k) < 0$。至此得證。 $\square$ Comment:  我們可將 claim 1 結果進一步推廣到包含有相位的情況: ========== Claim 2:  令 $\omega \in (0, \pi/2)$ 且 $\theta \in (-\pi/2, \pi/2)$,則 存在 整數 $k >2$ 使得 \[ \cos(\omega(k- 1) + \theta) <0 \]==========

[測度論] 關於 Almost Everywhere

給定測度空間 $(X,\mathcal{M},\mu)$我們說 某性質 $P$ almost everywhere 成立 意思是 對所有非零測度集合此性質 $P$ 都成立。(換言之,除零測度集之外,此性質 $P$ 都成立。) Lemma: 假設 $f(x) \geq 0$ 且 $f$ 為 $(\mathcal{M}, \mathcal{B}_{\mathbb{R}})$ 可測。假設 $\int f d\mu = 0$ 則 $f(x) = 0$ almost everywhere (i.e., $\mu\{x: f(x)>0\} = 0$) Proof: 令 $E:= \{x:f(x)>0\}$,我們要證明   $\mu(E) = 0$ 。為此,我們首先證明 $\mu(E_n) = 0$ 其中 $E_n :=\{x: f(x) > 1/n\}$。觀察以下事實 $\cup_n E_n = E$ 且 $E_n \uparrow E$。 觀察 \[ \mu(E_n) := \int 1_{E_n}  \;\;\;\;(*) \]注意到對任意 $x\in E_n$,我們有 $f(x) > 1/n $,此等同於 $n f(x) > 1$ ,故對任意 $x\in E_n$, $nf(x) 1_{E_n}(x) > 1 \cdot 1_{E_n}(x)$ 。將此用到 $(*)$ 我們得到 \[ \mu(E_n) = \int 1_{E_n} < \int nf(x)1_{E_n} \leq \int nf(x) =n \underbrace{\int f(x) d\mu(x)}_{=0} \]亦即 \[ \mu(E_n) = 0 \]最後我們檢驗 $$\mu(E) = \mu(\cup_n E_n) = \lim_n \mu(E_n) = 0$$即為所求。$\square$ Lemma 2: 給定 測度空間 $(X,\mathcal{M}, \mu)$ 且 $\mu$ 為complete measure,若 $f$ 為 $(\mathcal{M},\overline{\mathcal{B}}_{\mathbb{R}})$ measurable 且 $f=g$ almost everywhere

[測度論] Almost Uniform Convergence (1) 定義 與 經典例子

Definition: 令 $f_n, f$ 為 complex-valued measurable 函數,我們說 $f_n \to f$ almost uniformly 若下列條件成立: 對任意 $\varepsilon>0$,存在可測集 $E_\varepsilon$ 滿足 $\mu(E_\varepsilon)<\varepsilon$ 使得 \[ f_n \to f \text{ uniformly on $E_\varepsilon^c$} \]換言之,$\sup_{x \in X\setminus E_\varepsilon} |f_n(x) - f(x)| < \varepsilon$。 Example: 考慮 測度空間 $([0,1],\mathcal{L},m)$,取 $f_n(x) := x^n$ ,則 1. $f_n \not \to f$ uniformly 2. $f_n \to f$ almost uniformly Proof 1.: 首先注意到 $$ \lim_n f_n(x) := f(x) =  \begin{cases}       0 & x \in [0,1) \\       1 & x = 1    \end{cases} $$ 觀察 $$ \sup_{x \in [0,1]} |f_n(x) - f(x)| = 1 \not\to 0 $$故 $f_n \not\to f$ uniformly。$\square$ Proof 2:  令 $\varepsilon \in (0,1)$ 取 $E_\varepsilon :=(1-\varepsilon/2, 1]$ 則 $\mu(E_\varepsilon) = \varepsilon/2 < \varepsilon$ 且對任意 $x \in [0,1] \setminus E_\varepsilon$ 而言, \begin{align*} \sup_{x \in [0,1]\setminus E_\varepsilon} |f_n(x) - f(x)| &=  \sup_{x \in [0, 1-\varepsilon/2]}|x^n-0|\\ &=(1-\var