跳到主要內容

[機率論] 淺論 弱大數法則

以下我們討論一些關於 弱大數法則(Weak Law of Large Numbers, WLLN) 的結果,首先介紹 一組隨機變數 數列 的 機率收斂  (Convergence in Probability)

=============================
Definition: Convergence in Probability
令 $Y_n$ 為一組隨機變數 sequence,我們說 $Y_n$ converges to $Y$ in probability 若下列條件成立:對任意 $\varepsilon >0$
\[
P(|Y_n - Y| > \varepsilon) \rightarrow 0 \;\; \text{ as  $n \rightarrow \infty$}
\]=============================

Comments:
1. 上述定義等價為
\[
P(|Y_n - Y| \leq \varepsilon) \rightarrow 1 \;\; \text{ as  $n \rightarrow \infty$}
\]
2. 上述定義中 $Y_n \to^P Y$ 的 $Y$ 可為隨機變數或者為常數。
3. 機率收斂在 機率論與隨機過程,以及 統計理論中 扮演重要角色,比如機率收斂在統計中等價稱為 consistent estimator,在此不做贅述。




==============================
Definition: Uncorrelated Random Variables
接著再回憶我們說一組隨機變數 $X_i, \; i \in \mathbb{N}$ 且 $E [X_i^2] <\infty$ 為 uncorrelated 若下列條件成立:當 $i \neq j$
\[
E[X_i X_j] = E[X_i] E[X_j]
\]============================

現在我們看個 uncorrelated 隨機變數的結果

=============================
Theorem:
令 $X_1, X_2,...X_n$ 為 uncorrelated 且 $E[X_i^2] < \infty$ 則
\[
var(X_1 + ... + X_n ) = var(X_1) + ... + var(X_n)
\]其中 $var(X)$ 為 variance of $X$。
=============================

Proof: omitted.


=============================
Lemma:
若 $p >0$ 且 $E[|X_n|^p] \rightarrow 0$ 則 $X_n \rightarrow 0$ in probability。
=============================

Proof:
要證明 $X_n \rightarrow 0$ in probability,亦即
\[P(|{X_n} - 0| > \varepsilon ) \to 0
\]首先觀察下列事件等價
\[\begin{array}{l}
\left\{ {|{X_n}| > \varepsilon } \right\} = \left\{ {|{X_n}{|^p} > {\varepsilon ^p}} \right\}\\
 \Rightarrow P\left\{ {|{X_n}| > \varepsilon } \right\} = P\left\{ {|{X_n}{|^p} > {\varepsilon ^p}} \right\}
\end{array}
\]由 Markov inequality 可知
\[P\left\{ {|{X_n}| > \varepsilon } \right\} = P\left\{ {|{X_n}{|^p} > {\varepsilon ^p}} \right\} \le \frac{{E\left[ {|{X_n}{|^p}} \right]}}{{{\varepsilon ^p}}}
\]由於 $E[|X_n|^p] \rightarrow 0$ ,且 $\varepsilon^p $ 為定值,故
\[P\left\{ {|{X_n}| > \varepsilon } \right\} \le \frac{{E\left[ {|{X_n}{|^p}} \right]}}{{{\varepsilon ^p}}} \to {\rm{0}}\]


=============================
Theorem: $L^2$ Weak Law
令 $X_1, ..., X_n$ 為 uncorrelated 隨機變數 且 $E[X_i] = \mu$,$var(X_i) \le C < \infty$。現在定義隨機變數的和 $S_n := X_1 + X_2 + ... + X_n$ 則
\[
S_n/n \rightarrow \mu \text{  in Probability as  $n \rightarrow \infty$}
\]=============================

Proof
要證明 給定 $\varepsilon>0$ 當 $n \rightarrow \infty$
\[P\left( {\left| {\frac{{{S_n}}}{n} - \mu } \right| > \varepsilon } \right) \to 0 \ \ \ \ (*)
\]不過如前一個定理所述,若我們可以證明 $E\left[ {{{\left| {\frac{{{S_n}}}{n} - \mu } \right|}^2}} \right] \to 0$ 則 $(*)$ 自動滿足。

首先觀察
\[E\left[ {\frac{{{S_n}}}{n}} \right] = \frac{1}{n}E\left[ {{S_n}} \right] = \frac{1}{n}\sum\limits_{i = 1}^n {E{X_i}}  = \frac{\mu }{n}n = \mu \]則
\[\begin{array}{l}
E\left[ {{{\left| {\frac{{{S_n}}}{n} - \mu } \right|}^2}} \right] = E\left[ {{{\left| {\frac{{{S_n}}}{n} - E\left[ {\frac{{{S_n}}}{n}} \right]} \right|}^2}} \right]\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} = var\left( {\frac{{{S_n}}}{n}} \right) = \frac{1}{{{n^2}}}var\left( {{S_n}} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} = \frac{1}{{{n^2}}}var\left( {\sum\limits_{i = 1}^n {{X_i}} } \right)
\end{array}\]由於 $X_1, ..., X_n$ 為 uncorrelated 隨機變數,故我們有 $var\left( {\sum\limits_{i = 1}^n {{X_i}} } \right) = \sum\limits_{i = 1}^n {var\left( {{X_i}} \right)} $ 將此結果帶入上式可得
\[\begin{array}{l}
E\left[ {{{\left| {\frac{{{S_n}}}{n} - \mu } \right|}^2}} \right] = \frac{1}{{{n^2}}}var\left( {\sum\limits_{i = 1}^n {{X_i}} } \right) = \frac{1}{{{n^2}}}\sum\limits_{i = 1}^n {var\left( {{X_i}} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le \frac{1}{{{n^2}}}Cn = \frac{1}{n}C \to 0
\end{array}\]當 $n \rightarrow \infty$ 故 $L^2$-convergence。又 $L^2$ convergence 保證 convergence in Probability,故
\[P\left( {\left| {\frac{{{S_n}}}{n} - \mu } \right| > \varepsilon } \right) \to 0 \ \ \ \ \square
\]

現在問題變成若我們想要拓展上述的 Weak law (e.g., 拔除 finite 2nd moment 條件 ),則我們必須引入一些新的定義如下:

============================
Definition: Tail Equivalence of Two Sequences of Random Variables
我們說兩隨機變數的 sequences $\{X_n\}$ 與 $\{Y_n \}$ 為 Tail Equivalent 若下列條件成立
\[
\sum_n P(X_n \neq Y_n) < \infty
\]===========================

============================
Definition: Truncation Function
定義以下剪切函數(truncation function)
\[X{1_{\left| X \right| \le M}} := \left\{ \begin{array}{l}
X,\begin{array}{*{20}{c}}
{}&{}
\end{array}\left| X \right| \le M\\
0,\begin{array}{*{20}{c}}
{}&{}
\end{array}\left| X \right| > M
\end{array} \right.\]============================


首先看幾個結果
FACT 1: 若 $Y \ge 0$ 且 $p >0$ 則
\[
E[Y^p] = \int_0^\infty p y^{p-1} P(Y>y)dy
\]Proof: 首先觀察積分
\[\begin{array}{l}
\int_0^\infty  p {y^{p - 1}}P(Y > y)dy = \int_0^\infty  p {y^{p - 1}}\int_\Omega ^{} {{1_{Y > y}}dP} dy\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty  {\int_\Omega ^{} {{1_{Y > y}}} p} {y^{p - 1}}dPdy\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \int_\Omega ^{} {\int_0^\infty  {{1_{Y > y}}} p{y^{p - 1}}dydP} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \int_\Omega ^{} {\int_0^Y {p{y^{p - 1}}} dydP}
\end{array}\] 因為 $ \int_0^Y {p{y^{p - 1}}} dy = {Y^p}$ 故代入上式可得
\[ \Rightarrow \int_0^\infty  p {y^{p - 1}}P(Y > y)dy = \int_\Omega ^{} {\int_0^Y {p{y^{p - 1}}} dydP = } \int_\Omega ^{} {{Y^p}dP = } E[{Y^p}] \ \ \ \ \square
\]


現在我們可以介紹 General Weak Law of Large Number:

=============================
Theorem: Weak Law of Large Number
令 $X_1, X_2, ... $ 為 i.i.d. 隨機變數 且 $S_n := X_1 + X_2 + ... + X_n$。若
(1) $\sum_{j=1}^n P(|X_j > n|) \rightarrow 0$
(2) $\frac{1}{n^2} \sum_{j=1}^n E[ X_j^2 1_{|X_j \le n|}] \rightarrow 0$

\[
S_n / n - \mu_n \rightarrow 0 \text{  in Probability}
\] 其中 $a_n := \sum_{j=1}^{n}E [X_j 1 _{|X_j| \le n}]$
=============================

Comments
在證明之前有幾點值得注意,上述 Weak Law of Large Number 並無對 $E[X_i^2]$ 有做假設

Proof
首先定義 $X_{nj}' := X_j 1_{|X_j| \le n}$ 且 $S_n' := \sum_{j=1}^n X_{nj}'$ 則觀察 Tail parts
\[\sum\limits_{j = 1}^n {P\left( {{X_{nj}}' \ne {X_j}} \right)}  = \sum\limits_{j = 1}^n {P\left( {\left| {{X_j}} \right| > n} \right) \to 0}
\]上述收斂成立由 Hypothesis $(1)$。接著我們觀察
\[\begin{array}{l}
P\left( {\left| {{S_n} - {S_n}'} \right| > \varepsilon } \right) \le P\left( {{S_n} \ne {S_n}'} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le P\left( {\bigcup\limits_{j = 1}^n {\left\{ {{X_{nj}}' \ne {X_j}} \right\}} } \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le \sum\limits_{j = 1}^n {P\left( {{X_{nj}}' \ne {X_j}} \right)}  = \sum\limits_{j = 1}^n {P\left( {\left| {{X_j}} \right| > n} \right) \to 0}
\end{array}\]故可知
\[
S_n - S_n' \rightarrow 0 \text{  in Probability }
\]
現在觀察
\[\begin{array}{l}
P\left( {\frac{{\left| {{S_n}' - E{S_n}'} \right|}}{n} > \varepsilon } \right) \le \frac{{E\left[ {{{\left| {{S_n}' - E{S_n}'} \right|}^2}} \right]}}{{{n^2}{\varepsilon ^2}}} = \frac{{{\mathop{\rm var}} \left( {{S_n}'} \right)}}{{{n^2}{\varepsilon ^2}}}\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array}{\rm{ = }}\frac{{{\mathop{\rm var}} \left( {{S_n}'} \right)}}{{{n^2}{\varepsilon ^2}}}{\rm{ = }}\frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {{\mathop{\rm var}} \left( {{X_{nj}}'} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array} \le \frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {E\left[ {{{\left( {{X_{nj}}'} \right)}^2}} \right]} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {E\left[ {{{\left( {{X_j}{1_{\left\{ {\left| {{X_j}} \right| \le n} \right\}}}} \right)}^2}} \right]} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {E\left[ {{X_j}^2{1_{\left\{ {\left| {{X_j}} \right| \le n} \right\}}}} \right]}  \to 0 \ \ \ \ (**)
\end{array}\]上式收斂結果來自 Hypothesis (2)。

注意到\[{a_n}: = \sum\limits_{j = 1}^n E [{X_j}{1_{|{X_j}| \le n}}] = E\left[ {\sum\limits_{j = 1}^n {{X_j}{1_{|{X_j}| \le n}}} } \right] = E\left[ {{S_n}'} \right]\]故由 $(**)$ 可知
\[\frac{{{S_n}' - {a_n}}}{n}\mathop  \to \limits^P 0\]故現在觀察
\[\frac{{{S_n} - {a_n}}}{n} = \frac{{{S_n} - {S_n}' + {S_n}' - {a_n}}}{n} = \frac{{{S_n} - {S_n}'}}{n} + \frac{{{S_n}' - {a_n}}}{n}\mathop  \to \limits^P 0\]

留言

這個網誌中的熱門文章

[分享] 台灣國內免費開放式課程推薦

近幾年由MIT開啟的開放式課程風潮 (MIT-OCW),可以說是讓國內外各大學都開始思考未來教育方式與開放式課程的之間的連結。也使得許多大型開放式課程(Massive open online course, Mooc)聯盟建立起各自的一片天地,比如個人最為推薦的 CourseraedX (目前世界最具規模的跨校大型開放式課程,由全球各個頂尖大學提供線上課程供學生免費學習的網路平台,具備線上評分/繳交作業/考試/表現完整可以得到修業證書的系統)。

不過慶幸的是,其實台灣也提供了非常多相當相當棒的開放式課程(OCW/Mooc),可以讓大家自由而且免費的線上學習,除了免除了語言上的隔閡,也讓以往沒有機會好好學習的人 (ex: 我),有機會透過網路重拾書本,進入大學殿堂再次充電。在這邊跟大家介紹幾個,我個人常去瀏覽的國內開放式課程,
交大開放式課程 (理/工/電資學院課程豐富完整,且有豐富的產/官/學/界各領域人士演講)台大開放式課程 (大量通識類/文史哲課程)清大開放式課程 (自然科學/工程科學課程豐富)台灣開放式課程聯盟 (統合各校開放式課程的總站)ewant 育網開放教育平台 (台灣/大陸交大與台灣其他學校合開課程)台灣均一教育平台 (參考國外可汗學院 (Khan Academy) 設計的互動學習網站,有許多豐富的國小/國中高中/的數理科課程:尤其以數學最為完整。)
另外在此推薦自己上過的幾門課程,因為個人是理工背景,推薦的課程多偏向理工科,但也有相當多文史哲課程都非常豐富且有趣,老師們也都教得很棒,收穫很多,在此分享給大家

==============
數理類 大學部課程:

微積分 
交大OCW: 微積分 I, II - 莊重 教授 清大OCW: 微積分 I, II - 高淑蓉 教授 (高老師的微積分風格嚴謹,整體課程頗有高微的味道,個人非常欣賞)清大OCW: 高等微積分 I - 高淑蓉 教授 ewant :  微積分 - 政大 蔡炎龍 教授 (適合微積分初學者,課程採用 互動數學軟體 Geogebra )台大OCW: 高等微積分 - 陳金次 教授台大OCW: 微積分I ,II  - 齊震宇 教授 ( 適合主修數學的學生,適合微積分初學者)台大OCW: 分析 I, II - 齊震宇 教授線性代數 交大OCW: 線性代數 I, II -莊重 教授
(莊老師講授非常清楚,…

[數學分析] 淺談各種基本範數 (Norm)

這次要介紹的是數學上一個重要的概念:

Norm:一般翻譯成範數
(在英語中 norm 有規範的意思,比如我們說normalization就是把某種東西/物品/事件 做 正規化,也就是加上規範使其正常化),不過個人認為其實翻譯成 範數 也是看不懂的...這邊建議把 Norm 想成長度就好 (事實上norm是長度的抽象推廣),

也許讀者會認為好端端的長度不用,為何又要發明一個 norm 來自討苦吃?? 既抽象又艱澀。

事實上想法是這樣的:
比如說現在想要比較兩個數字 $3$ , $5$ 之間的大小,則我們可以馬上知道 $ 3 < 5 $;同樣的,如果再考慮小數與無理數如 $1.8753$ 與 $\pi$,我們仍然可以比較大小 $1.8753 < \pi = 3.1415...$ 故可以發現我們有辦法對 "純量" 做明確的比大小,WHY? 因為前述例子中 $3$, $5$, $1.8753$ or $\pi$ 其各自的大小有辦法被 "measure "!

但是如果是現在考慮的是一組數字 我們如何去measure 其大小呢?? 比如說
\[x:=[1, -2, 0.1, 0 ]^T
\]上式的大小該是多少? 是 $1$? $-2$? $0.1$???
再者如果更過分一點,我們考慮一個矩陣
\[A = \left[ {\begin{array}{*{20}{c}}
1&2\\
3&4
\end{array}} \right]
\],想要知道這個矩陣的大小又該怎麼辦?? 是 $1$ ? $2$ 還是 $4$ ?..其實現階段我們說不清楚。

也正是如此,可以發現我們確實需要新的 "長度" 的定義來幫助我們如何去 measure 矩陣/向量/甚至是函數的大小。

故此,我們首先定義甚麼是Norm,(也就是把 "長度" or "大小" 的本質抽離出來)

==================
Definition: Norm
考慮 $V$ 為一個向量空間(Vector space),則我們說  Norm 為一個函數 $||\cdot|| : V \rightarrow \mathbb{R}$ 且滿足下列性質:

(a) $||v|| \geq 0$, $||v||=…