跳到主要內容

[機率論] 淺論 弱大數法則

以下我們討論一些關於 弱大數法則(Weak Law of Large Numbers, WLLN) 的結果,首先介紹 一組隨機變數 數列 的 機率收斂  (Convergence in Probability)

=============================
Definition: Convergence in Probability
令 $Y_n$ 為一組隨機變數 sequence,我們說 $Y_n$ converges to $Y$ in probability 若下列條件成立:對任意 $\varepsilon >0$
\[
P(|Y_n - Y| > \varepsilon) \rightarrow 0 \;\; \text{ as  $n \rightarrow \infty$}
\]=============================

Comments:
1. 上述定義等價為
\[
P(|Y_n - Y| \leq \varepsilon) \rightarrow 1 \;\; \text{ as  $n \rightarrow \infty$}
\]
2. 上述定義中 $Y_n \to^P Y$ 的 $Y$ 可為隨機變數或者為常數。
3. 機率收斂在 機率論與隨機過程,以及 統計理論中 扮演重要角色,比如機率收斂在統計中等價稱為 consistent estimator,在此不做贅述。




==============================
Definition: Uncorrelated Random Variables
接著再回憶我們說一組隨機變數 $X_i, \; i \in \mathbb{N}$ 且 $E [X_i^2] <\infty$ 為 uncorrelated 若下列條件成立:當 $i \neq j$
\[
E[X_i X_j] = E[X_i] E[X_j]
\]============================

現在我們看個 uncorrelated 隨機變數的結果

=============================
Theorem:
令 $X_1, X_2,...X_n$ 為 uncorrelated 且 $E[X_i^2] < \infty$ 則
\[
var(X_1 + ... + X_n ) = var(X_1) + ... + var(X_n)
\]其中 $var(X)$ 為 variance of $X$。
=============================

Proof: omitted.


=============================
Lemma:
若 $p >0$ 且 $E[|X_n|^p] \rightarrow 0$ 則 $X_n \rightarrow 0$ in probability。
=============================

Proof:
要證明 $X_n \rightarrow 0$ in probability,亦即
\[P(|{X_n} - 0| > \varepsilon ) \to 0
\]首先觀察下列事件等價
\[\begin{array}{l}
\left\{ {|{X_n}| > \varepsilon } \right\} = \left\{ {|{X_n}{|^p} > {\varepsilon ^p}} \right\}\\
 \Rightarrow P\left\{ {|{X_n}| > \varepsilon } \right\} = P\left\{ {|{X_n}{|^p} > {\varepsilon ^p}} \right\}
\end{array}
\]由 Markov inequality 可知
\[P\left\{ {|{X_n}| > \varepsilon } \right\} = P\left\{ {|{X_n}{|^p} > {\varepsilon ^p}} \right\} \le \frac{{E\left[ {|{X_n}{|^p}} \right]}}{{{\varepsilon ^p}}}
\]由於 $E[|X_n|^p] \rightarrow 0$ ,且 $\varepsilon^p $ 為定值,故
\[P\left\{ {|{X_n}| > \varepsilon } \right\} \le \frac{{E\left[ {|{X_n}{|^p}} \right]}}{{{\varepsilon ^p}}} \to {\rm{0}}\]


=============================
Theorem: $L^2$ Weak Law
令 $X_1, ..., X_n$ 為 uncorrelated 隨機變數 且 $E[X_i] = \mu$,$var(X_i) \le C < \infty$。現在定義隨機變數的和 $S_n := X_1 + X_2 + ... + X_n$ 則
\[
S_n/n \rightarrow \mu \text{  in Probability as  $n \rightarrow \infty$}
\]=============================

Proof
要證明 給定 $\varepsilon>0$ 當 $n \rightarrow \infty$
\[P\left( {\left| {\frac{{{S_n}}}{n} - \mu } \right| > \varepsilon } \right) \to 0 \ \ \ \ (*)
\]不過如前一個定理所述,若我們可以證明 $E\left[ {{{\left| {\frac{{{S_n}}}{n} - \mu } \right|}^2}} \right] \to 0$ 則 $(*)$ 自動滿足。

首先觀察
\[E\left[ {\frac{{{S_n}}}{n}} \right] = \frac{1}{n}E\left[ {{S_n}} \right] = \frac{1}{n}\sum\limits_{i = 1}^n {E{X_i}}  = \frac{\mu }{n}n = \mu \]則
\[\begin{array}{l}
E\left[ {{{\left| {\frac{{{S_n}}}{n} - \mu } \right|}^2}} \right] = E\left[ {{{\left| {\frac{{{S_n}}}{n} - E\left[ {\frac{{{S_n}}}{n}} \right]} \right|}^2}} \right]\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} = var\left( {\frac{{{S_n}}}{n}} \right) = \frac{1}{{{n^2}}}var\left( {{S_n}} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} = \frac{1}{{{n^2}}}var\left( {\sum\limits_{i = 1}^n {{X_i}} } \right)
\end{array}\]由於 $X_1, ..., X_n$ 為 uncorrelated 隨機變數,故我們有 $var\left( {\sum\limits_{i = 1}^n {{X_i}} } \right) = \sum\limits_{i = 1}^n {var\left( {{X_i}} \right)} $ 將此結果帶入上式可得
\[\begin{array}{l}
E\left[ {{{\left| {\frac{{{S_n}}}{n} - \mu } \right|}^2}} \right] = \frac{1}{{{n^2}}}var\left( {\sum\limits_{i = 1}^n {{X_i}} } \right) = \frac{1}{{{n^2}}}\sum\limits_{i = 1}^n {var\left( {{X_i}} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le \frac{1}{{{n^2}}}Cn = \frac{1}{n}C \to 0
\end{array}\]當 $n \rightarrow \infty$ 故 $L^2$-convergence。又 $L^2$ convergence 保證 convergence in Probability,故
\[P\left( {\left| {\frac{{{S_n}}}{n} - \mu } \right| > \varepsilon } \right) \to 0 \ \ \ \ \square
\]

現在問題變成若我們想要拓展上述的 Weak law (e.g., 拔除 finite 2nd moment 條件 ),則我們必須引入一些新的定義如下:

============================
Definition: Tail Equivalence of Two Sequences of Random Variables
我們說兩隨機變數的 sequences $\{X_n\}$ 與 $\{Y_n \}$ 為 Tail Equivalent 若下列條件成立
\[
\sum_n P(X_n \neq Y_n) < \infty
\]===========================

============================
Definition: Truncation Function
定義以下剪切函數(truncation function)
\[X{1_{\left| X \right| \le M}} := \left\{ \begin{array}{l}
X,\begin{array}{*{20}{c}}
{}&{}
\end{array}\left| X \right| \le M\\
0,\begin{array}{*{20}{c}}
{}&{}
\end{array}\left| X \right| > M
\end{array} \right.\]============================


首先看幾個結果
FACT 1: 若 $Y \ge 0$ 且 $p >0$ 則
\[
E[Y^p] = \int_0^\infty p y^{p-1} P(Y>y)dy
\]Proof: 首先觀察積分
\[\begin{array}{l}
\int_0^\infty  p {y^{p - 1}}P(Y > y)dy = \int_0^\infty  p {y^{p - 1}}\int_\Omega ^{} {{1_{Y > y}}dP} dy\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty  {\int_\Omega ^{} {{1_{Y > y}}} p} {y^{p - 1}}dPdy\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \int_\Omega ^{} {\int_0^\infty  {{1_{Y > y}}} p{y^{p - 1}}dydP} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \int_\Omega ^{} {\int_0^Y {p{y^{p - 1}}} dydP}
\end{array}\] 因為 $ \int_0^Y {p{y^{p - 1}}} dy = {Y^p}$ 故代入上式可得
\[ \Rightarrow \int_0^\infty  p {y^{p - 1}}P(Y > y)dy = \int_\Omega ^{} {\int_0^Y {p{y^{p - 1}}} dydP = } \int_\Omega ^{} {{Y^p}dP = } E[{Y^p}] \ \ \ \ \square
\]


現在我們可以介紹 General Weak Law of Large Number:

=============================
Theorem: Weak Law of Large Number
令 $X_1, X_2, ... $ 為 i.i.d. 隨機變數 且 $S_n := X_1 + X_2 + ... + X_n$。若
(1) $\sum_{j=1}^n P(|X_j > n|) \rightarrow 0$
(2) $\frac{1}{n^2} \sum_{j=1}^n E[ X_j^2 1_{|X_j \le n|}] \rightarrow 0$

\[
S_n / n - \mu_n \rightarrow 0 \text{  in Probability}
\] 其中 $a_n := \sum_{j=1}^{n}E [X_j 1 _{|X_j| \le n}]$
=============================

Comments
在證明之前有幾點值得注意,上述 Weak Law of Large Number 並無對 $E[X_i^2]$ 有做假設

Proof
首先定義 $X_{nj}' := X_j 1_{|X_j| \le n}$ 且 $S_n' := \sum_{j=1}^n X_{nj}'$ 則觀察 Tail parts
\[\sum\limits_{j = 1}^n {P\left( {{X_{nj}}' \ne {X_j}} \right)}  = \sum\limits_{j = 1}^n {P\left( {\left| {{X_j}} \right| > n} \right) \to 0}
\]上述收斂成立由 Hypothesis $(1)$。接著我們觀察
\[\begin{array}{l}
P\left( {\left| {{S_n} - {S_n}'} \right| > \varepsilon } \right) \le P\left( {{S_n} \ne {S_n}'} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le P\left( {\bigcup\limits_{j = 1}^n {\left\{ {{X_{nj}}' \ne {X_j}} \right\}} } \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le \sum\limits_{j = 1}^n {P\left( {{X_{nj}}' \ne {X_j}} \right)}  = \sum\limits_{j = 1}^n {P\left( {\left| {{X_j}} \right| > n} \right) \to 0}
\end{array}\]故可知
\[
S_n - S_n' \rightarrow 0 \text{  in Probability }
\]
現在觀察
\[\begin{array}{l}
P\left( {\frac{{\left| {{S_n}' - E{S_n}'} \right|}}{n} > \varepsilon } \right) \le \frac{{E\left[ {{{\left| {{S_n}' - E{S_n}'} \right|}^2}} \right]}}{{{n^2}{\varepsilon ^2}}} = \frac{{{\mathop{\rm var}} \left( {{S_n}'} \right)}}{{{n^2}{\varepsilon ^2}}}\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array}{\rm{ = }}\frac{{{\mathop{\rm var}} \left( {{S_n}'} \right)}}{{{n^2}{\varepsilon ^2}}}{\rm{ = }}\frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {{\mathop{\rm var}} \left( {{X_{nj}}'} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array} \le \frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {E\left[ {{{\left( {{X_{nj}}'} \right)}^2}} \right]} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {E\left[ {{{\left( {{X_j}{1_{\left\{ {\left| {{X_j}} \right| \le n} \right\}}}} \right)}^2}} \right]} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}&{}
\end{array} = \frac{1}{{{n^2}{\varepsilon ^2}}}\sum\limits_{j = 1}^n {E\left[ {{X_j}^2{1_{\left\{ {\left| {{X_j}} \right| \le n} \right\}}}} \right]}  \to 0 \ \ \ \ (**)
\end{array}\]上式收斂結果來自 Hypothesis (2)。

注意到\[{a_n}: = \sum\limits_{j = 1}^n E [{X_j}{1_{|{X_j}| \le n}}] = E\left[ {\sum\limits_{j = 1}^n {{X_j}{1_{|{X_j}| \le n}}} } \right] = E\left[ {{S_n}'} \right]\]故由 $(**)$ 可知
\[\frac{{{S_n}' - {a_n}}}{n}\mathop  \to \limits^P 0\]故現在觀察
\[\frac{{{S_n} - {a_n}}}{n} = \frac{{{S_n} - {S_n}' + {S_n}' - {a_n}}}{n} = \frac{{{S_n} - {S_n}'}}{n} + \frac{{{S_n}' - {a_n}}}{n}\mathop  \to \limits^P 0\]

留言

這個網誌中的熱門文章

[數學分析] 淺談各種基本範數 (Norm)

這次要介紹的是數學上一個重要的概念:

Norm:一般翻譯成範數
(在英語中 norm 有規範的意思,比如我們說normalization就是把某種東西/物品/事件 做 正規化,也就是加上規範使其正常化),不過個人認為其實翻譯成 範數 也是看不懂的...這邊建議把 Norm 想成長度就好 (事實上norm是長度的抽象推廣),

也許讀者會認為好端端的長度不用,為何又要發明一個 norm 來自討苦吃?? 既抽象又艱澀。

事實上想法是這樣的:
比如說現在想要比較兩個數字 $3$ , $5$ 之間的大小,則我們可以馬上知道 $ 3 < 5 $;同樣的,如果再考慮小數與無理數如 $1.8753$ 與 $\pi$,我們仍然可以比較大小 $1.8753 < \pi = 3.1415...$ 故可以發現我們有辦法對 "純量" 做明確的比大小,WHY? 因為前述例子中 $3$, $5$, $1.8753$ or $\pi$ 其各自的大小有辦法被 "measure "!

但是如果是現在考慮的是一組數字 我們如何去measure 其大小呢?? 比如說
\[x:=[1, -2, 0.1, 0 ]^T
\]上式的大小該是多少? 是 $1$? $-2$? $0.1$???
再者如果更過分一點,我們考慮一個矩陣
\[A = \left[ {\begin{array}{*{20}{c}}
1&2\\
3&4
\end{array}} \right]
\],想要知道這個矩陣的大小又該怎麼辦?? 是 $1$ ? $2$ 還是 $4$ ?..其實現階段我們說不清楚。

也正是如此,可以發現我們確實需要新的 "長度" 的定義來幫助我們如何去 measure 矩陣/向量/甚至是函數的大小。

故此,我們首先定義甚麼是Norm,(也就是把 "長度" or "大小" 的本質抽離出來)

==================
Definition: Norm
考慮 $V$ 為一個向量空間(Vector space),則我們說  Norm 為一個函數 $||\cdot|| : V \rightarrow \mathbb{R}$ 且滿足下列性質:

(a) $||v|| \geq 0$, $||v||=…

[數學分析] 什麼是若且唯若 "if and only if"

數學上的 if and only if
 (此文不討論邏輯學中的 if and only if,只討論數學上的 if and only if。)

中文翻譯叫做 若且唯若 (or 當且僅當),記得當初剛接觸這個詞彙的時候,我是完全不明白到底是甚麼意思,查了翻譯也是愛莫能助,畢竟有翻跟沒翻一樣,都是有看沒有懂。

在數學上如果看到 if and only if  這類的句子,其實是表示一種雙條件句,通常可以直接將其視為"定義(Definition)"待之,今天要分享的是這樣的一個句子如何用比較直觀的方法去看他

假設我們現在有 兩個邏輯陳述句 A 與  B.
注意到,在此我們不必考慮這兩個陳述句到底是什麼,想表達什麼,或者到底是否為真(true),這些都不重要。只要知道是兩個陳述即可。

現在,考慮新的陳述:  "A if and only if B"
好了,現在主角登場,我們可以怎麼看待這個句子呢?
事實上我們可以很直覺的把這句子拆成兩部分看待,也就是
"( A if B ) and ( A only if B )"

那麼先針對第一個部分 A if B 來看,
其實這句就是說 if B then A,
更直白一點就是 "if B is true, then A is also true". 
在數學上等價可以寫為 "B implies A". 
或者更常用一個箭頭符號來表示 "B $\Rightarrow$  A" 

現在針對第二個部分 A only if B
此句意指 "If B is not true, then A is also not true".
所以如果已知 A is true, 那麼按照上句不難推得 B is also true
也就是說 A only if B 等價為 "If A is true then B is also true".
同樣,也可以寫作"A implies B"
或者用箭頭表示 "A $\Rightarrow$  B".

所以現在總結如下,下列七個 if and only if 陳述完全等價:

"A if and only if B" "A iff…