跳到主要內容

[機率論] 期望值 與 Lebesgue 積分

這次要介紹機率論中一個重要的概念:期望值 (Expectation),本質上期望值被視為一個 Lebesgue 積分。更進一步地說就是在較抽象的高等機率論中, 期望值被定義為對某機率測度 (Probability measure, $P$ ) 的 Lebesgue 積分 。亦即 考慮機率空間為 $(\Omega, \mathcal{F}, P)$,則 $E[X]$ 具有如下形式:
\[
E[X] := \int_{\Omega} X d P  = \int_\Omega X(\omega) P(d\omega)
\]

我們由 Simple Function 出發 逐步建構 Lebesgue integral:

Step 1: Simple function 的期望值:

首先,我們定義 $X$ 為一個 simple function。亦即此函數可由 可測集合 (measurable sets $A_i$ ) 的 Indicator function 所組成。我們將其寫作是 Finite sum 如下:
\[
X = \displaystyle \sum_{i=1}^{n} c_i 1_{A_i}
\]其中 $c_i \in \mathbb{R}$, $A_i \in \mathcal{F}$ 且
\[{1_A}\left( x \right): = \left\{ \begin{array}{l}
1,\begin{array}{*{20}{c}}
{}
\end{array}if\begin{array}{*{20}{c}}
{}
\end{array}x \in A\\
0,\begin{array}{*{20}{c}}
{}
\end{array}if\begin{array}{*{20}{c}}
{}
\end{array}x \notin A
\end{array} \right.\]則我們定義 對此 Simple function $X$ 的期望值 (或稱對此 Simple function 的 Integral)為
\[
E[X] := \int X dP := \sum_{i=1}^n c_i P( \{A_i\} )
\]接著,我們定義對 非負隨機變數 的期望值:


Step 2: 非負隨機變數 的期望值:

對任意 非負隨機變數 $Y$ $(Y : \Omega \rightarrow [0,1])$,我們定義 $Y$ 的期望值為上述 simple function 的期望值的 supremum,亦即
\[
E[Y] := \sup \{E[X]: 0 \leq X \leq Y \ \text{with $X$ a simple function}  \}
\] 注意到 $E[X] := \int X dP := \sum_{i=1}^n c_i P(\{A_i\}) $


有了上述定義,我們可以拓展到一般的隨機變數:


Step 3: 一般隨機變數的期望值:

最後,對一般的 隨機變數的情況,該如何定義其期望值呢?

想法如下:
透過將 一般隨機變數 轉換為 上述 非負隨機變數,再用上述非負隨機變數所定義的期望值 即可。

故現在考慮 $Y$ 為任意隨機變數,我們引入兩個 新的非負隨機變數 $Y^+, Y^- \geq 0$ (此法類似線性規劃中,將最佳化問題改寫成標準型式所加入的 slack variable: 有興趣的讀者請參考: [最佳化] 淺談線性規劃(0)- Standard form of Linear Programming ):
\[
Y^+ := Y \cdot 1_{ \{ Y \geq 0 \} }\\
Y^- := -Y \cdot 1_{ \{ Y \leq 0 \}}
\]那麼現在觀察上述 新引入的隨機變數,我們可知其與原本任意隨機變數有如下關係:
\[
Y=Y^+ - Y^-
\]且上述新的隨機變數 (由於 $Y^+, Y^- \geq 0$),故其期望值可由先前所定義的 非負隨機變數期望值定義而得,故 $E[Y^+], E[Y^-]$ 為 well-defined。有了這些結果我們可以定義對一般隨機變數 $Y$ 的期望值為:
\[
E[Y] := E[Y^+] - E[Y^-] \ \ \ \ (*)
\]上式為 well-defined 若 $E[Y^+], E[Y^-]$ 並非全為 $\infty$ (亦即只要不要發生 $\infty - \infty$ 的情況,則上述定法的期望值 $E[Y]$ 都是 well-defined。 )

Comment:
1. 上式 $(*)$ 與下列積分等價:
\[
\int Y dP := \int Y^+ dP - \int Y^- dP
\]
2. 若 $E|X| = E[X^+] + E[X^-] < \infty$ 則我們稱 $X$ 有 finite expectation,(因為 $E[X^+] < \infty$ 且 $E[X^-] < \infty$)。
3. 如果現在給定 $X$ 但想計算 $X$ 在某個子集上的期望值,也就是說我們現在不是取整個樣本空間 $\Omega$ 而是只有某個 $\mathcal{F}$ 中的集合 $A \in \mathcal{F}$ 則我們仍可求其期望值
\[
\int_A X dP = \int_\Omega X 1_A dP = E[X 1_A]
\]上式稱作 integral of $X$ with respect to $P$ over $A$。另外若此積分存在且有限,則我們稱 $X$ 為 integrable with respect to $P$ over $A$


注意到期望值 $E[X] = \int_\Omega X dP $ 仍不容易計算,因為樣本空間 $\Omega$ 可以內含各式各樣奇形怪狀的東西比如說 $\Omega:=\{apple, orange...\}$,此時計算 $E[X]$ 顯然會過於抽象。那麼我們想問什麼時候才可能比較容易計算 $E[X]$?答案是如果 能給出 $X$ 的 累積分佈函數 (Cumulative Distribution Function, CDF) , 記作 $F$, with respect to $P$,亦即 $F(x) := P(X \le x)$  則 $E[X]$ 可計算如下
\[
E[X] = \int_\Omega X dP = \int_{-\infty}^{\infty} x dF(x) \;\;\;\;\; (*)
\]讀者應注意到第二等式 內含的是 $x$ 不是 $X$,且 上式 $(*)$ 為 Riemann-Stigjies Integral。
若 $X$ 有機率密度函數 (Probability Density Function, f) with respect to $P$ 則回憶機率密度函數定義為 $dF(x)/dx = f(x)$ 故我們可以得到更容易計算的期望值如下
\[
E[X] = \int_{-\infty}^{\infty} x dF(x) = \int_{-\infty}^\infty x f(x) dx
\]但上式有一定限制,因為任意隨機變數必定存在 CDF 但不一定有 PDF (因為 CDF 不一定可微,故不一定有 PDF)

Comments: 
1. 若 $g$ 為 measurable 函數 on $\mathbb{R}$ 則我們亦可計算 $E[g(X)]$,亦即
\[
E[g(X)] = \int_\Omega g(X) dP = \int_{-\infty}^\infty g(x) dF(x) = \int_{-\infty}^\infty g(x) f(x)dx
\]
2. 若 $X$ 為離散隨機變數取值為 $x_1,...,x_n$ 且 具有 probability mass function, pmf with respect to $P$, 記作 $P(X = x_n) = p(x_n)$, 則
\[
E[X] = \sum_{n=1}^\infty x_n p(x_n)
\]

\[
E[g(X)] = \sum_{n=1}^\infty g(x_n) p(x_n)
\]

現在看幾個例子:
Example 1:
$\Omega :=\{1,2,3,4\}$ 且 $\mathcal{F} := \sigma ( \{1\}, \{2\}, \{3\}, \{4\})$ 且 令隨機變數 $X = i$ 其中 $i=1,2,3,4$ 且
\[
P(X=1)=1/2;\;\; P(X=2) = 1/4;\;\; P(X=3)=1/6;\;\; P(X=4)=1/12
\]現在令 $X:= 5 \cdot 1_{\{X=1\}} + 2 \cdot 1_{\{X=2\}} - 4 \cdot 1_{\{X=3 \text{ or } X=4\}}$。試求 $E[X]=?$
Solution:
\[\begin{array}{*{20}{l}}
\begin{array}{l}
E[X] = \int_\Omega  {XdP = \sum\limits_n^{} {{x_n}P\left( {X = {x_n}} \right)} } \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5\int_\Omega  {{1_{\left\{ {X = 1} \right\}}}dP}  + 2\int_\Omega  {{1_{\left\{ {X = 2} \right\}}}dP}  - 4\int_\Omega  {{1_{\left\{ {X = 3orX = 4} \right\}}}dP}
\end{array}\\
{\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5 \cdot P\left( {X = 1} \right) + 2 \cdot P\left( {X = 2} \right) - 4 \cdot \underbrace {P\left( {X = 3orX = 4} \right)}_{ = P\left( {\left\{ {X = 3} \right\} \cup \left\{ {X = 4} \right\}} \right) = P\left( {X = 3} \right) + P\left( {X = 4} \right)}}\\
{\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5\left( {\frac{1}{2}} \right) + 2\left( {\frac{1}{4}} \right) - 4\left( {\frac{1}{6} + \frac{1}{{12}}} \right) = 2}
\end{array}\]

Example 2:
同上題,試求 $E[X^2]=?$
Solution:
\[\begin{array}{l}
E[{X^2}] = \int_{ - \infty }^\infty  {{x^2}f\left( x \right)dx}  = \sum\limits_n^{} {{{\left( {{x_n}} \right)}^2}P\left( {X = {x_n}} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5P\left( {X = 1} \right) + 2P\left( {X = 2} \right) + 4P\left( {\left\{ {X = 3} \right\} \cup \left\{ {X = 4} \right\}} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 25\left( {\frac{1}{2}} \right) + 4\left( {\frac{1}{4}} \right) + 16\left( {\frac{1}{6} + \frac{1}{{12}}} \right) = \frac{{35}}{2}
\end{array}\]

Example 3:
假設 $X \sim \mathcal{N}(0,1)$ 亦即我們有 pdf
\[
f_X(x) = \frac{1}{ \sqrt{2 \pi}} \exp(-x^2/2)
\]試證 $E[X]=0$
Proof:
觀察 \[\begin{array}{l}
E[X] = \int_\Omega  {XdP}  = \int_{ - \infty }^\infty  {xdF\left( x \right)}  = \int_{ - \infty }^\infty  {xf\left( x \right)dx} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = \int_{ - \infty }^\infty  {x\frac{1}{{\sqrt {2\pi } }}\exp \left( { - {x^2}/2} \right)dx} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = \frac{1}{{\sqrt {2\pi } }}\int_{ - \infty }^\infty  {x{e^{\frac{{ - {x^2}}}{2}}}dx}
\end{array}\]現在令\[u = \frac{{{x^2}}}{2} \Rightarrow 2du = 2xdx\]則 $E[X] = 0$
上述積分有更快速的做法如下:因為 被積函數 $x exp(-x^2/2)$ 為奇函數,且積分範圍對原點對稱 $(-\infty, \infty)$ 故積分為零。此法同理可證 $E[X^3]=E[X^5]=E[X^{2k+1}] = 0$ $k\in \mathbb{N} $



Example 4:
令 $a>0$,設 $F$ 為在 $[0, 3a]$ 上的連續函數滿足
\[F\left( x \right): = \left\{ \begin{array}{l}
\pi ,\begin{array}{*{20}{c}}
{}&{}&{}&{}
\end{array}0 \le x < a\\
4 + a - x,\begin{array}{*{20}{c}}
{}&{}
\end{array}a \le x < 2a\\
{\left( {x - 2a} \right)^2},\begin{array}{*{20}{c}}
{}&{}
\end{array}x \ge 2a
\end{array} \right.
\]且在 $(0, 3a)$ 有一階導數連續 $F' = f$ 且 $f \in L^1(0,3a)$ 試計算 下列 Lebesgue-Stieltjes integral,
\[\int_{\left( {0,3a} \right]}^{} {xdF\left( x \right)}
\]

Solution
Lebesgue-Stieltjes integral 重點在於對於不連續處需給定其測度值。給定之後其餘部分如同一般微積分課程中採用的積分方法計算即可。故我們直接求解
\[\begin{array}{l}
\int_{\left( {0,3a} \right]}^{} {xdF\left( x \right)}  = \int_{\left( {0,a} \right]}^{} {xd\left( \pi  \right)}  + \int_{\left( {a,2a} \right]}^{} {xd\left( {4 + a - x} \right)}  + \int_{\left( {2a,3a} \right]}^{} {xd{{\left( {x - 2a} \right)}^2}} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} + {\left. {x\left( {F\left( x \right) - F\left( {x - } \right)} \right)} \right|_{x = a}} + {\left. {x\left( {F\left( x \right) - F\left( {x - } \right)} \right)} \right|_{x = 2a}}\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}
\end{array} = 0 - \int_{\left( {a,2a} \right]}^{} {xdx}  + 2\int_{\left( {2a,3a} \right]}^{} {x\left( {x - 2a} \right)dx}  + a\left( {4 - \pi } \right) + 2a\left( { - 4 + a} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}
\end{array} = \frac{{{a^2}}}{2} + \frac{{8{a^3}}}{3} - \left( {4 + \pi } \right)a \ \ \ \ \square
\end{array}\]


一些期望值性質我們將其記錄如下:令 令 $a,b \in \mathbb{R}$ 且 $X,Y$ 為隨機變數,回憶  $E[X \cdot 1_A] = \int_A X dP$ 則
Property (1): Absolutely Integrability
\[
\int_A XdP < \infty \Leftrightarrow \int_A |X| dP < \infty
\]
Property (2): Linearity
\[
\int_A (a X + bY)dP = a \int_A X dP + b \int_A Y dP
\]
Property (3): Countably Additivity over sets
若 $\{A_n\}$ disjoint set sequences 則
\[
\int_{\cup_n A_n} X dP = \sum_n \int_{A_n} X dP
\]
Property (4): Nonnegativity
若 $X \ge 0$ $P$-almost surely (記作 $P$-a.s.),則
\[
\int_A X dP \ge 0
\]其中 $P$-a.s. 表示 $P(X \ge 0) = 1$。

comments: 為何要在意 almost surely? 因為我們只關心測度非零的區域,測度為零的情況比如說 單點的測度為零我們並不關心。

Property (5): Monotonicity
若 $X_1 \le X \le X_2$ almost surely 則
\[
\int_A X_1 dP \le \int_A X dP \le \int_A X_2 dP
\]
Property (6): Modulus Inequality
\[
\left| \int_A X dP \right| \le \int_A |X| dP
\]


有了上述期望值的概念之後,我們可以看看如果我們取 limit 甚麼時候可以與 積分互換:也就是說 若現在 給定 一組隨機變數的數列 $\{X_n\}$ 我們想問
\[
\int_A \lim_{n \to \infty} X_n dP =?= \lim_{n \to \infty} \int_A X_n dP
\]回憶在高等微積分我們希望積分極限互換的情況的條件是需要 uniform convergence 但在機率論或者測度理論我們有以下三個極為重要的定理可以幫助我們在不需 uniform convergence 條件之下仍可達成積分與極限互換,此三個定理分別為 Dominated Convergence Theorem,Monotone Convergence Theorem、Fatou's Lemma
此三者為機率論 與積分理論的重要基石。分別紀錄如下:

考慮 $\{X_n\}$ 為任意隨機變數的 sequence。
=========================
Dominated Convergence Theorem (DCT)
若 $ P( \lim_{n \to \infty} X_n = X) =1$ 且對 $1 \leq n < \infty$,
\[
|X_n| \leq Y \text{ a.s. } \ \& \ E[Y] < \infty
\],則 $E[|X|]<\infty$ 且
\[
\lim_{n \rightarrow \infty} E[X_n] = E[\lim_{n \rightarrow \infty} X_n] = E[X]
\]========================

=========================
Monotone Convergence Theorem (MCT)
若 $ 0 \leq X_n \leq X_{n+1} (亦即為 Monotone Functions), \ \forall n \geq 1$ 且 $\lim_{n \rightarrow \infty} X_n = X$則
\[
\lim_{n \rightarrow \infty} E[X_n] = E[\lim_{n \rightarrow \infty} X_n] = E[X]
\]========================

=========================
Fatou's Lemma
若 $X_n \ge 0 \text{ a.s. } \ \forall n \geq 1$ 則
\[
E[\liminf_{n \rightarrow \infty} X_n] \leq \liminf_{n \rightarrow \infty} E[X_n]
\]========================

ref:
S. I. Resnick, A Probability Path, Birkhauser
J. M. Steele, Stochastic Calculus and Financial Applications, Springer
J. A. Gubner, Probability and Random Processes for Electrical and Computer Engineers, Cambridge.

留言

這個網誌中的熱門文章

[數學分析] 什麼是若且唯若 "if and only if"

數學上的 if and only if  ( 此文不討論邏輯學中的 if and only if,只討論數學上的 if and only if。) 中文翻譯叫做  若且唯若 (or 當且僅當) , 記得當初剛接觸這個詞彙的時候,我是完全不明白到底是甚麼意思,查了翻譯也是愛莫能助,畢竟有翻跟沒翻一樣,都是有看沒有懂。 在數學上如果看到 if and only if  這類的句子,其實是表示一種 雙條件句 ,通常可以直接將其視為" 定義(Definition)" 待之,今天要分享的是這樣的一個句子如何用比較直觀的方法去看他 假設我們現在有 兩個邏輯陳述句 A 與  B. 注意到,在此我們不必考慮這兩個陳述句到底是什麼,想表達什麼,或者到底是否為真(true),這些都不重要。只要知道是兩個陳述即可。 現在,考慮新的陳述:  "A if and only if B" 好了,現在主角登場,我們可以怎麼看待這個句子呢? 事實上我們可以很直覺的把這句子拆成兩部分看待,也就是 "( A if B ) and ( A only if B )" 那麼先針對第一個部分  A if B  來看, 其實這句就是說  if B then A, 更直白一點就是 "if B is true, then A is also true".  在數學上等價可以寫為 "B implies A" .  或者更常用一個箭頭符號來表示 "B $\Rightarrow$  A"  現在針對第二個部分  A only if B 此句意指  "If B is not true, then A is also not true". 所以如果已知 A is true,  那麼按照上句不難推得 B is also true 也就是說  A only if B  等價為 "If A is true then B is also true". 同樣,也可以寫作   "A implies B"   或者用箭頭表示  "A   $\Rightarrow$     B".

[數學分析] 淺談各種基本範數 (Norm)

這次要介紹的是數學上一個重要的概念: Norm: 一般翻譯成 範數 (在英語中 norm 有規範的意思,比如我們說normalization就是把某種東西/物品/事件 做 正規化,也就是加上規範使其正常化),不過個人認為其實翻譯成 範數 也是看不懂的...這邊建議把 Norm 想成長度就好 (事實上norm是長度的抽象推廣), 也許讀者會認為好端端的長度不用,為何又要發明一個 norm 來自討苦吃?? 既抽象又艱澀。 事實上想法是這樣的: 比如說現在想要比較兩個數字 $3$ , $5$ 之間的大小,則我們可以馬上知道 $ 3 < 5 $;同樣的,如果再考慮小數與無理數如 $1.8753$ 與 $\pi$,我們仍然可以比較大小 $1.8753 < \pi = 3.1415...$ 故可以發現我們有辦法對 "純量" 做明確的比大小,WHY? 因為前述例子中 $3$, $5$, $1.8753$ or $\pi$ 其各自的大小有辦法被 "measure "! 但是如果是現在考慮的是一組數字 我們如何去measure 其大小呢?? 比如說 \[x:=[1, -2, 0.1, 0 ]^T \]上式的大小該是多少? 是 $1$? $-2$? $0.1$??? 再者如果更過分一點,我們考慮一個矩陣 \[A = \left[ {\begin{array}{*{20}{c}} 1&2\\ 3&4 \end{array}} \right] \],想要知道這個矩陣的大小又該怎麼辦?? 是 $1$ ? $2$ 還是 $4$ ?..其實現階段我們說不清楚。 也正是如此,可以發現我們確實需要新的 "長度" 的定義來幫助我們如何去 measure 矩陣/向量/甚至是函數的大小。 故此,我們首先定義甚麼是Norm,(也就是把 "長度" or "大小" 的本質抽離出來) ================== Definition: Norm 考慮 $V$ 為一個向量空間(Vector space),則我們說  Norm 為一個函數 $||\cdot|| : V \rightarrow \mathbb{R}$ 且滿足下列性質