謝宗翰的隨筆 : Expectation

顯示具有 Expectation 標籤的文章。顯示所有文章

2/12/2021

[機率論] 一類含有supremum運算與期望值的不等式問題

令 $X,Y$ 為兩隨機變數定義在某機率空間 $(\Omega, \mathcal{B}, P)$ 且 $f: \mathbb{R}^2 \to \mathbb{R}$ 為一連續函數。若對 $X$ 的實現 $X=x$ 而言 (亦即，存在 $\omega \in \Omega$ 使得 $X(\omega) = x$ )，我們顯然有

$$\mathbb{E}[f(x,Y)] \leq \sup_x \mathbb{E}[f(x,Y)]$$

試問上述不等式左方若將 $x$ 換回隨機變數 $X$ 時仍然成立?亦即我們想問 $$\mathbb{E}[f(X,Y)] \leq ? \sup_x \mathbb{E}[f(x,Y)]$$

答案是否定的，我們看以下的反例：

Counterexample

考慮隨機變數 $X=Y$ 且 $P(X=1)=P(X=-1) = 1/2$ 且 $f(x,y) := xy$ 則我們可驗證 $$\mathbb{E}[f(X,Y)] = \mathbb{E}[X^2] = 1/2 + 1/2 = 1$$然而如果我們觀察 $$\mathbb{E}[f(1,Y)] = \mathbb{E}[Y] = \mathbb{E}[X] = 0$$ 另外 $$\mathbb{E}[f(-1,Y)] = \mathbb{E}[-Y] = -\mathbb{E}[X] = 0$$ 故 $\sup_x\mathbb{E}[f(x,Y)] = 0$但是 $$\sup_x\mathbb{E}[f(x,Y)] < \mathbb{E}[f(X,Y)]$$

3/21/2017

[基礎機率論] 兩隨機變數的共變異與相關性

在機率論的討論中，很多時候我們需要考慮多個隨機變數，一種情況是這些多個隨機變數彼此互為獨立，那麼其相關的數學運算可以被大幅簡化。但是若多個隨機變數彼此之間有一定程度的相關性，是否有一種合適的量化方法來衡量呢？以下我們給出所謂共變異的概念：

==============
Definition: 令 $X,Y$ 為兩隨機變數各自具備有限期望值 $E[X],E[Y]$ 與有限變異數 $\sigma_X, \sigma_Y$ ，則我們可定義此組隨機變數之共變異 (covariance)，記作 $\sigma_{XY}$，表為：
\[
\sigma_{XY} := E[(X-E[X])(Y-E[Y])]
\]==============

Comments:
1. [對稱性質]： 由上述定義，讀者應不難看出 $\sigma_{XY} = \sigma_{YX}$

2. [共變異數不必恆為正] ：由上述定義，透過簡單的運算可得到
\[{\sigma _{XY}} = E\left[ {XY} \right] - E\left[ X \right]E\left[ Y \right]\]注意到此式為兩項相減，故暗示了共變異數可能為正值亦可能為負值。

3. 上述對於 $X,Y$ 具有有限期望值與有限變異之條件可簡寫為 $X,Y \in L^2$ 其中 $L^2$ 為由所有隨機變數滿足 $E[X^2]<\infty$ 所組成之函數空間。為求簡便起見，以下我們討論涉及 $L^2$ 之處皆以有限期望值與有限變異做為等價之論述。有興趣讀者請參閱本 Blog 其他相關文章或者查閱相關機率論/隨機過程之教材。

4. 有部分文獻之作者習慣將共變異數用符號 $Cov(X,Y)$ 取代 $\sigma_{XY}$，端看個人習慣與喜好。

5. 一但兩隨機變數之共變異被定義，那麼給定多個隨機變數，比如說 $X_1,X_2,...,X_n$。我們亦可求其兩兩成對之共變異，舉例而言，若欲求 $X_i, X_j$ 之共變異 (其中 $i,j \in \{1,2,...,n\}$ ) 即為
$$
\sigma_{ij} := E[ (X_i- E[X_i]) (X_j = E[X_j])]
$$
另外當 $i =j$ 讀者可自行驗證上述共變異退化為變異數。

一旦定義了共變異，我們可接著引入所謂相關性(correlation) 的概念：
==============
Definition:
當 $\sigma_{XY} = 0$ 我們說隨機變數 $X,Y$ 彼此之間互 不相關
當 $\sigma_{XY}>0$ 我們說隨機變數 $X,Y$ 彼此之間為 正相關
當 $\sigma_{XY} <0$ 我們說隨機變數 $X,Y$ 彼此之間為 負相關
==============

一但有了共變異，第一個立即的問題便是此共變異與原本各自變異之間的關係是什麼？以下 FACT 對此問題給出回答：

=============

FACT: 對任意 $X,Y \in L^2$，其共變異數之上界可表為
$$
|\sigma_{XY}| \leq \sigma_X \sigma_Y
$$=============
Proof: 首先觀察
\[{\sigma _{XY}} = E\left[ {\left( {X - E\left[ X \right]} \right)\left( {Y - E\left[ Y \right]} \right)} \right]\]現在回憶 Cauchy-Schwarz Inequality ：對任意 $U,V \in L^2$ 之隨機變數， \[\left| {E\left[ {UV} \right]} \right| \leqslant \sqrt {E\left[ {{U^2}} \right]} \sqrt {E\left[ {{V^2}} \right]} \]故若我們令 $U:= X-E[X]$ 且 $V:= Y-E[Y]$ 則應用上述 Cauchy-Schwarz Inequality 立刻得到
\begin{align*}
\left| {{\sigma _{XY}}} \right| &= \left| {E\left[ {\left( {X - E\left[ X \right]} \right)\left( {Y - E\left[ Y \right]} \right)} \right]} \right| \hfill \\
& \leq \sqrt {E\left[ {{{\left( {X - E\left[ X \right]} \right)}^2}} \right]} \sqrt {E\left[ {{{\left( {X - E\left[ X \right]} \right)}^2}} \right]} \hfill \\
& = {\sigma _X}{\sigma _Y}. \;\;\;\;\;\;\; \square
\end{align*}

Comments:
一般而言，若 $\sigma_{XY} = \sigma_X \sigma_Y$ 我們稱 $X,Y$ 為完全相關 (perfectly correlated)，反之若 $\sigma_{XY} = - \sigma_X \sigma_Y$ 則稱 $X,Y$ 為完全負相關(perfectly negative correlated)。

在統計學中常用與指出相關性的指標稱作 相關係數 (correlation coefficient) ，此係數可以由前述的共變異數與變異數直接定義如下：

=================
Definition: Correlation Coefficient of $X$ and $Y$
Correlation Coefficient of $X$ and $Y$, 記作 $\rho_{XY}$, 滿足
\[{\rho _{XY}}: = \frac{{{\sigma _{XY}}}}{{{\sigma _X}{\sigma _Y}}}
\]=================

Comment: 注意到由前述 FACT 可知 $-\sigma_X \sigma_Y \leq \sigma_{XY} \leq \sigma_X \sigma_Y$ 故
\[
-1 \leq \rho_{XY} \leq 1
\]

----附註---
與上述的相關係數有關的內容，有時候會定義所謂 相關函數 (correlation function)：

Definition: 令 $X,Y$ 為兩隨機變數，則我們定義 Correlation function between $X$ and $Y$ 為 $E[XY]$

Comment:
1. correlation 決定了兩隨機變數何時具有線性相關。
2. 上述 correlation 事實上可視為 $L^2$ 空間之內積運算，在此不贅述。

Example:
令 $X$ 為具有 mean $=0$ 與 variance $=1$ 的隨機變數，現在令 $Y := 2X$，試求 correlation between $X$ and $Y$
Solution
由定義出發，我們計算 $E[XY] = E[X 2X] = 2E[X^2]$。因為 $X$ 具有 unit variance 由 variance 定義可知 $Var(X) = E[X^2] - (E[X])^2$ 亦即
\[\begin{array}{l}
Var(X) = E[{X^2}] - {(E[X])^2}\\
\Rightarrow 1 = E[{X^2}] - 0\\
\Rightarrow E[{X^2}] = 1
\end{array}\]
故 $E[XY] = 2E[X^2] =2$

1/29/2017

[機率論] 求一組獨立隨機變數最大值的期望值

給定 $X_1,...,X_n$ 為一組 i.i.d. 非負隨機變數，現在令 $M:=\max\{X_1,...,X_n\}$我們想問
\[
E[M] =?
\]

首先我們回憶
\[E[M] = \sum\limits_{k \geqslant 0} P (M > k) = \sum\limits_{k \geqslant 0} {\left( {1 - P(M \leqslant k)} \right)}
\]上述第一等式利用非負隨機變數的期望值的性質(亦即若 $X$ 為非負隨機變數，則 $E[X] = \int_0^\infty P(X>x)dx$)，在此不做贅述。現在注意到
\begin{align*}
P(M \leqslant k) &= P\left( {\max \left\{ {{X_1},...,{X_n}} \right\} \leqslant k} \right) \hfill \\
&= P\left( {\bigcap\limits_{i = 1}^n {{X_i} \leqslant k} } \right) \hfill \\
& = P{\left( {{X_1} \leqslant k} \right)^n} \hfill \\
\end{align*} 上述最後一條等式成立因為 i.i.d 性質。故我們得到
\begin{align*}
E[M] &= \sum\limits_{k \geqslant 0} {\left( {1 - P(M \leqslant k)} \right)} \hfill \\
&= \sum\limits_{k \geqslant 0} {\left( {1 - P{{\left( {{X_1} \leqslant k} \right)}^n}} \right)} \hfill \\
\end{align*}

8/07/2016

[凸分析] 擬凸函數取積分後不保證其擬凸性

回憶在凸分析中，兩凸函數 $f_1, f_2$ 之合仍為 convex，且此特性可進一步推廣至有限函數和，無窮組函數和，甚至積分都對，此篇文章中，我們將針對擬凸函數(quasiconvex function) 來檢驗上述性質。令 $X$ 為隨機變數，現令函數 $f(X,K)$ 為 quasiconvex in $K$ almost surely，則我們想問對其取積分之後是否仍為 quasiconvex in $K$?，亦即 $E[ f(X, K) ]$ 是否仍為 quasiconvex in $K$?

再構造反例之前，我們先給出 quasiconvex 函數的定義：

=================
Definition: 我們稱 $f: dom(f) \subset \mathbb{R}^n \to \mathbb{R}$ 為 擬凸函數 (quasiconvex function) 若下列條件成立：
對任意 $ \alpha \in \mathbb{R}$，集合
\[
S_{\alpha} := \{x \in dom(f) : f(x) \leq \alpha \}
\] 為 convex 集。
=================

Comments:
1. Quasiconvex 在有些文獻中又稱為 unimodal。

2. 所謂的擬凸性質 (Quasiconvexity) 可視為是凸性 (Convexity) 的推廣，關於 quasiconvex 函數更詳細的介紹，建議讀者參考 [1]，在此我們不做贅述。

現在我們可以著手回答一開始本篇文章所關心的問題：若 $f(X,K)$ 為 quasiconvex in $K$，是否取期望值 (積分)之後 $E[f(X,K)]$ 亦為 quasiconvex in $K$? 此答案是否定的，以下我們構造反例：

Counter Example: 令 $K \in [0,1]$ 且 $X$ 為隨機變數滿足 $X = 0 $ with probability $1/2$ 且 $X=1$ with probability $1/2$，取 $$
f(X,K) := (1 - X) K - X K^2
$$ 則可知此函數 $f$ 為 quasiconvex in $K$ almost surely (WHY?)，在此我們繪製所有可能的 $X$ 及其對應的函數圖形如下

可看出給定 $\alpha \in \mathbb{R}$，不論在 $X=0$ 或者 $X=1$ 均可得知對應的集合 $S_\alpha$ 為 convex，故可推知 $f(X,K)$ 為 quasiconvex with probability one。

然後，現在我們檢驗其期望值
\[\begin{align*}
E[f(X,K)] = \frac{{ - {K^2}}}{2} + \frac{K}{2}
\end{align*} \]不再是 quasiconvex。讀者可自行繪製上述函數對應的集合 $S_\alpha$ 即可立刻發現不為 convex; 舉例而言，取 $\alpha := 0.05$，且繪製 $E[f(X,K)]$ 如下圖

可發現 $S_{\alpha=0.05} =\{K \in [0,1]: E[f(X,K)] \leq 0.05 \}$ 的集合大約可表為
$$
\{K: K \in [0,0.15] \bigcup [0.85,1]\}
$$故可立刻判斷 $S_{\alpha = 0.05}$ 不是 convex 集，由此可知 $E[f(X,K)]$ 非 quasiconvex 。

[1] S. P. Boyd and L. Vandenberghe, Convex Optimization, Cambridge University Press, 2004.

6/15/2016

[機率論] 期望值保存遞增函數的遞增性質

令 $X$ 為具有任意分佈 $f_X$ 的隨機變數且我們將其支撐集 (support set) 記作 $\cal X$，考慮參數 $K \in [0,1]$ 與函數 $g(X,K)$ 為對參數 $K$ 遞增函數 with probability one，我們想問當我們對該函數取期望值時，是否 $ E[g(X,K)] $是否仍為對 $K$ 遞增?

答案為肯定的，我們將其記錄如下

令 $X$ 為具有任意分佈 $f_X$ 且其支撐集為 $\cal X$ 隨機變數，考慮參數 $K \in [0,1]$
=====================
Theorem: 函數 $g(X,K)$ 為對參數 $K$ 遞增 with probability one，則 $ E[g(X,K)] $ 仍為對 $K$ 遞增
=====================

Proof:
令 $K_1,K_2 \in [0,1]$ 且 $K_1 \geq K_2$，我們要證明
\[
E[g(X,K_1)] \geq E[g(X,K_2)]
\]現在觀察
\[\left\{ \begin{gathered}
E[g(X,{K_1})] = \int_{\cal X} g (x,{K_1}){f_X}(x)dx; \hfill \\
E[g(X,{K_2})] = \int_{\cal X} g (x,{K_2}){f_X}(x)dx \hfill \\
\end{gathered} \right.\]由於 $g(X,K)$ 為對參數 $K$ 遞增函數 with probability one，故可知對任意實現 $X=x$， $g(x,K_1) \geq g(x, K_2)$，又因為分佈函數 $f_X$ 的非負性質，不難得知
\[
\int_{\cal X} g(x, K_1)f_X(x)dx \geq \int_{\cal X} g(x, K_2)f_X(x)dx
\]亦即
\[
E[g(X,K_1)] \geq E[g(X,K_2)]
\]

1/11/2016

[機率論] 期望值 $E[X]$ 與 $E[|X|]$ 的定義良好與有界問題

給定 $X$ 為任意隨機變數，期望值 $E[X]$ 的定義為
\[
E[X] := E[X^+] - E[X^-]
\]其中 $X^+ := \max\{X,0\} \ge 0$ 且 $ X^- := -\min\{X,0\} \ge 0$。

當我們說 $E[X]$ 為定義良好 (well-defined) 若 $E[X^+],E[X^-] <\infty$ 或者只有其中一項為無窮，亦即要不 $E[X^+]=\infty$ 就是 $E[X^-] =\infty$。但不可以兩者都為無窮

Comments:
1. 讀者可驗證 $X = X^+ - X^-$ 且 $|X| = X^+ + X^-$ 恆成立。
2. 上述 $E[X] = E[X^+] - E[X^-]$ 的定義在於避免 $\infty - \infty$ 發生
3. 上述 $E[X]= E[X^+] - E[X^-]$ 的定義允許 $E[X]=\infty$ 或者 $E[X]=-\infty$
4. 給定 $X$ 為在機率空間 $(\Omega, \mathcal{F},P)$上的隨機變數，則上述 $E[X]$ 定義一般亦寫作 $$E[X] = \int_\Omega X(\omega) P(d\omega)$$

現在我們考慮以下幾組問題
Question 1:
$E[X]$ 為 well-defined 則 $E[X] < \infty$
Answer: False
Proof: 因為 $E[X]$ 可以取值到無窮大，此結果違反 $E[X]<\infty$ $\square$

Question 2:
$-\infty < E[X] < \infty$ 則 $E[X]$ 為 well-defined
Answer: True
Proof: 因為若 $ -\infty < E[X]< \infty$ 則表示
\[
0 \le E[X^+] <\infty
\] 與
\[
0 \le E[X^-] < \infty
\] 故 $E[X]=E[X^+] - E[X^-]$ well-defined $\square$

Question 3:
若 $0 \le E[|X|] <\infty$ 則 $E[X] < \infty$
Answer: True
Proof: 注意到 $E[|X|]= E[X^+] + E[X^-]$ 且又因為 $0 \le E[|X|] <\infty$ 故我們有
\[
0 \le E[X^+] + E[X^-] < \infty
\]亦即 $E[X^+]$ 與 $E[X^-]$ 皆有界，故 $E[X] < \infty$ 且由 Question 1，我們可知 $E[X]$ well-defined $\square$

Question 4:
若 $E[X] <\infty$ 則 $E[|X|] < \infty$
Answer: False
Proof: 考慮 $X = -2^k$ 且對應機率為 $P(X = -2^k) = \frac{1}{2^{k+1}}$ 對 $k=0,1,2,...$則 $E[X] = -\infty < \infty$ 滿足前件假設，但
\[
E[|X|]=\infty \;\;\;\;\; \square
\]

Question 5:
若 $-\infty<E[X]<\infty$ 則 $E[|X|] <\infty$
Answer: True
Proof: 由於 \[
-\infty< E[X] := E[X^+] - E[X^-] <\infty
\]此暗示 $0 \le E[X^+] <\infty $ 與 $0\le E[X^-] < \infty$ ，故 $E[|X|]=E[X^+] + E[X^-] $ 必為有界且 $E[|X|]<\infty$ $\square$

11/19/2015

[機率論] 非負連續隨機變數的期望值

令 $Y $ 為任意非負連續隨機變數配備機率密度 $f_Y$，則我們有以下非常簡潔的結果來描述 $Y$ 的期望值 $E[Y]$。

============
Lemma:
\[
E[Y] = \int_0^\infty P(Y>y) dy
\]============
Proof:
首先觀察等式右方，由於 $P\left( {Y > y} \right) = \int_y^\infty {{f_Y}\left( x \right)dx} $ 故
\[\begin{array}{l}
\int_0^\infty {P\left( {Y > y} \right)dy} = \int_0^\infty {\left( {\int_y^\infty {{f_Y}\left( x \right)dx} } \right)dy} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty {\left( {\int_0^\infty {{f_Y}\left( x \right){1_{\left\{ {x \ge y} \right\}}}\left( x \right)dx} } \right)dy} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty {\left( {\int_0^\infty {{f_Y}\left( x \right){1_{\left\{ {y \le x} \right\}}}\left( y \right)dx} } \right)dy}
\end{array}\]由於 integrand 非負，由 Fubini Theorem 我們可互換積分順序並得到如下結果
\[\begin{array}{l}
\int_0^\infty {P\left( {Y > y} \right)dy} = \int_0^\infty {\int_0^\infty {{f_Y}\left( x \right){1_{\left\{ {y \le x} \right\}}}\left( y \right)dydx} } \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty {{f_Y}\left( x \right)\left( {\int_0^\infty {{1_{\left\{ {y \le x} \right\}}}\left( y \right)dy} } \right)} dx\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty {{f_Y}\left( x \right)\left( {\int_0^x {1dy} } \right)} dx\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty {{f_Y}\left( x \right)x} dx\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}
\end{array} = \int_0^\infty {x{f_Y}\left( x \right)} dx = E[Y] \;\;\;\;\;\;\; \square
\end{array}\]

Comments:
1. 前述假設非負隨機變數是指 $Y \ge 0$ almost surely, 亦即 $ P(Y \ge 0) = 1$
2. 上述證明中採用的符號 $1_{A} (x)$ 表示 指示函數 (indicator function)，我們給出定義如下：令 $X$ 為任意集合則我們可定義對其上的任意子集 $A \subset X$ 所對應的指示函數( indicator function of a subset $A$ of a set $X$ ) 為 $1_A: X \to \{0,1\}$ 滿足 \[{1_A}\left( x \right): = \left\{ \begin{array}{l}
1,\begin{array}{*{20}{c}}
{}&{x \in A}
\end{array}\\
0,\begin{array}{*{20}{c}}
{}&{x \notin A}
\end{array}
\end{array} \right.\]
3. 上述結果可用 distribution function 改寫，令 $F_Y(y) := P(Y \leq y)$則
\[
E[Y] = \int_0^\infty P(Y>y) dy = \int_0^\infty (1 - F_Y(y)) dy
\]這個結果可以使得我們在計算期望值的同時，不用再困擾需要先求出 pdf ，只要有分配函數即可計算期望值。

4/30/2009

[機率論] 期望值與 Lebesgue 積分

這次要介紹機率論中一個重要的概念：期望值 (Expectation)，本質上期望值被視為一個 Lebesgue 積分。更進一步地說就是在較抽象的高等機率論中，期望值被定義為對某機率測度 (Probability measure, $P$ ) 的 Lebesgue 積分。亦即考慮機率空間為 $(\Omega, \mathcal{F}, P)$，則 $E[X]$ 具有如下形式：
\[
E[X] := \int_{\Omega} X d P = \int_\Omega X(\omega) P(d\omega)
\]

我們由 Simple Function 出發逐步建構 Lebesgue integral：

Step 1: Simple function 的期望值：

首先，我們定義 $X$ 為一個 simple function。亦即此函數可由可測集合 (measurable sets $A_i$ ) 的 Indicator function 所組成。我們將其寫作是 Finite sum 如下：
\[
X = \displaystyle \sum_{i=1}^{n} c_i 1_{A_i}
\]其中 $c_i \in \mathbb{R}$， $A_i \in \mathcal{F}$ 且
\[{1_A}\left( x \right): = \left\{ \begin{array}{l}
1,\begin{array}{*{20}{c}}
{}
\end{array}if\begin{array}{*{20}{c}}
{}
\end{array}x \in A\\
0,\begin{array}{*{20}{c}}
{}
\end{array}if\begin{array}{*{20}{c}}
{}
\end{array}x \notin A
\end{array} \right.\]則我們定義對此 Simple function $X$ 的期望值 (或稱對此 Simple function 的 Integral)為
\[
E[X] := \int X dP := \sum_{i=1}^n c_i P( \{A_i\} )
\]接著，我們定義對非負隨機變數的期望值：

Step 2: 非負隨機變數的期望值：

對任意非負隨機變數 $Y$ $(Y : \Omega \rightarrow [0,1])$，我們定義 $Y$ 的期望值為上述 simple function 的期望值的 supremum，亦即
\[
E[Y] := \sup \{E[X]: 0 \leq X \leq Y \ \text{with $X$ a simple function} \}
\] 注意到 $E[X] := \int X dP := \sum_{i=1}^n c_i P(\{A_i\}) $

有了上述定義，我們可以拓展到一般的隨機變數：

Step 3: 一般隨機變數的期望值：

最後，對一般的隨機變數的情況，該如何定義其期望值呢?

想法如下：
透過將一般隨機變數轉換為上述非負隨機變數，再用上述非負隨機變數所定義的期望值即可。

故現在考慮 $Y$ 為任意隨機變數，我們引入兩個新的非負隨機變數 $Y^+, Y^- \geq 0$ (此法類似線性規劃中，將最佳化問題改寫成標準型式所加入的 slack variable: 有興趣的讀者請參考: [最佳化] 淺談線性規劃(0)- Standard form of Linear Programming )：
\[
Y^+ := Y \cdot 1_{ \{ Y \geq 0 \} }\\
Y^- := -Y \cdot 1_{ \{ Y \leq 0 \}}
\]那麼現在觀察上述新引入的隨機變數，我們可知其與原本任意隨機變數有如下關係：
\[
Y=Y^+ - Y^-
\]且上述新的隨機變數 (由於 $Y^+, Y^- \geq 0$)，故其期望值可由先前所定義的非負隨機變數期望值定義而得，故 $E[Y^+], E[Y^-]$ 為 well-defined。有了這些結果我們可以定義對一般隨機變數 $Y$ 的期望值為：
\[
E[Y] := E[Y^+] - E[Y^-] \ \ \ \ (*)
\]上式為 well-defined 若 $E[Y^+], E[Y^-]$ 並非全為 $\infty$ (亦即只要不要發生 $\infty - \infty$ 的情況，則上述定法的期望值 $E[Y]$ 都是 well-defined。 )

Comment:
1. 上式 $(*)$ 與下列積分等價：
\[
\int Y dP := \int Y^+ dP - \int Y^- dP
\]
2. 若 $E|X| = E[X^+] + E[X^-] < \infty$ 則我們稱 $X$ 有 finite expectation，(因為 $E[X^+] < \infty$ 且 $E[X^-] < \infty$)。
3. 如果現在給定 $X$ 但想計算 $X$ 在某個子集上的期望值，也就是說我們現在不是取整個樣本空間 $\Omega$ 而是只有某個 $\mathcal{F}$ 中的集合 $A \in \mathcal{F}$ 則我們仍可求其期望值
\[
\int_A X dP = \int_\Omega X 1_A dP = E[X 1_A]
\]上式稱作 integral of $X$ with respect to $P$ over $A$。另外若此積分存在且有限，則我們稱 $X$ 為 integrable with respect to $P$ over $A$

注意到期望值 $E[X] = \int_\Omega X dP $ 仍不容易計算，因為樣本空間 $\Omega$ 可以內含各式各樣奇形怪狀的東西比如說 $\Omega:=\{apple, orange...\}$，此時計算 $E[X]$ 顯然會過於抽象。那麼我們想問什麼時候才可能比較容易計算 $E[X]$？答案是如果能給出 $X$ 的累積分佈函數 (Cumulative Distribution Function, CDF) , 記作 $F$, with respect to $P$，亦即 $F(x) := P(X \le x)$ 則 $E[X]$ 可計算如下
\[
E[X] = \int_\Omega X dP = \int_{-\infty}^{\infty} x dF(x) \;\;\;\;\; (*)
\]讀者應注意到第二等式內含的是 $x$ 不是 $X$，且上式 $(*)$ 為 Riemann-Stigjies Integral。
若 $X$ 有機率密度函數 (Probability Density Function, f) with respect to $P$ 則回憶機率密度函數定義為 $dF(x)/dx = f(x)$ 故我們可以得到更容易計算的期望值如下
\[
E[X] = \int_{-\infty}^{\infty} x dF(x) = \int_{-\infty}^\infty x f(x) dx
\]但上式有一定限制，因為任意隨機變數必定存在 CDF 但不一定有 PDF (因為 CDF 不一定可微，故不一定有 PDF)

Comments:
1. 若 $g$ 為 measurable 函數 on $\mathbb{R}$ 則我們亦可計算 $E[g(X)]$，亦即
\[
E[g(X)] = \int_\Omega g(X) dP = \int_{-\infty}^\infty g(x) dF(x) = \int_{-\infty}^\infty g(x) f(x)dx
\]
2. 若 $X$ 為離散隨機變數取值為 $x_1,...,x_n$ 且具有 probability mass function, pmf with respect to $P$, 記作 $P(X = x_n) = p(x_n)$, 則
\[
E[X] = \sum_{n=1}^\infty x_n p(x_n)
\]
且
\[
E[g(X)] = \sum_{n=1}^\infty g(x_n) p(x_n)
\]

現在看幾個例子：
Example 1:
$\Omega :=\{1,2,3,4\}$ 且 $\mathcal{F} := \sigma ( \{1\}, \{2\}, \{3\}, \{4\})$ 且令隨機變數 $X = i$ 其中 $i=1,2,3,4$ 且
\[
P(X=1)=1/2;\;\; P(X=2) = 1/4;\;\; P(X=3)=1/6;\;\; P(X=4)=1/12
\]現在令 $X:= 5 \cdot 1_{\{X=1\}} + 2 \cdot 1_{\{X=2\}} - 4 \cdot 1_{\{X=3 \text{ or } X=4\}}$。試求 $E[X]=?$
Solution:
\[\begin{array}{*{20}{l}}
\begin{array}{l}
E[X] = \int_\Omega {XdP = \sum\limits_n^{} {{x_n}P\left( {X = {x_n}} \right)} } \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5\int_\Omega {{1_{\left\{ {X = 1} \right\}}}dP} + 2\int_\Omega {{1_{\left\{ {X = 2} \right\}}}dP} - 4\int_\Omega {{1_{\left\{ {X = 3orX = 4} \right\}}}dP}
\end{array}\\
{\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5 \cdot P\left( {X = 1} \right) + 2 \cdot P\left( {X = 2} \right) - 4 \cdot \underbrace {P\left( {X = 3orX = 4} \right)}_{ = P\left( {\left\{ {X = 3} \right\} \cup \left\{ {X = 4} \right\}} \right) = P\left( {X = 3} \right) + P\left( {X = 4} \right)}}\\
{\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5\left( {\frac{1}{2}} \right) + 2\left( {\frac{1}{4}} \right) - 4\left( {\frac{1}{6} + \frac{1}{{12}}} \right) = 2}
\end{array}\]

Example 2:
同上題，試求 $E[X^2]=?$
Solution:
\[\begin{array}{l}
E[{X^2}] = \int_{ - \infty }^\infty {{x^2}f\left( x \right)dx} = \sum\limits_n^{} {{{\left( {{x_n}} \right)}^2}P\left( {X = {x_n}} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 5P\left( {X = 1} \right) + 2P\left( {X = 2} \right) + 4P\left( {\left\{ {X = 3} \right\} \cup \left\{ {X = 4} \right\}} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = 25\left( {\frac{1}{2}} \right) + 4\left( {\frac{1}{4}} \right) + 16\left( {\frac{1}{6} + \frac{1}{{12}}} \right) = \frac{{35}}{2}
\end{array}\]

Example 3:
假設 $X \sim \mathcal{N}(0,1)$ 亦即我們有 pdf
\[
f_X(x) = \frac{1}{ \sqrt{2 \pi}} \exp(-x^2/2)
\]試證 $E[X]=0$
Proof:
觀察 \[\begin{array}{l}
E[X] = \int_\Omega {XdP} = \int_{ - \infty }^\infty {xdF\left( x \right)} = \int_{ - \infty }^\infty {xf\left( x \right)dx} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = \int_{ - \infty }^\infty {x\frac{1}{{\sqrt {2\pi } }}\exp \left( { - {x^2}/2} \right)dx} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = \frac{1}{{\sqrt {2\pi } }}\int_{ - \infty }^\infty {x{e^{\frac{{ - {x^2}}}{2}}}dx}
\end{array}\]現在令\[u = \frac{{{x^2}}}{2} \Rightarrow 2du = 2xdx\]則 $E[X] = 0$
上述積分有更快速的做法如下：因為被積函數 $x exp(-x^2/2)$ 為奇函數，且積分範圍對原點對稱 $(-\infty, \infty)$ 故積分為零。此法同理可證 $E[X^3]=E[X^5]=E[X^{2k+1}] = 0$ $k\in \mathbb{N} $

Example 4:
令 $a>0$，設 $F$ 為在 $[0, 3a]$ 上的連續函數滿足
\[F\left( x \right): = \left\{ \begin{array}{l}
\pi ,\begin{array}{*{20}{c}}
{}&{}&{}&{}
\end{array}0 \le x < a\\
4 + a - x,\begin{array}{*{20}{c}}
{}&{}
\end{array}a \le x < 2a\\
{\left( {x - 2a} \right)^2},\begin{array}{*{20}{c}}
{}&{}
\end{array}x \ge 2a
\end{array} \right.
\]且在 $(0, 3a)$ 有一階導數連續 $F' = f$ 且 $f \in L^1(0,3a)$ 試計算下列 Lebesgue-Stieltjes integral,
\[\int_{\left( {0,3a} \right]}^{} {xdF\left( x \right)}
\]

Solution
Lebesgue-Stieltjes integral 重點在於對於不連續處需給定其測度值。給定之後其餘部分如同一般微積分課程中採用的積分方法計算即可。故我們直接求解
\[\begin{array}{l}
\int_{\left( {0,3a} \right]}^{} {xdF\left( x \right)} = \int_{\left( {0,a} \right]}^{} {xd\left( \pi \right)} + \int_{\left( {a,2a} \right]}^{} {xd\left( {4 + a - x} \right)} + \int_{\left( {2a,3a} \right]}^{} {xd{{\left( {x - 2a} \right)}^2}} \\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}&{}
\end{array} + {\left. {x\left( {F\left( x \right) - F\left( {x - } \right)} \right)} \right|_{x = a}} + {\left. {x\left( {F\left( x \right) - F\left( {x - } \right)} \right)} \right|_{x = 2a}}\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}
\end{array} = 0 - \int_{\left( {a,2a} \right]}^{} {xdx} + 2\int_{\left( {2a,3a} \right]}^{} {x\left( {x - 2a} \right)dx} + a\left( {4 - \pi } \right) + 2a\left( { - 4 + a} \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}
\end{array} = \frac{{{a^2}}}{2} + \frac{{8{a^3}}}{3} - \left( {4 + \pi } \right)a \ \ \ \ \square
\end{array}\]

一些期望值性質我們將其記錄如下：令令 $a,b \in \mathbb{R}$ 且 $X,Y$ 為隨機變數，回憶 $E[X \cdot 1_A] = \int_A X dP$ 則
Property (1): Absolutely Integrability
\[
\int_A XdP < \infty \Leftrightarrow \int_A |X| dP < \infty
\]
Property (2): Linearity
\[
\int_A (a X + bY)dP = a \int_A X dP + b \int_A Y dP
\]
Property (3): Countably Additivity over sets
若 $\{A_n\}$ disjoint set sequences 則
\[
\int_{\cup_n A_n} X dP = \sum_n \int_{A_n} X dP
\]
Property (4): Nonnegativity
若 $X \ge 0$ $P$-almost surely (記作 $P$-a.s.)，則
\[
\int_A X dP \ge 0
\]其中 $P$-a.s. 表示 $P(X \ge 0) = 1$。

comments: 為何要在意 almost surely? 因為我們只關心測度非零的區域，測度為零的情況比如說單點的測度為零我們並不關心。

Property (5): Monotonicity
若 $X_1 \le X \le X_2$ almost surely 則
\[
\int_A X_1 dP \le \int_A X dP \le \int_A X_2 dP
\]
Property (6): Modulus Inequality
\[
\left| \int_A X dP \right| \le \int_A |X| dP
\]

有了上述期望值的概念之後，我們可以看看如果我們取 limit 甚麼時候可以與積分互換：也就是說若現在給定一組隨機變數的數列 $\{X_n\}$ 我們想問
\[
\int_A \lim_{n \to \infty} X_n dP =?= \lim_{n \to \infty} \int_A X_n dP
\]回憶在高等微積分我們希望積分極限互換的情況的條件是需要 uniform convergence 但在機率論或者測度理論我們有以下三個極為重要的定理可以幫助我們在不需 uniform convergence 條件之下仍可達成積分與極限互換，此三個定理分別為 Dominated Convergence Theorem，Monotone Convergence Theorem、Fatou's Lemma
此三者為機率論與積分理論的重要基石。分別紀錄如下：

考慮 $\{X_n\}$ 為任意隨機變數的 sequence。
=========================
Dominated Convergence Theorem (DCT)
若 $ P( \lim_{n \to \infty} X_n = X) =1$ 且對 $1 \leq n < \infty$，
\[
|X_n| \leq Y \text{ a.s. } \ \& \ E[Y] < \infty
\]，則 $E[|X|]<\infty$ 且
\[
\lim_{n \rightarrow \infty} E[X_n] = E[\lim_{n \rightarrow \infty} X_n] = E[X]
\]========================

=========================
Monotone Convergence Theorem (MCT)
若 $ 0 \leq X_n \leq X_{n+1} (亦即為 Monotone Functions), \ \forall n \geq 1$ 且 $\lim_{n \rightarrow \infty} X_n = X$則
\[
\lim_{n \rightarrow \infty} E[X_n] = E[\lim_{n \rightarrow \infty} X_n] = E[X]
\]========================

=========================
Fatou's Lemma
若 $X_n \ge 0 \text{ a.s. } \ \forall n \geq 1$ 則
\[
E[\liminf_{n \rightarrow \infty} X_n] \leq \liminf_{n \rightarrow \infty} E[X_n]
\]========================

ref:
S. I. Resnick, A Probability Path, Birkhauser
J. M. Steele, Stochastic Calculus and Financial Applications, Springer

J. A. Gubner, Probability and Random Processes for Electrical and Computer Engineers, Cambridge.

1/06/2009

[機率論] Exponential Random Variables

Definition: Exponential Random Variable
令 $\tau$ 為隨機變數且其機率密度(probability density) 滿足
\[f_\tau\left( t \right): = \left\{ \begin{array}{l}
\lambda {e^{ - \lambda t}},\begin{array}{*{20}{c}}
{}&{}
\end{array}t \ge 0\\
0,\begin{array}{*{20}{c}}
{}&{}&{}&{}
\end{array}t < 0
\end{array} \right.\]其中 $\lambda >0$ 為常數。則我們說 $\tau$ 為 exponential distribution 或者說 $\tau$ 為 Exponential 隨機變數

Example:
令 $\tau$ 為 Exponential 隨機變數，試計算 $E [\tau ]=?$ (hint: 利用 integration by part)

Solution:
由期望值定義，\[\begin{array}{l}
E[\tau] = \int_0^\infty {tf\left( t \right)dt} = \lambda \int_0^\infty {t{e^{ - \lambda t}}dt} \\
\begin{array}{*{20}{c}}
{}&{}\;
\end{array} = \lambda \left[ {\left. {t\frac{{ - 1}}{\lambda }{e^{ - \lambda t}}} \right|_0^\infty - \left( {\int_0^\infty {\frac{{ - 1}}{\lambda }{e^{ - \lambda t}}dt} } \right)} \right]\\
\begin{array}{*{20}{c}}
{}&{}\;
\end{array} = \left. { - t{e^{ - \lambda t}}} \right|_0^\infty + \frac{1}{{ - \lambda }}\left. {{e^{ - \lambda t}}} \right|_0^\infty = \frac{1}{\lambda }

\end{array}\]

Example
令 $\tau$ 為 Exponential 隨機變數，
(a) 試計算累積機率分布函數 (Cumulative Distribution Function, CDF) $F_\tau(t) = P(\tau \le t)$
(b) 試計算 $P(\tau > t)$
Solution
(a) 由CDF定義：\[{F_\tau }(t) = P(\tau \le t) = \int_0^t {f\left( t \right)dt} = \int_0^t {\lambda {e^{ - \lambda \tau }}d\tau } = 1 - {e^{ - \lambda t}},\begin{array}{*{20}{c}}
{}&{}

\end{array}t \ge 0\]
(b) 由於 $P(\tau > t) = 1 - P(\tau \le t)$ 由 (a) 可知 $P(\tau > t) = e^{-\lambda t}$, $t \ge 0$ $\square$

Memoryless property
考慮等待某事件發生 (比如某債卷即將違約)，且已知此事件發生時間 $\tau$ 的機率分布服從 exponential 分布且 mean 為 $1/ \lambda$ (亦即 $\tau $ 為參數 $ \lambda$ 的 Exponential 隨機變數 ) 假設我們已經等了 $s$ 個單位時間，想問我們再等額外多少個 $t$ 單位時間才會發生此事件的機率為何?

此債卷違約機率可計算如下
\begin{align*}
P\left( {\tau > t + s|\tau > s} \right) &= \frac{{P\left( {\tau > t + s,\tau > s} \right)}}{{P\left( {\tau > s} \right)}}\\
&= \frac{{P\left( {\tau > t + s} \right)}}{{P\left( {\tau > s} \right)}} \\
&= \frac{{{e^{ - \lambda \left( {t + s} \right)}}}}{{{e^{ - \lambda s}}}} = \underbrace {{e^{ - \lambda t}}}_{ = P\left( {\tau > t} \right)}
\end{align*}上述結果顯示了在等待 $s$ 單位時間後，再等額外多少個 $t$ 單位時間才會發生此事件的機率與直接從時間 $0$ 開始等到 $t$ 單位時間後的機率相等。且分布仍為 exponential 分布，我們稱此性質為 Exponential 隨機變數的 失憶性 (memorylessness )

訂閱：意見 (Atom)

謝宗翰的隨筆