跳到主要內容

[機率論] 淺談機率公理 與 基本性質

機率公理(Axioms of probability) 是由俄國數學家 Andrey Kolmogorov (1903-1987) 建立。我們的目的主要是簡介此公理系統 並 進而檢驗由此公理系統所衍生的一些性質。

閱讀前建議具備基礎集合論概念。
讀者可參閱此文:[整理] 基礎集合論的數學語言(1) - Set Operations


再談之間機率公理之前我們先思考兩個 隨機實驗:

  1. 從閉區間 $[0,1]$ 之中 任選一個數字
  2. 做無限次的丟銅板實驗

上述兩個實驗,我們每做一次紀錄其 實驗結果 $\omega$,並將每次的輸出結果收集起來,此結果形成一個 樣本空間(sample space) $\Omega$。

對 實驗1 而言,樣本空間即為 $ \Omega :=[0,1]$ ,其 實驗結果記做 $\omega$

對於實驗2,我們可以定義樣本空間為
\[
\Omega_\infty := \{ \text{the set of infinite sequences of Heads' and Tail's}\}
\] 樣本輸出結果 $\omega = \omega_1 \omega_2 ...$ 其中 $\omega_n$ 為第 $n$ 次丟銅版的結果。

那麼如何對上述樣本空間中發生的 "事件" 定義 "機率" 呢? 我們需要 機率空間(Probability space) 的概念:

=====================
Definition: Probability Space
一個 機率空間 (Probability space) 為一個三元素組成的集合記做 $(\Omega, \cal{F}, P)$。其中 $\Omega$ 定義為 實驗結果所形成的 非空集合(又稱為樣本空間),$\cal F$ 為 事件(or 多個事件) 形成的集合,而 $P$ 為一個函數 $P : \cal{F} \rightarrow [0,1]$ 用作指定對應事件的機率。
====================

Comment:
上述定義提及 $\cal{F}$ 又稱 $\sigma$-algebra or $\sigma$-field 滿足下列條件
(i) 對任意子集合 $A \subset \Omega$,若 $A \in \cal{F}$,則 $A^C \in \cal{F}$
(ii) 對任意 countable 子集 $A_1,A_2,... \in \Omega$,若 $A_i \in \cal{F},\;\; \forall i$ 則其 union $A_1 \cup A_2 \cup ... \in \cal{F}$
(iii) $\emptyset \in \cal{F}$ 且 $\Omega \in \cal{F}$

有了上述想法,我們可以開始討論 機率公理:

============================
機率公理(Axioms of Probability):
給定任何 非空集合 $\Omega$ 為 樣本空間(Sample space),接著我們定義一個函數 $P$ 在上述樣本空間  $\Omega$ 的子集合 $\cal F$ 上。則我們稱此函數 $P$ 為一個 機率測度 (Probability Measure) 若此函數能(同時)滿足下列四條公理

  1. 空集合 $\emptyset$ 稱為 不可能發生的事件(Impossible event),此不可能發生的事件(樣本空間上的子集合) 機率為 $0$,亦即 $P(\emptyset)=0$.

  2. (非負性質) 機率 $P$ 為非負值,亦即 對任意事件 $A$而言,$P(A) \geq 0$.

  3. (可數加法性質) 若 $A_1, A_2, ...$ 為兩兩互斥事件 (pairwise disjoint or mutually exclusive),也就是說 對任意 $n \neq m$, $A_n \displaystyle \bigcap A_m = \emptyset $;則

    $P(\bigcup_{n=1}^{\infty} A_n) = \displaystyle \sum_{n=1}^{\infty} P(A_n)$

  4. 整個樣本空間的機率被稱作 確定事件(sure event) ,此事件發生之機率為1;亦即 $P(\Omega) =1$。
注意到若一個事件 $A \neq \Omega$ 但滿足 $P(A)=1$ 我們說此事件 $A$ 為 幾乎確定事件(almost-sure event)
============================

Comments:
1. 事實上所謂的公理 就是"
你我在理性上認為是對的or直接同意的陳述,換句話說,我們可以把公理看成是無法被證明對錯,但(在你我的理性)被假設為不證自明的一個命題

對於公理1,其實非常直覺,不可能發生的事件 <=> 發生機率為0 (0% 發生)
對於公理4,一定發生的事件 <=> 發生機率為1 (100% 發生)
對於公理2,任意事件發生的機率應該是在0~1之間(非負) (0~100%之間)
對於公理3,可看成若事件本身互斥 (EX: 比如說丟一枚銅板一次,不可能同時出現正面又出現反面,我們就說 出現正面 與 出現反面的事件為互斥事件);則這麼一來,所有可能發生的事件可以看成個別相加。

2. 注意! 機率測度 本質上是一個 "函數" (事件 吐出 某個介於 0到1的 " 數值" ) ;亦即 考慮機率空間為 $(\Omega, \mathcal{F}, P)$ 則 機率測度定義為
$P : \mathcal{F} \rightarrow [0,1]$

其中 $ \mathcal F$ 為 $\Omega$ 的子集合。 (一般稱 $\mathcal{F} $ 為 $\sigma$ - algebra);且 $\mathcal{F}$ 中的元素稱為 事件 "event:"。
對 $\sigma$-algebra 有一點興趣的讀者可以前往閱讀此篇:
[測度論] Sigma Algebra 與 Measurable function 簡介



以下我們介紹一些機率公理的衍生性質:

定義機率空間   $(\Omega, \mathcal{F}, P)$,$A \in \mathcal{F}$ 為事件。則我們有以下結果

FACT 1 : $P(A^c) = 1 - P(A)$
Proof: 
首先觀察 $\Omega = A \cup A^c$ 且 $A $ 與 $A^c$ disjoint。故由 $P(\Omega)= 1$,可知道
\[\begin{array}{l}
\underbrace {P(\Omega )}_{ = 1} = P(A \cup {A^c}) = P(A) + P({A^c})\\
 \Rightarrow 1 = P(A) + P({A^c})\\
 \Rightarrow P({A^c}) = 1 - P(A) \ \ \ \ \square
\end{array}\]

FACT2: (Inclusion-Exclusion Formula)
考慮兩事件 $A,B \in \mathcal{F}$,則我們有
\[
P(A \cup B) = P(A) + P(B) - P(A \cap B)
\]Proof: 
首先觀察 \[\left\{ \begin{array}{l}
A = \left( {A \cap {B^c}} \right) \cup \left( {A \cap B} \right)\\
B = \left( {B \cap {A^c}} \right) \cup \left( {A \cap B} \right)
\end{array} \right.\]且上述兩事件 $A,B$ 各自被表為 disjoint union,故其對應的機率為
\[\left\{ \begin{array}{l}
P\left( A \right) = P\left( {A \cap {B^c}} \right) + P\left( {A \cap B} \right)\\
P\left( B \right) = P\left( {B \cap {A^c}} \right) + P\left( {A \cap B} \right)
\end{array} \right.
\]現在觀察
\[\begin{array}{l}
\left( {A \cup B} \right) = \left( {A \cap {B^c}} \right) \cup \left( {A \cap B} \right) \cup \left( {B \cap {A^c}} \right)\\
 \Rightarrow P\left( {A \cup B} \right) = \underbrace {P\left( {A \cap {B^c}} \right)}_{ = P\left( A \right) - P\left( {A \cap B} \right)} + P\left( {A \cap B} \right) + \underbrace {P\left( {B \cap {A^c}} \right)}_{ = P\left( B \right) - P\left( {A \cap B} \right)}\\
 \Rightarrow P\left( {A \cup B} \right) = P\left( A \right) + P\left( B \right) - P\left( {A \cap B} \right) \ \ \ \ \square
\end{array}\]

FACT3: (Monotonicity Property)
考慮兩事件 $A,B \in \mathcal{F}$,若 $A \subset B$ 則
\[
P(A) \le P(B)
\]Proof: 
由 $A \subset B$ 可推知 $B = A \cup {(B \backslash  A)}$ 且 $A$ 與 $B \backslash A$ 為 disjoint,故
\[P\left( B \right) = P\left( A \right) + \underbrace {P\left( {B\backslash A} \right)}_{ \ge 0} \ge P\left( A \right) \ \ \ \ \square
\]

FACT4: (Subadditivity)
考慮 countable 事件 $A_n \in \mathcal{F}, \; \forall \; n \in \mathbb{N}$,則
\[P\left( {\bigcup\limits_{n = 1}^\infty  {{A_n}} } \right) \le \sum\limits_{n = 1}^\infty  {P\left( {{A_n}} \right)} \]
Proof:
觀察事件 $\bigcup\limits_{n = 1}^\infty  {{A_n}}  = {A_1} \cup \left( {{A_2} \cap A_1^c} \right) \cup \left( {{A_3} \cap A_2^c \cap A_1^c} \right) \cup ...$ 。注意到我們將 countable union 事件  $\bigcup\limits_{n = 1}^\infty  {{A_n}} $ 改寫成 disjoint unions,故
\[\begin{array}{l}
 \Rightarrow P\left( {\bigcup\limits_{n = 1}^\infty  {{A_n}} } \right) = P\left( {{A_1}} \right) + P\left( {{A_2} \cap A_1^c} \right) + P\left( {{A_3} \cap A_2^c \cap A_1^c} \right) + ...\\
\begin{array}{*{20}{c}}
{}&{}&{}&{}&{}&{}&{}
\end{array} \le P\left( {{A_1}} \right) + P\left( {{A_2}} \right) + P\left( {{A_3}} \right) + ... \square
\end{array}\]

FACT5: ( Continuity)
我們稱 機率測度 $P$  對 monotone sequence of events $\{A_n\}$ 連續 若下列任一情況成立:
(i) 若 $A_n \uparrow A$ 且 $A_n \in \mathcal{F}$ 則 $P(A_n) \uparrow P(A)$
(ii) 若 $A_n \downarrow A$ 且 $A_n \in \mathcal{F}$ 則 $P(A_n) \downarrow P(A)$
Proof:
我們只證明 (i):
由於 monotone sequence of events $\{A_n\}$,且 $An \uparrow A$,我們可設
\[{A_1} \subset {A_2} \subset {A_3} \subset ... \subset {A_n} \subset ...
\]接著我們定義新的事件集合 $B_1 := A_1, B_2 := A_1 \backslash A_2, ..., B_n := A_n \backslash  A_{n-1}$ 則我們有以下結果
\[\bigcup\limits_{i = 1}^n {{B_i} \equiv {A_n}} ;\begin{array}{*{20}{c}}
{}
\end{array}\bigcup\limits_{i = 1}^\infty  {{B_i}}  = \bigcup\limits_{i = 1}^\infty  {{A_i} = A}
\]故現在觀察
\[\begin{array}{l}
P\left( A \right) = P\left( {\bigcup\limits_{i = 1}^\infty  {{B_i}} } \right) = \sum\limits_{i = 1}^\infty  {P\left( {{B_i}} \right)} \\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = \mathop {\lim }\limits_{n \to \infty } \sum\limits_{i = 1}^n {P\left( {{B_i}} \right)}  = \mathop {\lim }\limits_{n \to \infty } P\left( {\bigcup\limits_{i = 1}^n {{B_i}} } \right)\\
\begin{array}{*{20}{c}}
{}&{}&{}
\end{array} = \mathop {\lim }\limits_{n \to \infty } P\left( {{A_n}} \right)
\end{array}\]

留言

這個網誌中的熱門文章

[數學分析] 什麼是若且唯若 "if and only if"

數學上的 if and only if  ( 此文不討論邏輯學中的 if and only if,只討論數學上的 if and only if。) 中文翻譯叫做  若且唯若 (or 當且僅當) , 記得當初剛接觸這個詞彙的時候,我是完全不明白到底是甚麼意思,查了翻譯也是愛莫能助,畢竟有翻跟沒翻一樣,都是有看沒有懂。 在數學上如果看到 if and only if  這類的句子,其實是表示一種 雙條件句 ,通常可以直接將其視為" 定義(Definition)" 待之,今天要分享的是這樣的一個句子如何用比較直觀的方法去看他 假設我們現在有 兩個邏輯陳述句 A 與  B. 注意到,在此我們不必考慮這兩個陳述句到底是什麼,想表達什麼,或者到底是否為真(true),這些都不重要。只要知道是兩個陳述即可。 現在,考慮新的陳述:  "A if and only if B" 好了,現在主角登場,我們可以怎麼看待這個句子呢? 事實上我們可以很直覺的把這句子拆成兩部分看待,也就是 "( A if B ) and ( A only if B )" 那麼先針對第一個部分  A if B  來看, 其實這句就是說  if B then A, 更直白一點就是 "if B is true, then A is also true".  在數學上等價可以寫為 "B implies A" .  或者更常用一個箭頭符號來表示 "B $\Rightarrow$  A"  現在針對第二個部分  A only if B 此句意指  "If B is not true, then A is also not true". 所以如果已知 A is true,  那麼按照上句不難推得 B is also true 也就是說  A only if B  等價為 "If A is true then B is also true". 同樣,也可以寫作   "A implies B"   或者用箭頭表示  "A   $\Rightarrow$     B".

[數學分析] 淺談各種基本範數 (Norm)

這次要介紹的是數學上一個重要的概念: Norm: 一般翻譯成 範數 (在英語中 norm 有規範的意思,比如我們說normalization就是把某種東西/物品/事件 做 正規化,也就是加上規範使其正常化),不過個人認為其實翻譯成 範數 也是看不懂的...這邊建議把 Norm 想成長度就好 (事實上norm是長度的抽象推廣), 也許讀者會認為好端端的長度不用,為何又要發明一個 norm 來自討苦吃?? 既抽象又艱澀。 事實上想法是這樣的: 比如說現在想要比較兩個數字 $3$ , $5$ 之間的大小,則我們可以馬上知道 $ 3 < 5 $;同樣的,如果再考慮小數與無理數如 $1.8753$ 與 $\pi$,我們仍然可以比較大小 $1.8753 < \pi = 3.1415...$ 故可以發現我們有辦法對 "純量" 做明確的比大小,WHY? 因為前述例子中 $3$, $5$, $1.8753$ or $\pi$ 其各自的大小有辦法被 "measure "! 但是如果是現在考慮的是一組數字 我們如何去measure 其大小呢?? 比如說 \[x:=[1, -2, 0.1, 0 ]^T \]上式的大小該是多少? 是 $1$? $-2$? $0.1$??? 再者如果更過分一點,我們考慮一個矩陣 \[A = \left[ {\begin{array}{*{20}{c}} 1&2\\ 3&4 \end{array}} \right] \],想要知道這個矩陣的大小又該怎麼辦?? 是 $1$ ? $2$ 還是 $4$ ?..其實現階段我們說不清楚。 也正是如此,可以發現我們確實需要新的 "長度" 的定義來幫助我們如何去 measure 矩陣/向量/甚至是函數的大小。 故此,我們首先定義甚麼是Norm,(也就是把 "長度" or "大小" 的本質抽離出來) ================== Definition: Norm 考慮 $V$ 為一個向量空間(Vector space),則我們說  Norm 為一個函數 $||\cdot|| : V \rightarrow \mathbb{R}$ 且滿足下列性質