在概率论与数理统计中,超几何分布是一种重要的离散概率分布,用于描述从有限总体中不放回抽样时的成功次数的概率分布。本文将详细推导超几何分布的期望和方差公式。
一、超几何分布的基本定义
假设一个总体包含 \(N\) 个元素,其中 \(K\) 个为成功(记为“红球”),其余 \(N-K\) 个为失败(记为“白球”)。从该总体中随机抽取 \(n\) 个样本(不放回),设 \(X\) 表示抽到的成功次数,则 \(X\) 的概率质量函数为:
\[
P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}}, \quad k = 0, 1, \dots, n
\]
这里,\(k\) 是成功次数,满足 \(0 \leq k \leq n\) 且 \(k \leq K\)。
二、超几何分布的期望推导
为了求解 \(E(X)\),我们利用超几何分布的性质。首先,将 \(X\) 分解为 \(n\) 个独立的指示变量 \(X_i\) 的和:
\[
X = X_1 + X_2 + \cdots + X_n
\]
其中,\(X_i\) 表示第 \(i\) 次抽样是否成功(即 \(X_i = 1\) 表示成功,否则为 0)。显然,\(E(X_i)\) 表示单次抽样的成功概率。
计算单次抽样的成功概率:
\[
P(X_i = 1) = \frac{K}{N}
\]
因此,\(E(X_i) = P(X_i = 1) = \frac{K}{N}\)。
根据线性期望的性质:
\[
E(X) = E(X_1 + X_2 + \cdots + X_n) = E(X_1) + E(X_2) + \cdots + E(X_n)
\]
由于每个 \(X_i\) 的期望相同:
\[
E(X) = n \cdot \frac{K}{N}
\]
因此,超几何分布的期望为:
\[
E(X) = \frac{nK}{N}
\]
三、超几何分布的方差推导
接下来,我们推导超几何分布的方差 \(Var(X)\)。方差的公式为:
\[
Var(X) = E(X^2) - [E(X)]^2
\]
首先计算 \(E(X^2)\)。利用 \(X = X_1 + X_2 + \cdots + X_n\) 的分解形式:
\[
E(X^2) = E\left((X_1 + X_2 + \cdots + X_n)^2\right)
\]
展开平方项:
\[
E(X^2) = E\left(\sum_{i=1}^n X_i^2 + \sum_{i \neq j} X_i X_j\right)
\]
注意到 \(X_i^2 = X_i\)(因为 \(X_i\) 只能取值 0 或 1),所以:
\[
E(X^2) = \sum_{i=1}^n E(X_i) + \sum_{i \neq j} E(X_i X_j)
\]
已知 \(E(X_i) = \frac{K}{N}\),接下来计算 \(E(X_i X_j)\)(\(i \neq j\))。
对于 \(X_i X_j\),表示第 \(i\) 次和第 \(j\) 次抽样都成功的概率。此时,两个事件是相关联的,因此需要考虑联合概率:
\[
P(X_i = 1 \cap X_j = 1) = \frac{\binom{K}{2} \binom{N-K}{n-2}}{\binom{N}{n}}
\]
计算 \(E(X_i X_j)\):
\[
E(X_i X_j) = P(X_i = 1 \cap X_j = 1) = \frac{\binom{K}{2}}{\binom{N}{2}}
\]
代入总和:
\[
E(X^2) = n \cdot \frac{K}{N} + n(n-1) \cdot \frac{\binom{K}{2}}{\binom{N}{2}}
\]
进一步化简:
\[
E(X^2) = n \cdot \frac{K}{N} + n(n-1) \cdot \frac{K(K-1)}{N(N-1)}
\]
计算方差:
\[
Var(X) = E(X^2) - [E(X)]^2
\]
代入 \(E(X) = \frac{nK}{N}\) 和 \(E(X^2)\) 的表达式,经过整理可得:
\[
Var(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N-n}{N-1}
\]
四、总结
通过上述推导,我们得到了超几何分布的期望和方差公式:
\[
E(X) = \frac{nK}{N}
\]
\[
Var(X) = n \cdot \frac{K}{N} \cdot \left(1 - \frac{K}{N}\right) \cdot \frac{N-n}{N-1}
\]
这些公式在实际应用中具有重要意义,尤其是在分析不放回抽样问题时。希望本文的推导过程能够帮助读者更好地理解超几何分布的本质及其数学特性。