对了宝贝儿们,卑微小李的公众号【野指针小李】已开通,期待与你一起探讨学术哟~摸摸大!
目录
1 离散型随机变量1.1 (0-1)分布1.2 伯努利试验1.3 二项分布1.4 几何分布1.5 泊松分布
2. 连续型随机变量2.1 分布函数与概率密度函数2.2 均匀分布2.3 指数分布2.4 正态分布2.4.1 标准正态分布2.4.2 一般正态分布
References
1 离散型随机变量
离散型随机变量指的是取到的值时有限个或者可列无限多个的随机变量。有限个值很好理解,但是可列无限多个值就有点抠脑壳。这句话的含义就是尽管变量有无限多个,但是我们可以按照一定的词序一一列举出来。我这里举两个例子来说明。
E1:
X
=
x
k
(
k
=
1
,
2
,
…
)
X=x_k (k=1, 2, \dots)
X=xk(k=1,2,…) E2: 反复投掷硬币,记录出现第一次正面朝上需要的次数。 我们将E2绘制成表格:
Table 1. 反复抛掷硬币,记录出现第一次正面朝上需要的次数
次数发生该次数的概率1
1
/
2
1/2
1/22
1
/
4
1/4
1/43
1
/
8
1/8
1/84
1
/
16
1/16
1/165
1
/
32
1/32
1/32
⋮
\vdots
⋮
⋮
\vdots
⋮
根据上表,我们可以发现尽管该事件有无限多个随机变量,但是我们都可以一一列举出来。接着我们还可以发现,我们只要知道离散型随机变量
X
X
X的所有可能取值以及取每一个值的概率,就可以掌握
X
X
X的统计规律。
形式化表达则是,设离散型随机变量
X
X
X所有可能的取值为
x
k
(
k
=
1
,
2
,
…
)
x_k(k=1, 2, \dots)
xk(k=1,2,…),
X
X
X取各个值的概率,即事件
{
X
=
x
k
}
\{X=x_k\}
{X=xk}的概率为:
P
{
X
=
x
k
}
=
p
k
,
k
=
1
,
2
,
…
P\{X=x_k\}=p_k, k=1, 2, \dots
P{X=xk}=pk,k=1,2,…
由于这是概率,所以满足:
p
k
≥
0
,
k
=
1
,
2
,
…
p_k \geq 0, k=1, 2, \dots
pk≥0,k=1,2,…
∑
k
=
1
∞
p
k
=
1
\sum_{k=1}^{\infty}p_k=1
∑k=1∞pk=1
换句话说就是:
X
X
X所有可能取值的概率大于等于0.所有事件发生的概率之和为1.
就比如表1,我们以分布律来直观的看这些数据:
Table 2. 第一次正面朝上需要的次数的分布律
X
X
X12345
…
\dots
…
p
k
p_k
pk
1
/
2
1/2
1/2
1
/
4
1/4
1/4
1
/
8
1/8
1/8
1
/
16
1/16
1/16
1
/
32
1/32
1/32
…
\dots
…
就是说
P
{
X
=
1
}
=
1
2
P\{X=1\}=\frac{1}{2}
P{X=1}=21。其概率之和为1直观的表示如下图:
Fig. 1. 无限个离散随机变量概率之和为1
1.1 (0-1)分布
设随机变量
X
X
X只有0和1两个值,其分布律为
P
{
X
=
k
}
=
p
k
(
1
−
p
)
1
−
k
,
k
=
0
,
1
(
0
<
p
<
1
)
,
P\{X=k\}=p^k(1-p)^{1-k}, k=0,1\ \ (0
P{X=k}=pk(1−p)1−k,k=0,1 (0
X
X
X服从以
p
p
p为参数的(0-1)分布或两点分布。其分布律为:
Table 3. (0-1)分布分布律
X
X
X01
p
k
p_k
pk
1
−
p
1-p
1−p
p
p
p
就是说一个事件只有两种可能的结果,在一次实验中有
p
p
p的概率发生1,
1
−
p
1-p
1−p的概率发生0.
1.2 伯努利试验
伯努利试验指的是试验
E
E
E只有两个可能的结果
A
A
A与
A
ˉ
\bar A
Aˉ。其中
P
(
A
)
=
p
(
0
<
p
<
1
)
P(A)=p\ (0
P(A)=p (0
P
(
A
ˉ
)
=
1
−
p
P(\bar A)=1-p
P(Aˉ)=1−p。如果独立重复(试验互不干扰,且
P
(
A
)
=
p
P(A)=p
P(A)=p不变)进行
n
n
n次试验,则称这一组试验为
n
n
n重伯努利试验。
因为独立,所以假设
C
i
C_i
Ci为第
i
i
i次试验的结果(
C
i
C_i
Ci为
A
A
A或
A
ˉ
\bar A
Aˉ,
i
=
1
,
2
,
…
,
n
i=1, 2, \dots, n
i=1,2,…,n),则:
P
(
C
1
C
2
…
C
n
)
=
P
(
C
1
)
P
(
C
2
)
…
P
(
C
n
)
P(C_1 C_2 \dots C_n)=P(C_1)P(C_2)\dots P(C_n)
P(C1C2…Cn)=P(C1)P(C2)…P(Cn)
由此可见,(0-1)分布就是
n
=
1
n=1
n=1的伯努利试验。
1.3 二项分布
那么当
n
>
1
n > 1
n>1时,以
X
X
X表示
n
n
n重伯努利试验中事件
A
A
A发生的次数,假定事件
A
A
A发生
k
(
0
≤
k
≤
n
)
k \ (0 \leq k \leq n)
k (0≤k≤n)次,
A
ˉ
\bar A
Aˉ发生
n
−
k
n-k
n−k次。于是在
n
n
n次试验中,
A
A
A发生
k
k
k次的概率为:
P
{
X
=
k
}
=
C
n
k
p
k
(
1
−
p
)
n
−
k
,
k
=
0
,
1
,
2
,
…
,
n
P\{X=k\}={\rm C}_n^k p^k (1-p)^{n-k}, k=0, 1, 2, \dots, n
P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,…,n
该公式就是说事件
A
A
A发生了
k
k
k次,事件
A
ˉ
\bar A
Aˉ发生了
n
−
k
n-k
n−k次。由于有多次试验,每次试验都会有两种结果,所以将所有可能性给组合起来,就有了最前面的
C
n
k
{\rm C}_n^k
Cnk。
1.4 几何分布
几何分布指的是在
n
n
n重伯努利试验中,试验
k
k
k次事件才发生的概率。与二项分布不同的一点就在于,二项分布是
A
A
A发生了
k
k
k次,
A
ˉ
\bar A
Aˉ发生了
n
−
k
n-k
n−k次;而几何分布是试验了
k
k
k次后,事件
A
A
A才发生。
几何分布的分布率为:
P
(
X
=
k
)
=
(
1
−
p
)
k
−
1
p
,
(
0
<
p
<
1
)
,
k
=
1
,
2
,
…
P(X=k)=(1-p)^{k-1}p, (0
P(X=k)=(1−p)k−1p,(0
1.5 泊松分布
关于泊松分布,《如何通俗理解泊松分布?》这篇博客讲的就很详细生动了,这里我也就不多赘述。就只谈谈我个人的看法。
根据这个大佬的讲解,泊松分布就是将一个区间给等分为无限细的小区间,且任意两个区间上事件是独立的且发生的概率相等,求解事件发生
1
,
2
,
…
1, 2, \dots
1,2,…次的概率。其计算过程就是通过求一个极限的泰勒展开而得到的公式。其概率密度函数为:
P
(
X
=
k
)
=
λ
k
e
−
λ
k
!
,
k
=
0
,
1
,
2
,
…
P(X=k)=\frac{\lambda^k{\rm e}^{-\lambda}}{k!}, k=0, 1, 2, \dots
P(X=k)=k!λke−λ,k=0,1,2,…
由于泊松分布的均值
μ
=
λ
\mu = \lambda
μ=λ,所以在这里
λ
\lambda
λ反映了分布的强度,就是反映了整个区间上的平均程度。
由于二项分布中
p
p
p很小时,泊松分布与二项分布很接近,所以我将泊松分布简单的理解为:反映了在一个无限窄的区间上,事件发生的可能性很小的情况下,事件发生次数的概率。
2. 连续型随机变量
离散型随机变量是我们可以列举出来的,但是对于连续型随机变量,我们是无法列举出来。同时,连续型随机变量在某一点的概率为0。所以我们有必要讨论连续型随机变量。
关于连续型随机变量在某一点概率为0,其有两种思考方式。
由于概率可以用面积表示,所以我们可以用几何的方式来理解这一点。 我们若要计算阴影部分面积,只需要计算
(
0.3
−
0
)
×
1
(0.3-0)\times 1
(0.3−0)×1即可得到。但是对于某一点(假设
x
=
0.3
x=0.3
x=0.3),那么图就变为了如下: 由于线段没有长度,或者说长度无限小,那么这个面积也就为0,即概率为0.从微积分的角度考虑,计算某一点的概率,就等于在这个点周围取了一个无限小的数
Δ
x
→
0
\Delta x \rightarrow 0
Δx→0,计算这个区间的概率。那么可以得到如下的等式:
0
≤
P
{
X
=
a
}
≤
P
{
a
−
Δ
x
<
X
≤
a
}
=
F
(
a
)
−
F
(
a
−
Δ
x
)
0 \leq P\{X=a\} \leq P\{a-\Delta x < X \leq a\}=F(a)-F(a-\Delta x)
0≤P{X=a}≤P{a−Δx Δ x → 0 \Delta x \rightarrow 0 Δx→0,所以 F ( a ) − F ( a − Δ x ) → 0 F(a)-F(a-\Delta x)\rightarrow0 F(a)−F(a−Δx)→0,近似可得 0 ≤ P { X = a } ≤ 0 0 \leq P\{X=a\} \leq 0 0≤P{X=a}≤0,于是 P { X = a } = 0 P\{X=a\}=0 P{X=a}=0。 2.1 分布函数与概率密度函数 在详细讲解分布函数与概率密度函数之前,先谈谈我对这两个函数的理解,再做展开。 分布函数 F ( x ) F(x) F(x)刻画的是区间 ( − ∞ , x ] (-\infty, x] (−∞,x]内发生事件的概率。概率密度函数 f ( x ) f(x) f(x)刻画的是在 x x x附近的值出现的概率。 关于分布函数与概率密度函数,我们借用[2]中129页的图来说明。 Fig. 2. 打印至x处时消耗的油墨量F(x)与浓度f(x)的关系[2] 这张图简单来说,就是需要打印一份渐进变色的纸,其油墨消耗量为 F ( x ) F(x) F(x),油墨浓度为 f ( x ) f(x) f(x)。由于打印的过程中需要消耗油墨,油墨消耗量的增多必定伴随着在纸张上打印,而打印所消耗的油量等于这段时间打印的长度乘以这段时间机器出的油墨浓度。形式化表达为: d F ( x ) = f ( x ) d x {\rm d}F(x)=f(x){\rm d}x dF(x)=f(x)dx 其中, d x {\rm d}x dx代表在纸张上移动的距离(极短距离), f ( x ) f(x) f(x)代表在这极短距离内的出墨量(由于距离很短,所以可以近似看做出墨量在图形中表现为一个矩形), d F ( x ) {\rm d}F(x) dF(x)代表这段时间油墨消耗量增加了多少。由此可见,这就是一个微积分的问题,即: f ( x ) = d F ( x ) d x f(x)=\frac{{\rm d}F(x)}{{\rm d}x} f(x)=dxdF(x) 或者说 ∫ a b f ( x ) d x = F ( b ) − F ( a ) \int_{a}^{b}f(x){\rm d}x=F(b)-F(a) ∫abf(x)dx=F(b)−F(a) 我们通过这个例子,推广到分布函数与概率密度函数: Fig. 3. 打印问题与概率问题的对比[2] 那么我们同样采用油量问题来推理这个问题,分布函数代表了区间内事件发生的概率之和,概率密度函数代表了在某个点周围事件发生的概率大小。 两者的关系绘制成表格如表4所示: Fig. 4. 打印问题与概率问题的对应关系[2] 同时,我们可以获得概率密度 f ( x ) f(x) f(x)的性质: f ( x ) ≥ 0 f(x) \geq 0 f(x)≥0; ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty}f(x){\rm d}x=1 ∫−∞∞f(x)dx=1;对于任意实数 x 1 x_1 x1, x 2 ( x 1 ≤ x 2 ) x_2 \ (x_1 \leq x_2) x2 (x1≤x2),有 P { x 1 < X ≤ x 2 } = F ( x 2 ) − F ( x 1 ) = ∫ x 1 x 2 f ( x ) d x ; P\{x_1 < X \leq x_2\} = F(x_2) - F(x_1) = \int_{x_1}^{x_2}f(x){\rm d}x; P{x1 f ( x ) f(x) f(x)在点 x x x处连续,则有 F ′ ( x ) = f ( x ) F'(x)=f(x) F′(x)=f(x) 对于性质2,我们知道 f ( x ) = d F ( x ) d x f(x)=\frac{{\rm d}F(x)}{{\rm d}x} f(x)=dxdF(x),反映的就是在微小变化下 F ( x ) F(x) F(x)的变化,又由于 F ( x ) F(x) F(x)最大为1,所以 ∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty}f(x){\rm d}x=1 ∫−∞∞f(x)dx=1。 2.2 均匀分布 均匀分布的图如4所示。 Fig. 5. 均匀分布 从图中我们可以看出,均匀分布的核心就在于均匀上,区间 [ a , b ] [a,b] [a,b]中任意一段区间 [ α , β ] [\alpha, \beta] [α,β]的概率都为 β − α b − a \frac{\beta - \alpha}{b-a} b−aβ−α。 其概率密度表达为: f ( x ) = { 1 b − a ( a ≤ b ) , 0 其 他 \begin{aligned} f(x)=\left\{ \begin{aligned} &\frac{1}{b - a} &(a \leq b), \\ &0 &其他 \end{aligned} \right. \end{aligned} f(x)=⎩⎨⎧b−a10(a≤b),其他 如果连续型随机变量 X X X具有这样的密度函数,则称 X X X在区间 [ a , b ] [a, b] [a,b]上服从均匀分布, X ∼ U ( a , b ) X \sim U(a,b) X∼U(a,b)。 其分布函数为: f ( x ) = { 0 , x < a , 1 b − a ( a ≤ b ) , 1 x ≥ b .