概率统计基础理论学习笔记(一)

分类: MATH 发布于:

概率是有利情况下的个数与所有可能个数之比。

(一) 问题域

  • 概率论的研究的对象和目的?

  • 统计学的研究对象和目的?

  • 两者之间的联系。

参考

陈希孺教授«概率论与数理统计» «概率论思想方法的历史研究»

(二) 一点历史

  • 统计是推动概率理论的重要因素

  • 资本主义的发展不断提出新的统计问题。也是推动力之一

  • 保险公司收集的原始数据成为概率论早起发展利用的原始材料

  • 赌博 - 股本分配问题

  • 排列组合公式最早出现在公元8世纪(唐朝末期)

概率论的研究的对象和目的

概率研究的是随机过程的规律。

统计学的研究对象和目的

统计学是研究样本以及样本空间的内蕴规律。

经典场景分析

  • 事件与集合

不论概率还是统计,其基础是集合以及其子集之间的关系。

一个子集成为一个事件。

事件的本质是在特定条件下生成一个子集。

特定条件通常通过观察或假设实现的。

一个经典实例:

甲乙二人赌技相同(排除影响因素),各出赌注500元。

约定: 谁先赢三局,则谁拿走全部的赌注1000元。

现在已赌了3局,甲2胜1负而因故中止赌博。

问 1000元应该如何分?

直接分法是按照当前结果分: 甲分2/3, 乙分1/3。

进一步,更合理的分法是,

如果扩大抽样空间,继续赌2局,结果可以预期:

甲甲、甲乙、乙甲、乙乙

可见,甲方有3/4的概率会赢。另外一种分法是 甲分得1000*3/4

概率统计的学习方法或者价值倾向

为什么会有价值倾向或者学习方法?

在数理统计的学科中,不存在一个统一而精确的公理体系。

欧式几何的公理体系建立在 平行理论基础之上。

后续的推理或定理都建立在公理的基础之上。

数理统计不存在这样的最基础的公理体系。

本质原因是 概率统计描述的是事件之间的依赖关系,而这种依赖是动态的。

因此,非常赞同陈教授的观点:

  • 不存在一个确切的对概率的«定义», 使得,利用这个定义,你可以精确地得出任何事件的概率。

这是概率定义在质上的却别。 概率是相对的。

根据陈教授的观点,数理统计的价值有两点:

  • 提供了一种估计概率的方法

  • 提供了检验理论的一种准则或者出发点,使得某种活动更有方向。

概率论的公理化定义

实现概率公理化的奠基人是 前苏联 科尔莫格罗夫。

他提出(抽象)了事件和概率之间的关系。

它有一个函数来表示。对于概率函数P和事件A,

  • 0 ≤ P(A) ≤ 1, 对于 Ϝ任何成员A,对应的概率在0,1之间。

  • 对于集合本身(Ω), P(Ω) = 1。

  • 对于空集Φ, P(Φ) = 0。

以上是科式公理的基础。 跟两条平行线没有交点属于一个性质。

古典概率计算方法

经典问题(有放回)

一批产品用N个, 其中废品数M,现从中随机抽取n个, 问其中恰好m个废品的概率是多少?

分析思路

  • 样品空间 (N,n)

  • 命中事件所在空间(M,n) * (N-M,n-m)

概率 [(M,n) * (N-M,n-m)] / (N,n)

经典问题2(无放回)

n双相异的鞋工2n只,随机的分成n堆,每堆2只, 问各堆自成一双这个事件E的概率是多少?

容易懂的算法

把2n只鞋子排成1排, 共有(2n)!中排法。

要点

  • 第一只鞋子的取法有2n中, 第二只鞋子的取法是常数1,因为需要配对

  • 第3只鞋子的取法是2n-2,依次类推 2n-4, 2n-6, … 2

所以,样品空间是(2n-2)(2n-4)(2n-6)…2 = 2^n * n!

正态概率曲线和中心极限定理

相关人物: 棣莫弗(De Moivre)

相关事件: 正态概率曲线的推导过程和二项分布的验证过程。

棣莫弗在发现正态概率曲线之前,做了大量的统计工作(建立在二项分布建设的基础之上),最后在他的朋友斯特林的帮助下,最终发现了这条曲线。

文本描述如下

n次独立重复的试验中,事件出现m次的概率的期望值满足De Moivre 公式

1774年,拉普拉斯推广了这个公式到无穷区间。

古典概率的定义

1) 有限性, 只有有限个样本点($ω_1$,$ω_2$,… $ω_n$)

2) 等可能性

P($ω_1$) = P($ω_2$) = P($ω_3$) = $\frac{1}{n}$

  • 两个原理

  • 加法原理

完成一件事情需要m类方法,第一类有n1中方法,第二类有n2中 .. 第m类方法有$n_{m}$种方法, 那么完成这件事情一共需要

N = $n_1$ + $n_2$ + … + $n_m$

  • 乘法原理

完成一件事情需要m个步骤,完成第一步需要$n_1$种方法,第二步需要$n_2$种方法 .. 依次完成m个步骤

共有

N = $n_1$ * $n_2$ * … * $n_m$