math-basic-know-probability

概率统计

函数将变量间的关系确定下来,方程将未知数确定下来,而概率研究的不确定性中的规律。
随机性导致结果变得不确定。但对于特定的随机事件,结果具有规律性,于是创造了 概率 这个概念 来描述 有规律的不确定性。

定义方式 概率的本质 数学基础 适用边界
古典定义 对称性导致的等可能性 组合计数 有限、对称结果
频率定义 长期重复的稳定频率 极限理论 可重复试验
公理化定义 满足三条公理的测度 测度论/集合论 所有随机现象
主观概率 理性主体的信念量化 贝叶斯推理 信息不完全的决策

拉普拉斯定义概率及计算方法

基本事件:一次试验的每一个可能结果;

必然事件:事件A所含基本事件的个数=基本事件总数,即 P(A)=1

掷两个骰子a,b,
n=36,即a=1,b=1~6; a=2,b=1~6 ... a=6,b=1~6;
两个骰子点数加和是5的 个数k=4,即 a=1,b=4; a=2,b=3; a=3,b=2; a=4,b=1; 则 P(A)=4/36=9;
而 点数和为2或12的概率最小,P(A)=1/36;
点数为7的概率最大,P(A)=6/36=1/6
因此,掷两个骰子,点数加和的概率是不一样的

古典概率的漏洞:

  1. 现实中存在可能性不相等的基本事件
  2. 为了求概率,先定义了基本事件。但基本事件基于概率来定义。循环定义
  3. 要先知道 基本事件总数,才能计算一个随机事件的概率。对于预测未来的事,无法列举随机性,如 保险公司无法确定一个60岁的人在未来3年得大病的概率。

伯努利试验-随机性的规律

单词实验(伯努利分布)

随机试验的规律性(概率),与试验结果存在偏差。如,扔一次硬币,正面朝上的概率是1/2,但不能保证,扔N次硬币,事件A=朝上的次数=总次数N*每次发生的概率p=N*1/2;实际上,事件A发生多少次都有可能。那如何解释这种偏差呢?

伯努利试验告诉我们,事件A发生的次数=N*p 的可能性 最大,即 不确定的规律性,只有在大量随机试验时才显现出来,当试验次数不足时,则表现为 偶然性和随意性。

伯努利试验:每次试验互不影响,只有两个事件 A,A¯,重复N次试验,每次试验一个事件出现的概率不变,A的概率为P(A),则B的概率为1-P(A)
如 掷硬币,两个基本事件,事件A=正面朝上,事件B=反面朝上;

定义:单次随机试验,只有 两种互斥结果:
“成功”(通常记为 1),概率为 p0 ≤ p ≤ 1
“失败”(通常记为 0),概率为 1-p
概率函数 (PMF): P(X=k)={pif k=11pif k=0
或等价写为: P(X=k)=pk(1p)1kfor k{0,1}

概率是“测度”——它把“事件”变成了可以像长度、面积一样去量、加、乘的几何对象;

用面积算概率,是因为它同时满足公理、经得起大数定律检验、又能被实验测量;三者缺一,就不合适。

  1. 公理系统:面积天然满足三条
    • 非负:面积 ≥ 0
    • 归一:整个蛋糕面积 = 1
    • 可数可加:把互不相交的若干块面积加起来,总面积 = 各块面积之和
    这正好是 Kolmogorov 对概率的公理化定义。
    换句话说,面积模型是公理的一个具体实现;换别的模型,只要也满足这三条,照样合法,但“面积”最直观,于是大家默认用它。

  2. 频率稳定性:面积 ≈ 长期频率
    做 n 次独立实验,事件出现的次数 k/n 随 n 增大几乎必然收敛到 P(A)。
    如果面积模型算出来的 P(A) 跟 k/n 不一致,我们就弃用这个面积切法。
    因此面积不是随意画,而是被实验数据“校准”出来的

  3. 实际可测性:面积必须能被测量
    事件必须对应实验中可以分辨的结果集合;
    面积必须对应我们能在现实中“数”或“量”的东西(计数、长度、体积、时间占比……)。
    若某事件无法被任何仪器反复观测,我们就无法给它分配面积,模型也就失效。

重复试验(二项分布)

人们不只关心单次试验,更关心 重复 n 次独立试验中的总成功次数 X(如抛 10 次硬币出现正面的次数)。
关键假设

  1. 独立性 (Independence):第 i 次试验的结果不影响第 j 次。
  2. 同质性 (Identical Distribution):每次试验成功概率恒为 p

伯努利通过试验发现,N次试验,事件A的次数符合二项(每次试验有两种结果)分布。

抛掷一枚硬币,重复10次,恰有5次正面朝上的概率P(X=5)=C105×0.55×0.550.246

X服从二项分布,记作 X~B(n,p),形式为 P(X=k)=Cnkpk(1p)nk。所有可能的 k 成功路径数”乘以“单条路径的概率

imgs/Pasted image 20240529161159.png|500
二项分布计算(伯努利试验) - 常用计算器 - 微波射频网 (mwrf.net)

重复100次试验,会发现,80%的情况下,正面朝上40~60次。
imgs/Pasted image 20240529161442.png|500
如果继续放大试验次数,会发现,正面朝上的次数在一半左右浮动。正面朝上占比特别少或者特别多的可能性很小,不像一开始那样什么情况都有可能。

定量描述偏差:

试验次数越多,误差越小,方差和标准差越小,概率分布越集中在 平均值上
100次试验 标准差=5,平均值=50,10%的误差;
10000次试验 标准差=50,平均值=5000,1%的误差;
因此,越是小概率事件,如果想确保它发生,需要重复次数足够多。
提高单次成功率,比多次试验更重要。凡事做好准备,争取一次性成功,远比不断尝试更靠谱。

泊松分布

特殊伯努利试验-泊松分布:事件A发生的概率很小,但试验次数n很大;如发生车祸的情况。
用一个“栗子”讲透让人迷惑的泊松分布_泊松过程 无限小的时间段-CSDN博客

定义:事件A发生的概率是p。n次独立试验,发生了k次,则
P(X=k)=eλλkk!,其中 λ=np (λ=是均值也是方差,平均发生次数)。当发生的次数k= λ时,发生概率达到最大值。
泊松分布,描述单位时间/空间内稀有事件发生次数的概率分布

公司100个人,10个停车位,每个员工早上8点前开车来上班的概率是10%,那么8点停车场还有车位的概率是多大?
-> 开车上班的员工数少于等于 9 人的概率
P(至少有一个空位)=P(X9)=1P(X10)=1k=1010ke10k!

imgs/Pasted image 20240529161952.png|500
泊松分布在线计算工具,在线计算,在线计算器,计算器在线计算 (osgeo.cn)

如果增加3个冗余车位, 8点停车场还有车位的概率上升到80%
->开车上班的员工数少于等于 12 人(即X≤12)

imgs/Pasted image 20240529162159.png|500
因此,冗余增加的数量并不多,却能解决大问题。

公司40个人,4个停车位,每个员工早上8点前开车来上班的概率是10%,那么8点停车场还有车位的概率是多大?
imgs/Pasted image 20240529162939.png|500
因此,试验次数越大,越能抵消随机性带来的误差

高斯/正态分布

大概率事件(概率>1/2),试验次数大

很多变量接近于正态分布:

  1. 人群的身高
  2. 成年人的血压
  3. 员工回家所需的时间
    正态分布特性:只用 均值和标准差 就能解释整个分布,N(μ1,σ2)
    正态分布密度图中,
  4. 均值是曲线的中心,是曲线的最高点,大多数点都在均值附近
  5. 均值左右曲线对称
  6. 曲线内的面积,是所有值的概率和=1
  7. 如果一个随机变量的取值符合高斯分布,
  8. 如果标准化相同,两个正态分布的函数形状相同,标准化差小则高瘦

有68%的可能性,动态范围在平均值+-标准差 内;
95%的可能性,动态范围在 平均值+-2*标准差 内;(随机性的结论只需要 95%)
99.7%的可能性,动态范围在 平均值+-3*标准差 内
imgs/Pasted image 20240529163834.png|400 imgs/Pasted image 20240529163855.png|400
imgs/Pasted image 20240529164009.png|400

举例说明 均值、标准差和发生概率的关系:
两个班级的成绩。一班成绩在60~100分之间,均值是80;二班成绩在70~100分间,均值是85;其正态分布图如下:
imgs/Pasted image 20240529164035.png|300
一班有一个小概率的可能性>90分,蓝色区域;二班也有一个小概率的可能性<75分。有多大的把握说,均分85分的二班一定比均值80分的一班强呢?要看两个班成绩的平均浮动范围,即标准差。
设,两个班的标准差都是5分。

使用两个独立正态变量的差值分布计算 P(Y>X)

同时,对于样本均值,我们可以通过t分布获取其置信度下的置信区间。增加样本数量,可以扩大置信区间。要增加样本数量,可以增加统计人数,或者增加考试次数。

条件概率和贝叶斯公式

前面的试验都是独立的,条件概率讲 特定条件下的试验发生的概率,即条件概率。
条件概率由于条件的存在,其值不是 通常情况下的概率。一旦具备条件,有些大家认为不可能的事,就成了大概率事件

如何计算条件概率?
在条件X下,1件事Y发生的条件概率P(Y|X)= 条件X和事件Y一同发生的联合概率P(X,Y) / 条件X的概率P(X),即
P(X,Y)=P(Y|X)*P(X)=P(X|Y)*P(Y)
联合条件概率比较难求,通常由 易求 推导 难求,设P(X|Y)易求,则P(X,Y)=P(X)*P(Y|X)=P(Y)*P(X|Y),P(Y|X)=P(Y)*P(X|Y)/P(X)

X
X
P(X,Y)=P(X∩Y)
P(X,Y)=P(X∩Y)
Y
Y
Text is not SVG - cannot display

主观概率贝叶斯定理提供了一种将条件概率 P(Y∣X) 分解为 翻译模型 P(X∣Y)和 语言模型P(Y)的方法。可以独立训练两个模型,最大化 P(X∣Y)⋅P(Y),综合翻译的准确性和语言的自然性,找到既符合中文语法语义的句子Y,又符合英文句子的X,达到最优翻译。

根据贝叶斯定理,P(Y|X)=P(X,Y)P(X)=P(X|Y)P(Y)P(X)

关键看两部分:
(1)翻译模型 P(X|Y):目标词语映射成原词语的概率,翻译模型(可通过马尔可夫模型计算出来),目标语言译句 Y 能还原成源语言 X 的概率

注意:P(X) 复杂且没必要,P(X) 是源语言句子本身的概率,需要考虑所有可能生成 X 的方式,计算起来非常麻烦。P(X) 对所有候选翻译 Y 来说是“固定值”,可忽略。

最终结果:因为 P(Y1|X)=P(X|Y1)P(Y1) 的乘积,远大于 P(Y2|X),所以机器会选择 Y1(“银行”)作为翻译结果,避免把“bank”错译成“河岸”。

翻译模型和语言模型的结合可以有效地捕捉翻译的双向性质。但并不意味着最佳的正向翻译也是最佳的反向翻译,因为语言之间的词汇、语法存在天然差异;只是模型在学习正向的同时,也在学习如何反向翻译,有助于模型更好的理解和生成自然语言。

概率公理化

定义概率论

  1. 样本空间:一个随机实验所有结果的集合。ωΩ,AΩ,事件 A 发生ωA
    • 结果 → 样本空间 Ω 的元素,随机试验的最小不可再分的观测值,ω ∈ Ω。(e.g., 掷骰子得到"1")
    • 事件 → Ω 的子集,结果的集合(e.g., "得到奇数" = {1,3,5})。
  2. 集合,样本空间 Ω 的子集的集合,包含:
    • Ω 本身(必然事件),
    • 空集 ∅(不可能事件),
  3. 函数,为每个事件分配一个值(概率)。

公理化定义把概率看作事件集合到[0,1]区间的特殊函数,只要函数满足三个公理,则称为 概率函数。

  1. 非负性:任何事件的概率是在 [0,1] 之间的一个实数
  2. 规范性:样本空间的概率为1
  3. 可加性,互斥事件相加:如何两个随机事件A,B互斥,即A发生则B一定不发生,则 事件的概率=A发生的概率+B发生的概率

效果:兼容古典定义和频率定义(前者是离散均匀测度,后者由大数定律保证)

基于公理,推导定理:

  1. 互补(A发生和A不发生)事件的概率和=1 公理2+公理3
  2. 不可能事件的概率=0 定理1,两个互补事件合在一起就是必然事件,必然事件的概率是1,必然事件与不可能事件互补,则不可能事件的概率必须=0

大数定理
理论计算出的概率,和大量统计得到的结果一致。正是有这种一致性,大数据方法才有了理论基础

统计学和大数据

统计学,是一门关于收集、分析(数据规律性、因素相关性)、解释、陈述数据的科学,用于预估未来的变化和发展。

大数据使用误区:

  1. 霍桑效应:被观察者知道自己成为被观察对象,而改变行为倾向的反映。
  2. 数据稀疏带来副作用。
  3. 因果反用

用好数据的五个步骤:

  1. 设立目标,确认你的假说,否定备用假说。避免盲目使用数据,有意识地过滤数据中的噪音
  2. 设计试验,选取数据。数据需要便于量化处理。
  3. 根据试验方案进行统计和实验,分析方差。
  4. 分析,提出新假说。
  5. 使用研究结果。将统计结果用于产品,也报告给别人。

古德-图灵折扣估计

黑天鹅事件的发生,就是错将小概率事件看作零概率事件。

小概率事件特点:

  1. 二八定律:多数情况下,80%的结果来自于20%的原因
  2. 词频分布特性:一个词的排位(词频排名) * 词频(词在文本中出现的次数) ≈ 常数;词频 * 相同词频的词的数量 ≈ 常数

解决方法一:古德-图灵折扣估计 解决零概率事件。通过给高频词打一个折,多出来的词频给到低频词。
解决方法二:插值法,小概率事件估计不准

零和博弈

博弈:研究竞争中的最优解。会考虑到多方策略。最优策略是平衡。

最优解:在对方给我们造成最糟糕的局面种,选择相对最好的. 这被成为最小值中的最大值策略

零和博弈:双方利益互斥,一方所得必然是另一方所失。

问题1:双人博弈的下棋问题
设 X,Y两个人下围棋.X要走下一步棋,有方法 x1,x2,x3;Y 有方法 y1,y2,y3;X 的胜率,就是Y的输率
两个人的策略有3x*3y=横x竖=9种组合方式,写成一个3*3矩阵

A=(7010211414)

当X采用x1策略,考虑对方应对,

  1. 如果Y采用y1策略,X的胜率会增加7点;
  2. 如果Y采用y3策略,X的胜率会减少10点.
    若根据目标,X选择策略:最小值中的最大。则X1 在最糟糕的结果中(每行最小),-10,1,-4,选择最大的1,即x2策略
    若根据目标,Y选择策略:最大值中的最小,则从 -7,-1,-4(每列最大),选择最大的-1,即y2策略
    平衡点:X、Y理性时,矩阵 (2,2)位置,第2行的最小值第2列的最大值,是对双方来说最好的点。
    上述矩阵,画在一个三维图形中,就是一个马鞍形。马鞍点就是(2,2),即在X看来,它是最低点中的最高点,在Y看来,是最高点中的最低点。
    简单的马鞍图如下,红色点是马鞍点
    imgs/Pasted image 20240529172812.png|300

设X知道自己行棋后,Y采用 y1,y2,y3 的概率是 70%,20%,10%,则X采用x1策略是最好的。知道对方走过每步棋后,需要重新计算平衡点。

问题2:多人博弈的投篮问题:
设10个选手投篮,投篮的准确性和篮筐的距离有关,离篮筐越近,准确性越高。现有比赛规则,第一个选手站篮筐9米处,如果投进,就是赢家;否则,第二个选手站篮筐8米处,如果投进就是赢家... 直到0米,一定投中。按此规则,第几个出场,获胜率最大?

要看命中率和距离间的关系。设命中率是1/(投篮距离+1),
9米远,命中率是 1/(1+9)=1/10
8米远,命中率是=他的命中率* 第一个人失败的概率= 1/(1+8)*0.9=1/10
由此,每个人获胜的概率都是1/10

如果命中率=1/(投篮距离+1)^2,就是最后一个出场的人获胜率最大。

非零和博弈

非零和博弈是双赢。

囚徒问题:设囚徒X,Y 一起作案被抓,要定罪。为防止串供,将两人分开审讯。如果两人都认罪,刑期5年;如果一个认罪,另一个抵赖,则认罪释放,抵赖判10年;如果两人都不认罪,都判1年,那么,X,Y应选择认罪还是抵赖?

(X,Y) 认罪 抵赖
认罪 (-5,-5) (0,-10)
抵赖 (-10,0) (-1,-1)
考虑最坏情况下的最好结果,则两人都抵赖,是双赢结果。需要对方彼此信任。
因此,囚徒策略一直被用来证明 双赢的可能性。但现实生活中,双赢的概率很小。

智猪问题:按1下按钮,食槽+10磅猪食,猪-2磅成本。如果一只猪跑去按按钮,再转身去食槽,一些猪食会被另外一只猪抢吃掉
净收益:
(大猪,小猪) 按按钮 食槽旁等待
按按钮 (5,1) (4,4)
食槽旁等待 (9,-1) (0,0)
无论大猪是否按按钮,小猪的最佳策略就是等待。大猪按,小猪1,4√;大猪不按,小猪-1,0√;
如果大猪等待,虽然可能获得9磅收益,但如果小猪也等待,则双方所得都是0,因此大猪最小值中的最大值策略是按按钮,至少可得4磅收益。而小猪策略应该是等待,这样结果能达到双赢,是双方博弈的均衡点,是稳定的。