概率与测度 (3):概率模型 ? Free Mind

? 概率与测度 (4):闲扯大数定理与学习理论

同义反复 ?

概率与测度 (3):概率模型

  by pluskid, on 2011-09-14, in Mathematics

  2 comments

本文属于概率与测度系列。

系列的前面两篇大致陈述了一下测度论方面的基础,由于这个学期有去旁听《概率论》这门课,所以主要还是按照课程进度来吧,不定期地把课程里一些有意思的内容抽取出来整理在这里。这次就说概率模型。

先从一个例子开始,比如一个盒子里放了 8 个黑球和 2 个白球,从盒子里随机拿一个球,问它是白球的概率是多少,大家都会不假思索地说,1/5 。的确,这似乎是很显然的,不过,实际上我们是用了一个模型来进行概率分析,但是由于这个情况实在太简单了,我们根本就没有注意到模型的存在性,但是换一个稍微简单的例子,要忽略模型“走捷径”有时候就会一下子想不清楚了。比如两个人各掷一个骰子,问 A 得到的点数比 B 大的概率。这个问题就比刚才那个问题要困难一些了。

最早人们在对这类概率问题进行数学抽象的时候,归纳出来的一种模型,现正称为古典概率模型。该模型包由一个包含有限个(设为

  )元素的样本空间

  组成,

  中的每一个元素称为一个基本事件,

  的任意一个子集是一个事件。所有基本事件的概率是相等的,即

  

  

  ,而任意事件的概率即为该集合的元素个数乘以

  

  

  ,换句话说:

  

  

  

  

  

  

  

  

  

  

也就是该事件集合的元素个数除以样本空间的总元素个数。对于第一个例子,我们可以这样建立模型:对每一个球编号,一共 1 到 10 号,设 8 号和 9 号是白球,其他的都是黑球,样本空间

  为 {抽到的是 1 号球、抽到的是 2 号球、……、抽到的是 10 号球} ,而“抽到白球”这个事件集合即 {抽到的是 9 号球、抽到的是 10 号球} ,简单计算立即得到 1/5 的概率。

对于第二个问题,我们用一个 tuple

  

  

  

  

  来记两次掷骰子的结果,则整个样本空间集合为 {

  

  

  

  

  ,

  

  

  

  

  

  

  ,

  

  

  

  

  

  

  } 一共 36 个元素,要计算 A 的点数大于 B 的点数这个事件中基本事件的个数,只要暴力数一遍就好了(当然有更好的办法,例如先去掉相等的点数,然后利用对称性,但是这种具体的细节不是我们这里要关注的东西)。

心里有精确的模型存在的时候,就不至于“凭感觉”去想问题而导致各种混淆和错误了。不过古典概率模型实际上限制是比较大的,首先一个是各个基本事件的概率是一样的,这一点可以稍作修改得到稍微改进的版本。不过最主要的限制还在于样本空间必须是有限的这个问题上,在这里没有办法做直接推广,因为古典概率模型中事件的概率实际上就是把事件中包含的基本事件的概率全部加起来而得到的,但是如果集合的元素并不限制为有限个的话,求和式是不是有意义并且收敛就不一定能保证了。

除了古典概率模型之外呢,还有一个比较直观的模型叫做几何概率模型。它的样本空间为

  

  上的一个“可求体积”的图形;基本事件是该图形中的点,而基本事件的概率为零;事件则是该图形的“可求体积”的子图形,一个事件

  的概率通过如下公式计算:

  

  

  

  

  

  

  

其中

  表示样本空间的体积,而

  

  表示事件

  的体积。关于“可求体积”这个模糊的概念,我们待会再说。这里先举一个例子。比较有名的例子当属 Buffon’s needle 了,它有一个有趣的应用就是可以用来估计

  的值。这个例子虽然也不难,但是为了节省时间(好困…… ~_~),我们直接讲一个最简单直接的例子:在平面上有一个矩形,矩形里有一个圆,从矩形里任意选一个点,这个点落在圆内的概率是多少?这个问题正好就适合这里提到的几何概率模型——模型都不用建了,问题本身就已经建好了,比如,假设矩形是以原点为中心,边长为 2 的正方形,而圆是以原点为中心,半径为 1 的圆,那么根据刚才的公式,立即可以算出来概率为

  

  

  

  

  。

另一方面,我们知道(为什么?)具体试验所得到的频率是趋向于该事件的概率的。因此,我们可以通过做实验的方法来估算概率

  ,从而反过来得到

  的数值。在这里我就纯粹用程序来模拟一下:

require 'open-uri' EDGE_LEN = 1.2 def rand_ptr return [2*EDGE_LEN*rand-EDGE_LEN, 2*EDGE_LEN*rand-EDGE_LEN]end $rnd_org_nums = []def rnd_org_rand_num if $rnd_org_nums.empty? puts "Getting new random numbers from random.org" $rnd_org_nums += open('http://www.random.org/decimal-fractions/?num=10000&dec=10&col=1&format=plain&rnd=new'). read.split.map { |s| s.to_f } end return $rnd_org_nums.popenddef rnd_org_rand_ptr return [2*EDGE_LEN*rnd_org_rand_num-EDGE_LEN, 2*EDGE_LEN*rnd_org_rand_num-EDGE_LEN]end $dev_rnd_nums = []INT32_MAX = 2**32def dev_rnd_rand_num if $dev_rnd_nums.empty? puts "Getting new random numbers from /dev/urandom" $dev_rnd_nums += open('/dev/urandom').read(10000*4).unpack("L*"). map { |i| i.to_f / INT32_MAX } end return $dev_rnd_nums.popenddef dev_rnd_rand_ptr return [2*EDGE_LEN*dev_rnd_rand_num-EDGE_LEN, 2*EDGE_LEN*dev_rnd_rand_num-EDGE_LEN]end def in_circle(ptr) ptr[0]*ptr[0] + ptr[1]*ptr[1]

其实代码不用这么长的,写了这么多是因为除了用 Ruby 自带的伪随机数生成器来随机之外,还尝试了 Linux kernel 附带的据说“随机性更好”的伪随机数生成器 /dev/urandom (如果直接用真随机的 /dev/random 的话,经常 block 住……)。另外还尝试了下 random.org 提供的真随机数服务来获取随机数——不过似乎很容易就超过每天的 quota 了。到底什么样的随机数“更加随机”嘛,我想下面这个呆伯特的漫画很能说明问题:

模拟的结果不是很理想,基本上保证能算对 3.1 这两位吧,也许重复次数增加会稍微好一点。不过传说曾经有人用 Buffon’s needle 模型(应该和这里差不多的)做实验数千次之后算到了

  的 7 位精度,听上去似乎是运气相当相当好才能达到这样的精度哦。不知道可否算一下:用这样的实验方法达到 7 位精度的概率是多少呢?

最后,再来说一下刚才提到的“可求体积”这个很不精准的概念,实际上看过前两次介绍或者对测度论有所了解的同学肯定已经明白是什么意思了,其实就是“可测”的意思。为了将这些不精确的地方精确化,将以前的那些概率模型归纳起来,建立一个严格的数学模型,作为现代概率论之父的 Andrey Kolmogorov 在测度论的基础上建立了公理化的现代概率模型。

在公理化体系里,一个概率空间由一个三元组

  

  

  

  

  

  

  组成,其中

  是样本空间,

  是

  的一个子集族,它必须是一个

  -Algebra ,我们在最开始关于测度的介绍中也提到过,一个

  -Algebra (或者称

  -field )是满足如下三条公理的一个集族:

  

  

  ,

  

  

  

  

  

  

  

  

  

  ,这里

  

  表示

  的补集

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  则是一个概率测度,它也必须满足三条公理:

  

  

  

  

  

  ,

  

  

  

  

  

  

  

  

  

  

  ,

  

  

  

可列可加性

很明显可以看到,“概率测度”所满足的公理实际上就是“测度”的公理再加上了上面的第一条归一化,使得全概率等于 1 。因此,公理化的概率空间,说白了实际上就是一个归一化了的测度空间。

前面提到的两种概率模型实际上都是这种公理化模型的特殊情况。例如古典概率模型,

  是所有基本事件构成的集合,

  是

  的 power set ,也就是所有子集构成的集族,而

  就是我们以前曾经介绍过的 Counting measure 再加以归一化的结果。

而几何概率模型则更直接一点,那里的“可求体积”实际上就是指该集合(Lebesgue)可测,而概率测度就是普通的

  

  上的 Lebesgue 测度再通过全集

  的测度来归一化之后的结果。

Tags: Math, Probability

2 comments to 概率与测度 (3):概率模型

  Jinli

October 28th, 2012 at 3:45 am · Reply

博主你好,您的文章写得非常精彩,帮助我理解了很多关于概率的measure-theoretic定义方面的东西。只是有一点我一直不太明白。

我们说随机变量X的定义是一个从概率空间(A, W, P)到一个可测空间 (B, S’) 的可测映射。令 w \in W,s’ \in S’,那么 X(w) \in s’ 的概率就是 P(X^-1(s’)) 。

我的问题就是,在上述定义中并没有明确要求 X 一定会把 A 映射成 B 啊。如果 A 不一定会被映射成 B,那么就会出现在整个 B 上的概率 P(X^-1(B)) 小于等于 P(A) = 1。也就是说在我们穷尽可测空间中所有情况后它的概率不一定等于1?!我知道一定是哪出了问题,但是就是找不到,所以来请教。

   pluskid

October 28th, 2012 at 4:24 am · Reply

你好,请你仔细想一下,即便 A 到 B 不是满射,X^{-1}(B) = A 仍然是成立的。

? 概率与测度 (4):闲扯大数定理与学习理论

同义反复 ?

概率与测度 (3):概率模型

  by pluskid, on 2011-09-14, in Mathematics

  2 comments

本文属于概率与测度系列。

系列的前面两篇大致陈述了一下测度论方面的基础,由于这个学期有去旁听《概率论》这门课,所以主要还是按照课程进度来吧,不定期地把课程里一些有意思的内容抽取出来整理在这里。这次就说概率模型。

先从一个例子开始,比如一个盒子里放了 8 个黑球和 2 个白球,从盒子里随机拿一个球,问它是白球的概率是多少,大家都会不假思索地说,1/5 。的确,这似乎是很显然的,不过,实际上我们是用了一个模型来进行概率分析,但是由于这个情况实在太简单了,我们根本就没有注意到模型的存在性,但是换一个稍微简单的例子,要忽略模型“走捷径”有时候就会一下子想不清楚了。比如两个人各掷一个骰子,问 A 得到的点数比 B 大的概率。这个问题就比刚才那个问题要困难一些了。

最早人们在对这类概率问题进行数学抽象的时候,归纳出来的一种模型,现正称为古典概率模型。该模型包由一个包含有限个(设为

  )元素的样本空间

  组成,

  中的每一个元素称为一个基本事件,

  的任意一个子集是一个事件。所有基本事件的概率是相等的,即

  

  

  ,而任意事件的概率即为该集合的元素个数乘以

  

  

  ,换句话说:

  

  

  

  

  

  

  

  

  

  

也就是该事件集合的元素个数除以样本空间的总元素个数。对于第一个例子,我们可以这样建立模型:对每一个球编号,一共 1 到 10 号,设 8 号和 9 号是白球,其他的都是黑球,样本空间

  为 {抽到的是 1 号球、抽到的是 2 号球、……、抽到的是 10 号球} ,而“抽到白球”这个事件集合即 {抽到的是 9 号球、抽到的是 10 号球} ,简单计算立即得到 1/5 的概率。

对于第二个问题,我们用一个 tuple

  

  

  

  

  来记两次掷骰子的结果,则整个样本空间集合为 {

  

  

  

  

  ,

  

  

  

  

  

  

  ,

  

  

  

  

  

  

  } 一共 36 个元素,要计算 A 的点数大于 B 的点数这个事件中基本事件的个数,只要暴力数一遍就好了(当然有更好的办法,例如先去掉相等的点数,然后利用对称性,但是这种具体的细节不是我们这里要关注的东西)。

心里有精确的模型存在的时候,就不至于“凭感觉”去想问题而导致各种混淆和错误了。不过古典概率模型实际上限制是比较大的,首先一个是各个基本事件的概率是一样的,这一点可以稍作修改得到稍微改进的版本。不过最主要的限制还在于样本空间必须是有限的这个问题上,在这里没有办法做直接推广,因为古典概率模型中事件的概率实际上就是把事件中包含的基本事件的概率全部加起来而得到的,但是如果集合的元素并不限制为有限个的话,求和式是不是有意义并且收敛就不一定能保证了。

除了古典概率模型之外呢,还有一个比较直观的模型叫做几何概率模型。它的样本空间为

  

  上的一个“可求体积”的图形;基本事件是该图形中的点,而基本事件的概率为零;事件则是该图形的“可求体积”的子图形,一个事件

  的概率通过如下公式计算:

  

  

  

  

  

  

  

其中

  表示样本空间的体积,而

  

  表示事件

  的体积。关于“可求体积”这个模糊的概念,我们待会再说。这里先举一个例子。比较有名的例子当属 Buffon’s needle 了,它有一个有趣的应用就是可以用来估计

  的值。这个例子虽然也不难,但是为了节省时间(好困…… ~_~),我们直接讲一个最简单直接的例子:在平面上有一个矩形,矩形里有一个圆,从矩形里任意选一个点,这个点落在圆内的概率是多少?这个问题正好就适合这里提到的几何概率模型——模型都不用建了,问题本身就已经建好了,比如,假设矩形是以原点为中心,边长为 2 的正方形,而圆是以原点为中心,半径为 1 的圆,那么根据刚才的公式,立即可以算出来概率为

  

  

  

  

  。

另一方面,我们知道(为什么?)具体试验所得到的频率是趋向于该事件的概率的。因此,我们可以通过做实验的方法来估算概率

  ,从而反过来得到

  的数值。在这里我就纯粹用程序来模拟一下:

require 'open-uri' EDGE_LEN = 1.2 def rand_ptr return [2*EDGE_LEN*rand-EDGE_LEN, 2*EDGE_LEN*rand-EDGE_LEN]end $rnd_org_nums = []def rnd_org_rand_num if $rnd_org_nums.empty? puts "Getting new random numbers from random.org" $rnd_org_nums += open('http://www.random.org/decimal-fractions/?num=10000&dec=10&col=1&format=plain&rnd=new'). read.split.map { |s| s.to_f } end return $rnd_org_nums.popenddef rnd_org_rand_ptr return [2*EDGE_LEN*rnd_org_rand_num-EDGE_LEN, 2*EDGE_LEN*rnd_org_rand_num-EDGE_LEN]end $dev_rnd_nums = []INT32_MAX = 2**32def dev_rnd_rand_num if $dev_rnd_nums.empty? puts "Getting new random numbers from /dev/urandom" $dev_rnd_nums += open('/dev/urandom').read(10000*4).unpack("L*"). map { |i| i.to_f / INT32_MAX } end return $dev_rnd_nums.popenddef dev_rnd_rand_ptr return [2*EDGE_LEN*dev_rnd_rand_num-EDGE_LEN, 2*EDGE_LEN*dev_rnd_rand_num-EDGE_LEN]end def in_circle(ptr) ptr[0]*ptr[0] + ptr[1]*ptr[1]

其实代码不用这么长的,写了这么多是因为除了用 Ruby 自带的伪随机数生成器来随机之外,还尝试了 Linux kernel 附带的据说“随机性更好”的伪随机数生成器 /dev/urandom (如果直接用真随机的 /dev/random 的话,经常 block 住……)。另外还尝试了下 random.org 提供的真随机数服务来获取随机数——不过似乎很容易就超过每天的 quota 了。到底什么样的随机数“更加随机”嘛,我想下面这个呆伯特的漫画很能说明问题:

模拟的结果不是很理想,基本上保证能算对 3.1 这两位吧,也许重复次数增加会稍微好一点。不过传说曾经有人用 Buffon’s needle 模型(应该和这里差不多的)做实验数千次之后算到了

  的 7 位精度,听上去似乎是运气相当相当好才能达到这样的精度哦。不知道可否算一下:用这样的实验方法达到 7 位精度的概率是多少呢?

最后,再来说一下刚才提到的“可求体积”这个很不精准的概念,实际上看过前两次介绍或者对测度论有所了解的同学肯定已经明白是什么意思了,其实就是“可测”的意思。为了将这些不精确的地方精确化,将以前的那些概率模型归纳起来,建立一个严格的数学模型,作为现代概率论之父的 Andrey Kolmogorov 在测度论的基础上建立了公理化的现代概率模型。

在公理化体系里,一个概率空间由一个三元组

  

  

  

  

  

  

  组成,其中

  是样本空间,

  是

  的一个子集族,它必须是一个

  -Algebra ,我们在最开始关于测度的介绍中也提到过,一个

  -Algebra (或者称

  -field )是满足如下三条公理的一个集族:

  

  

  ,

  

  

  

  

  

  

  

  

  

  ,这里

  

  表示

  的补集

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  

  则是一个概率测度,它也必须满足三条公理:

  

  

  

  

  

  ,

  

  

  

  

  

  

  

  

  

  

  ,

  

  

  

可列可加性

很明显可以看到,“概率测度”所满足的公理实际上就是“测度”的公理再加上了上面的第一条归一化,使得全概率等于 1 。因此,公理化的概率空间,说白了实际上就是一个归一化了的测度空间。

前面提到的两种概率模型实际上都是这种公理化模型的特殊情况。例如古典概率模型,

  是所有基本事件构成的集合,

  是

  的 power set ,也就是所有子集构成的集族,而

  就是我们以前曾经介绍过的 Counting measure 再加以归一化的结果。

而几何概率模型则更直接一点,那里的“可求体积”实际上就是指该集合(Lebesgue)可测,而概率测度就是普通的

  

  上的 Lebesgue 测度再通过全集

  的测度来归一化之后的结果。

Tags: Math, Probability

2 comments to 概率与测度 (3):概率模型

  Jinli

October 28th, 2012 at 3:45 am · Reply

博主你好,您的文章写得非常精彩,帮助我理解了很多关于概率的measure-theoretic定义方面的东西。只是有一点我一直不太明白。

我们说随机变量X的定义是一个从概率空间(A, W, P)到一个可测空间 (B, S’) 的可测映射。令 w \in W,s’ \in S’,那么 X(w) \in s’ 的概率就是 P(X^-1(s’)) 。

我的问题就是,在上述定义中并没有明确要求 X 一定会把 A 映射成 B 啊。如果 A 不一定会被映射成 B,那么就会出现在整个 B 上的概率 P(X^-1(B)) 小于等于 P(A) = 1。也就是说在我们穷尽可测空间中所有情况后它的概率不一定等于1?!我知道一定是哪出了问题,但是就是找不到,所以来请教。

   pluskid

October 28th, 2012 at 4:24 am · Reply

你好,请你仔细想一下,即便 A 到 B 不是满射,X^{-1}(B) = A 仍然是成立的。


相关内容

  • 随机过程.机器学习和蒙特卡洛在金融应用中都有哪些关系?
  • 提问者说的这些我都学过,并在硕士阶段攻读其中若干领域. \begin{article} ============Keywords============ 随机过程 stochastic processes 泊松过程 Poisson processes 更新过程 renewal processes 布 ...

  • 洪永淼-经济统计学与计量经济学等相关学科的关系及发展前景
  • 洪永淼:经济统计学与计量经济学等相关学科的关系及发展前景 2016-03-10洪永淼 内容提要 本文从统计学和经济学统一的视角,分析与阐述经济统计学与计量经济学等相关学科--概率论.数理统计学.计量经济学以及经济理论(包括数理经济学)之间的相互关系及发展前景.作为从样本信息推断母体特征的一般方法论, ...

  • 统计学思考题
  • 第一章导论 1.统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度的不同,可以将统计数据分为分类数据.顺序数据和数值型数据.按照统计数据的收集方法,可以将其分为观测数据和实验数据.按照被描述的现象与时间的关系,可以将统计数据分为截面数据和时间序列数据. 分类数据是只能归于某 ...

  • 统计学笔记
  • 统计学笔记 第一章 绪论 第一节 统计与统计学 (统计学是一门收集.整理和分析数据的方法科学,其目的是探索数据的内在数量规律性,以达到对客观事物的科学认识.) 第二节 统计学的分科 第三节 统计学与其他学科的关系 第四节 统计学的产生与发展 第二章 统计数据的搜集 第一节 数据的计量与类型 一. 数 ...

  • [几何概型]创新教学设计
  • <几何概型>创新教学设计 一.教材分析: "几何概型"是继"古典概型"之后的第二类等可能概率模型,在概率论中占有相当重要的地位,是等可能事件的概念从有限向无限的延伸,是为更广泛的满足随机模拟的需要而新增加的内容,这充分体现了数学与实际生活的紧密关系 ...

  • 上海合作组织区域经济一体化的条件与挑战
  • 作者:张恒龙谢章福 俄罗斯研究 2014年08期 引言及文献回顾 本文开展的研究,旨在回应学术界关于上海合作组织是否需要将区域经济一体化作为其建设目标继续推进的争论.为此,我们在区域经济一体化组织具有内生性的假定下,通过二元响应模型,实证检验上合组织成员之间是否具备推进区域经济一体化的现实基础:同时 ...

  • 信息论基础
  • <信息论基础>课程教学大纲 课程编号:(0531305) 课程名称:信息论基础 参考学时:48 其中实验或上机学时:0 先修课及后续课:先修课:概率论.信号与系统 后续课:通信原理.数字图像处理.语音信号处理 说明部分 1.课程性质 本课程是电子信息类专业的技术基础课 2.课程教学的目的 ...

  • 景观生态学中生态连接度研究进展
  • 第29卷第11期2009年11月 生态学报Vo.l29,No.11 Nov.,2009 景观生态学中生态连接度研究进展 富 伟,刘世梁,崔保山,张兆苓 (北京师范大学环境学院水环境模拟国家重点实验室,北京 100875) * 摘要:生态连接度对生物迁移扩散.基因流动.干扰扩散等生态过程具有重要作用, ...

  • 创新型封闭式基金风险特征变化研究
  • 摘 要:在分析当前封闭式基金创新特点的基础上,运用满足一致性公理的高阶期望损失风险测度对创新型封闭式基金的风险特征进行度量,并与传统封闭式基金进行实例对比,结果发现创新型封闭式基金的波动风险明显低于传统封闭式基金,其间存在广义随机占优关系,这说明封闭式基金的创新方案确实改变了其风险特征,有助于解决折 ...