当前位置:网站首页>终于有人把大数定律讲明白了
终于有人把大数定律讲明白了
2022-06-09 10:28:00 【大数据v】
导读:在一些情况下,概率是由频率推导而来的,要得到可信的概率,就要大量重复地试验。而且,重复试验的次数越多,结论就越让人信服。那么,为何人们直觉上更愿意相信从大数据中得到的统计结果,而不是从小数据中得到的经验呢?
作者:徐晟
来源:大数据DT(ID:hzdashuju)

01 大数定律的概念和意义
要解释这一现象,统计学中有一个非常重要的理论——大数定律。该定律表明,样本数量越多,结论就越接近真实的概率分布。也就是说,在重复的试验中,随着试验次数不断增加,事件发生的频率会越来越趋于一个稳定的数值,即它的概率。
大数定律最早是由数学家伯努利在他的《推测术》中提出的。该书由4个部分组成,前3部分主要是对古典概率的系统性阐述,第4部分是这本书的精华,主要探讨了概率论在社会、道德和经济领域的应用,其中就提到了大数定律以及它的证明过程。
只有基于大量的统计数据,才能得到更为准确的统计结果。这个结论虽然直觉上好理解,但以前没有人证明过它。
伯努利的伟大之处就在于,他用数学严格证明和解释了这个直觉经验:只要通过大量试验,人们观察得到的频率和实际的概率之间的差距就会越来越小,而且只要重复次数足够多,这个误差就能够小于任意小的正数。这也是概率论历史上第一个极限定理。
由伯努利首先研究并推广的大数定律,已经成为整个统计学的基础。随后经过几百年的发展,大数定律的理论体系被不断完善,切比雪夫、辛钦、泊松、马尔可夫等一系列大数定理被提出和证明,它们都是基于大数定律的某种数学表达。
不过,人们仍然对伯努利大数定律的哲学意义给出了很高的评价。伯努利自己在《推测术》的最后说道:如果我们能把一切事件永恒地观察下去,那么我们终将发现,世间的一切事物都受到因果律的支配,而我们注定会在种种极其杂乱的现象中认识到某种必然。
大数定律告诉我们,随机事件重复发生后,其可能性结果会趋于一种稳定的状态。它揭示了随机事件发生频率的长期稳定性,体现了偶然之中包含的一种必然。
大数定律已经广泛应用到宏观经济学、量子热力学、空气动力学等各个领域。
生活中很多地方也能看到它的身影。比如你想换部手机,于是在网上搜索手机的相关信息,突然发现一个人对某品牌型号的手机赞不绝口,这时你该怎么做?轻易地相信对方?或选择再看看别人的评价?大数定律的建议是,如果评论人数很少,这些评论就不能很好地反映商品的真实价值。
那些在网站上排名靠前、评价极高的商品、视频、资讯,可能只是因为有少数人给出了极高的分数,或是商业广告推荐。它们仅仅是个案。只有参考大部分人的评价,才更接近真实情况,数据结论才更有价值。
02 蒙特卡洛方法
今天被人们经常提及和用到的蒙特卡洛方法,其理论依据就是大数定律。
蒙特卡洛方法是由数学家冯·诺伊曼、乌拉姆等人最早发明的,也称统计模拟方法。蒙特卡洛不是人名,而是摩纳哥的一座城市,它是世界上著名的赌城。蒙特卡洛方法是一种基于概率的计算方法,它将求解问题和概率模型关联起来,不断从总体中抽取随机样本,通过模拟和计算得到近似解。此方法随着计算机技术的发展被迅速普及。
蒙特卡洛方法的原理很朴实,简单来说就是不断抽样,逐渐逼近。比如要计算圆周率π,可以先让计算机模拟一个正方形和里面的一个圆,如图1-2所示。

▲图1-2 用蒙特卡洛方法计算圆周率示意图
随后让计算机不断模拟向正方形中随机地“撒点”。统计落在圆内的点的数量和所有正方形中点的数量的比值,并将它近似看成是圆形和正方形的面积的比值,即π/4。只要模拟数据点足够多,就能近似计算出圆周率π。模拟的数据越多,计算结果就越逼近真正的π值。
蒙特卡洛方法别看原理简单,其实使用起来相当灵活。它能用于很多需要“枚举”的算法,比如下围棋、走迷宫,或计算任何不规则几何图形的面积。
关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。
本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

《大话机器智能:一书看透AI的底层运行逻辑》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

划重点
干货直达
更多精彩
在公众号对话框输入以下关键词
查看更多优质内容!
读书 | 书单 | 干货 | 讲明白 | 神操作 | 手把手
大数据 | 云计算 | 数据库 | Python | 爬虫 | 可视化
AI | 人工智能 | 机器学习 | 深度学习 | NLP
5G | 中台 | 用户画像 | 数学 | 算法 | 数字孪生
据统计,99%的大咖都关注了这个公众号
边栏推荐
- 每日一题-1200. 最小绝对差
- Float float simulates double precision computation on CPU and GPU
- 多线程之生产者和消费者模型
- merge sort
- 【mysql进阶】利用执行计划explain优化sql(二)
- 双向BFS
- Tensorflow new document publishing: add CLP, dtensor The most advanced model is ready!
- One question per day -1200 Minimum absolute difference
- 4. 软件工程:航空行李托运费计算
- Go zero micro Service Practice Series (II. Service splitting)
猜你喜欢

MOFs, metal organic framework materials of folate ligands, are loaded with 5-fluorouracil, sidabelamine, taxol, doxorubicin, daunorubicin and other drugs

MOF-53NPs负载抗菌药物分子万古霉素(MOF金属有机骨架负载蛋白多肽类药物)

Eight sorting methods (difficulty: heap sort merge sort quick sort)

基于任务调度的企业级分布式批处理方案

web开发重点,简单开发web

excel条件格式使用详细步骤

Harbor正确密码登录不上去

叁拾捌- JS 在 Canvas 上尝试分形图形 (二) 尝试造山画山 以及 角度几何基础

用80%的工时拿100%的薪水,英国正式开启“四天工作制”试验!

三维数字沙盘展示具备哪些应用优势
随机推荐
MOFs, metal organic framework materials of folate ligands, are loaded with 5-fluorouracil, sidabelamine, taxol, doxorubicin, daunorubicin and other drugs
叁拾柒- JS 在 Canvas 上尝试分形图形 (一) 画了一个普通箱子图
文档书写规范
[机缘参悟-20]:鬼谷子-反应篇-动静之术、说听结合、沉默是金
塔米狗知识|2022年新的国有产权非公开协议转让新规解读来了!
叁拾肆- sklearn 根据样本对文本情绪进行分类
Thirty one - the number of mongodb links in nodejs simple proxy pool (combined) exploded
复杂嵌套的对象池(2)——管理单个实例对象的对象池
计网 | OSI模型中各层单位
【tgcalls】跟踪調試calls的manager們 2
Mof-53nps loaded antibacterial molecule vancomycin (MOF metal organic framework loaded protein polypeptide drugs)
[go] introduction to exp
简单有趣的小蛇成长游戏--贪吃蛇
DM platform management - NETCORE
Is it safe for CICC fortune to open an account
QT char to realize dynamic waveform display
Matlab related function knowledge points (III) -floor function + dot division operator + matrix index rules
new和malloc区别和malloc详解
Mathematical formula display
Thirty four - sklearn classifies text emotions according to samples