当前位置:网站首页>数学之美 第六章——信息的度量和作用
数学之美 第六章——信息的度量和作用
2022-08-03 19:58:00 【拾柒要上岸!】
目录
信息熵
- 提出者
- 1948年,香农在他著名的论文“通信的数学原理”中提出了“信息嫡”
- 用途
- 解决了信息的度量问题,并且量化出信息的作用。
- 信息量
- 一条信息的信息量与其不确定性有着直接的关系。
- 比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果已对某件事了解较多,则不需要太多的信息就能把它搞清楚。所以,从这个角度来看,可以认为,信息量就等于不确定性的多少。
- 单位:比特
- 定义:
- 信息量的比特数和所有可能情况的对数函数log有关。( log32 = 5, log64 = 6。)
- 变量的不确定性越大,嫡也就越大,要把它搞清楚,所需信息量也就越大。
- 例1:
- 哪支球队是冠军
- 等概率情况下
- 可以把球队编上号,从1到32,然后提问:“冠军球队在1—16号中吗?”假如他告诉我猜对了,我会接着问:“冠军在1—8号中吗?”假如他告诉我猜错了,我自然知道冠军队在9—16号中。这样只需要5次,我就能知道哪支球队是冠军。所以,谁是世界杯冠军这条消息的信息量只值5元钱。即5比特
- 不等概率情况下
- 有些读者会发现实际上可能不需要猜5次就能猜出谁是冠军,因为像西班牙、巴西、德国、意大利这样的球队夺得冠军的可能性比日本、南非、韩国等球队大得多。因此,第一次猜测时不需要把32支球队等分成两个组,而可以把少数几支最可能的球队分成一组,把其他球队分成另一组。然后猜冠军球队是否在那几支热门队中。重复这样的过程,根据夺冠概率对余下候选球队分组,直至找到冠军队。这样,也许3次或4次就猜出结果。因此,当每支球队夺冠的可能性(概率)不等时,“谁是世界杯冠军”的信息量比5比特少。
- 准确信息量
- 等概率情况下
- 哪支球队是冠军
- 例2:
- 一本50万字的中文书平均有多少信息量。
- 信息熵
- 假如每个字等概率
- 那么大约需要13比特(即13位二进制数)表示一个汉字。
- 不考虑上下文的相关性,而只考虑每个汉字的独立概率
- 每个汉字的信息嫡大约也只有8—9比特
- 考虑上下文相关性
- 每个汉字的信息嫡就只有5比特左右
- 一本50万字的中文书,信息量大约是250万比特
- 每个汉字的信息嫡就只有5比特左右
- 假如每个字等概率
- 冗余度
压缩文件的大小- 采用较好的算法进行压缩,整本书可以存成一个320KB的文件。
- 如果直接用两字节的国标编码存储这本书,大约需要1MB大小,是压缩文件的3倍。
- 如果一本书重复的内容很多,它的信息量就小,冗余度就大。
- 不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。
- 信息熵
- 一本50万字的中文书平均有多少信息量。
- 一条信息的信息量与其不确定性有着直接的关系。
信息的作用
- 消除系统的不确定性
- 信息是消除系统不确定性的唯一办法(在没有获得任何信息前,一个系统就像是一个黑盒子,引入信息,就可以了解黑盒子系统的内部结构)
- 一个事物内部会存有随机性,也就是不确定性,假定为U,信息为I
- I >U
- 从外部消除这个不确定性
- I<U
- 这些信息可以消除一部分不确定性,也就是说新的不确定性
- 这些信息可以消除一部分不确定性,也就是说新的不确定性
- 如果没有信息﹐任何公式或者数字的游戏都无法排除不确定性。
- I >U
- 一个事物内部会存有随机性,也就是不确定性,假定为U,信息为I
条件熵
- 知道的信息越多,随机事件的不确定性就越小
- 也指已知某个变量之后,变量X的嫡
- X的熵
- 定义在Y的条件下的X的熵
- 定义在Y,Z条件下的X的熵
- X的熵
互信息
- 提出者
- 香农
- 概念
- 两个随机事件“相关性”的量化度量
- 定义
- 假定有两个随机事件X和Y
- 随机事件X的不确定性或者说嫡H(X)在知道随机事件Y条件下的不确定性,或者说条件嫡H(X|Y)之间的差异,即
- 互信息是一个取值在0到min(H(X),H(Y))之间的函数
- 当X和Y完全相关时,它的取值是H(X),同时H(X)=H(Y)
- 当二者完全无关时,它的取值是0。
- 假定有两个随机事件X和Y
- 应用
- 度量一些语言现象的相关性
- 机器翻译中词义的二义性
- 例如"bush"这个词既可被翻译为灌木丛,也可以被翻译为美国总统布什。利用互信息的方法是,分别从大量文本中找与“布什"和“灌木丛"各自互信息最大的词语,在翻译时再看上下文哪一类的相关词更多,即可确认翻译为哪种意思。
- 迁移学习
- 强化学习迁移的一个阻碍是,两个不同任务之间的动作空间、状态空间等不一致。通过互信息可以对不同任务的空间进行转化,达到迁移强化学习的目的
相对熵
- 用来衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相似性
- 定义
- 相对熵不对称
- 为了让它对称,詹森和香农提出一种新的相对嫡的计算方法,将上面的不等式两边取平均,即
- 结论
- 1.对于两个完全相同的函数,它们的相对嫡等于零。
- 2.相对嫡越大,两个函数差异越大;反之,相对嫡越小,两个函数差异越小。
- 3.对于概率分布或者概率密度函数,如果取值均大于零,相对嫡可以度量两个随机分布的差异性。
- 应用
- 信号处理
- 如果两个随机信号,它们的相对嫡越小,说明这两个信号越接近,否则信号的差异越大。
- 衡量两段信息的相似程度
- 比如说如果一篇文章是照抄或者改写另一篇,那么这两篇文章中词频分布的相对嫡就非常小,接近于零。
- 在Google的自动问答系统中,我们采用了上面的詹森–香农度量来衡量两个答案的相似性。
- 衡量两个常用词(在语法和语义上)在不同文本中的概率分布,看它们是否同义
- 词频率–逆向文档频率
- 信号处理
联系
- 对于统计语言模型,模型越好,预测得越准,说明当前文字的不确定性越小。因此统计语言模型的好坏可以直接用信息嫡来进行衡量,信息嫡正是对于不确定性的衡量。当有了上下文条件时,相关条件也会对帮助消除不确定性,因此可以用条件嫡来衡量。如再考虑训练语料和真实应用文本的偏差,就需再引用相对嫡的概念。
边栏推荐
- Anaconda 虚拟环境迁移
- net-snmp编译报错:/usr/bin/ld: cannot find crti.o: No such file or directory
- 调用EasyCVR云台控制接口时,因网络延迟导致云台操作异常该如何解决?
- relocation R_X86_64_PC32 against,/usr/bin/ld: final link failed: Bad value
- 嵌入式分享合集27
- 建模该从哪一步开始?给你分析,给零基础的你一些学习建议
- 盘点在线帮助中心对企业能够起到的作用
- 高位套牢机构,用友网络的信任危机是如何产生的?
- 微导纳米IPO过会:年营收4.28亿 君联与高瓴是股东
- MySQL Basics
猜你喜欢
JMeter笔记5 |Badboy使用和录制
【STM32】标准库-自定义BootLoader
ARMuseum
149. The largest number on a straight line, and check the set
Shell编程之循环语句
List类的超详细解析!(超2w+字)
tRNA-m5C转运RNA(tRNA)修饰5-甲基胞嘧啶(m5C)|tRNA修饰m1Am2A (2-methyladenosine)
Reveal how the five operational management level of hundreds of millions of easily flow system
信使mRNA甲基化偶联3-甲基胞嘧啶(m3C)|mRNA-m3C
傅里叶变换(深入浅出)
随机推荐
子结点的数量(2)
深入理解JVM-内存结构
Matlab paper illustration drawing template No. 42 - bubble matrix diagram (correlation coefficient matrix diagram)
调用EasyCVR接口时视频流请求出现404,并报错SSL Error,是什么原因?
一种能有效缓解环境噪声对音频质量干扰的方案
CentOS 7 安装mysql
标准C语言学习总结11
花 30 美金请 AI 画家弄了个 logo,网友:画得非常好,下次别画了!
百利药业IPO过会:扣非后年亏1.5亿 奥博资本是股东
ESP8266-Arduino编程实例-BH1750FVI环境光传感器驱动
Detailed steps for tensorflow-gpu2.4.1 installation and configuration
单调栈及其应用
详解AST抽象语法树
EMQX Newsletter 2022-07|EMQX 5.0 正式发布、EMQX Cloud 新增 2 个数据库集成
The addition and subtraction of the score of the force deduction brush question (a daily question 7/27)
Hinton2022年RobotBrains访谈记录
「学习笔记」高斯消元
ARMuseum
FreeRTOS中级篇
抖音web逆向教程