更改

《超越学科的认知基础》2015孙一乔学习报告-第九周

添加4,150字节2015年11月18日 (三) 02:09
===正文=== ====信息论==== =====背景===== 信息论是谈另一个话题时提到的orientation metaphor,上课时候讨论到了经典的信息论公式 H(x)=-log(p)。 那个公式是信息熵的话题是我在课上提出来的,上课的时候放了一个视频,来讲解为关于为什么要用信息熵来表示信息量的大小,以及对信息量与-log(p)的感性认识。 由于在生活经验中没有类似的metaphor,所以很难对信息这个概念进行类比,无法直观的理解,所以一些我的同学没有听得太明白,下课跑来问我。 由于太紧张,以及问我问题的小学妹太可爱,所以没有讲的太清楚。回去以后就自己重新温习了这个概念,并且努力用类比的方式将他描述了出来。 =====输入===== 香农《信息论》 =====输出===== 定义:信息论认为[[信息]]是消除[[不确定性]] 的东西  比如:张中了彩票,这个事情消除了张是否中彩票这个事情的不确定性。 随便去找一些日常的dialog:  (1)“唐瑞祥的报告没有交” 消除了唐瑞祥可能交了可能没交的不确定性。这个信息产生之前,他交报告与否是一个不确定的事情,这个信息产生了,不确定性就消失了 (2)“收到” 消除了赵一全是否收到了TA的信息的可能性。  这些东西被称为信息。  那么:一个信息的信息量大不大,具体有多大是如何量化的呢?  信息的度量定义为H(事件)=-log(pi)pi是这件事情发生的概率。  为什么呢?从两个方面来考虑这个问题。  一、概率越小发生的事情,发生之后消除的不确定性越大,所以信息量也越大。  栗子一: 等概率从1~100产生一个数。根据产生的结果,产生下面的三个信息(1)这个数字是1(2)这个数字小于10 (3)这个数字小于等于50显然:发生的概率:(1)1% (2)9% (3)50%第三个信息消除了一半的不确定性,第二个信息消除了大半不确定性,第一个消除了所有的不确定性。给你信息(1),你也能导出(2)和(3),所以(1)包含的信息量更大。 栗子二:8张彩票,1个是有奖的。信息:(1)1号有奖 (2)2号没奖 这两个信息的关系很显然,能自己推导一下吗~课程上给的例子,你可以用这个做个对比,你可以想象有4个人ABCD,第一个例子是ABCD一人两张彩票,第二个例子是A4张,B2两张,CD各一张。 所以,一个信息里消除的不确定性事件的概率越小,信息量越大 用公式来说,假设A事件发生概率是p,信息量是H,H和p负相关。 二、(~_~好像不能用范式,只能解释一下)  比如栗子一的实验,连续进行两次实验,叫lab1和lab2,产生两个数a,b。 那么每一次实验完成以后,分别给出信息H1和H2,和先做完实验,再给出连续的信息H。这两个信息量应该是一样的。 比如实验随机产生了1,99. 第一种方式:H1:a=1,发生的概率为1%H2:b=99 发生的概率为1%第二种方式:H :a=1,b=99,发生的概率为1%*1%=1%% 要满足H=H1+H2。而且p=p1*p2,显然对数满足这个性质~H就是利用这两个结论而设计的:(1)H和p负相关(2)H=H1+H2分析一下~H=-log(p)=log(1/p)(1)p越大H越小(2)上文的例子中,H发生的概率为:p=p1*p2=1%*1%, H1和H2发生的概率都为p1=p2=1%  H=-log(1%*1%),H1=H2=-log(1%)显然:H=H1+H2这就是用-log(p)来代表一个信息的信息量的原因啦~log的底数是无所谓的~课上说的信息熵,就是这个H的均值。它代表了各个随机结果带来的不确定性的均值。H(X)=E(X=xi)=-pi*log(pi)X是事件,xi是各个事件,pi是xi的概率,E(X=xi)是求均值,后面是套的均值公式。你可以自己把例子带入这个范式里面去感受一下,应该就懂了~比如X是产生一个1~100的自然数,xi:产生的数是i,pi=1%
===参考文献===
匿名用户