信息论与编码理论在新冠肺炎检测中的应用探讨

资源描述

《信息论与编码理论在新冠肺炎检测中的应用探讨》由会员分享，可在线阅读，更多相关《信息论与编码理论在新冠肺炎检测中的应用探讨（16页珍藏版）》请在金锄头文库上搜索。

1、信息论与编码理论在新冠肺炎检测中的应用探讨、实验目的1. 信息论与编码理论中理论，探讨多样品混合检测的效率、可行性与可靠性。2. 给出具体的编码方案。二、实验设备MATLAB 软件三、背景介绍根据武汉市新冠肺炎疫情防控指挥部涉疫大数据与流行病学调查组5月11 日发布的文件，在武汉市全市范围内将开展全员新冠病毒核酸筛查“十天大会战”。要求武汉市各区按十天期限，做好本辖区全员核酸筛查计划安排。查询武汉市单日核酸检测能力，武汉市核酸检测机构 55 家，核酸采样点211 个。湖北省单日核酸检测最多时达 8.9 万人份，武汉市单日核酸检测最多时达 6.3 万人份。根据武汉市统计局官方数据 201

2、8 年，武汉市常住人口 1108.1 万人。虽然5 月 5 日，武汉市决定对教师、医务人员、公共交通工具服务人员、大型商场等公共场所服务人员、监所和养老机构人员等“五类人员”全面开展流调和核酸检测，对教师和医务人员还要进行血清抗体检测。根据武汉市卫生健康委消息，截至4 月 29 日 24 时, 武汉市累计开展核酸检测 103.44 万人次，此次文件要求十天内，全员核酸检测将严重考验武汉市核酸检测能力。以武汉现有的检测能力，在十天内是无论如何完成不了1100万的核酸检测，如何从技术手段上解决检测能力的问题就成了首要讨论的问题。1.混检原理混检方法：在样本检测工作中，为了降低检测成本的需求

3、，提高检测速度，很多试剂公司推荐一种方案称为“混检”：即将两个或以上的样本混合检测，一旦出现阳性结果，则再次分检，找出阳性样本。这种检测方法，对于检测靶标数量较高的样本成功率较高，但对于靶标数量较低的样本漏检率高，且危害极大。假定商品试剂盒的检测敏感性极高，在临床上将5 份样本混合检测，出现阴性结果，则可以假定上述 5 份样本均为阴性。若一旦出现阳性结果，则需进行分检，会出现至少1 份，最多5 份为阳性的结果。在这种情况下，对阳性结果进行定点清理。这是最为理想的状态。但是，如果出现取样不均匀；或者样本没有进行充分保护，分检时出现靶标物降解以及提取试剂盒和扩增试剂盒的敏感性不高等因素

4、，则有可能出现“混检” 时的阳性，分检时阴性的结果。生产实际中最为可怕的情况是第四种，即“混检”阴性，若分检则出现阳性（实际上并没有人这么去做）。因为在实际检测工作中，一旦出现“混检”阴性的结果，则皆大欢喜，不再跟踪。这样的假阴性结果危害极大，会导致定点清除工作的失败。这种方法存在不足，我们考虑到如果试剂盒结果出现阳性或者假阴性或者假阳性的错误情况，需要再次进行每个样本的单独检测或者是在阴性的样本中抽查重新检测来排除错检和漏检的情况，这样导致检测效率的降低以及投入成本的增加。基于上面出现的问题，我们可以通过信息论中学到的知识，采用不同的方法解决，对不同的方案进行比较，得到在理想的

5、条件下，提高检测效率以及检测的准确度，同时降低检测成本的可靠方法。2. 方案使用数据以及基本变量定义根据在网上获取的疫情数据，我们搜集到武汉本土疫情不再新增的最后数据。并将这些数据细分到武汉市的每一个区的疫情数据统计。数据截止日期为 2020年2 月 29 日，数据如下表所示地区感染新冠病毒人数该地区总人数感染病毒率江岸区4300121万0.355%江汉区729083万0.878%硚口区723964万1.131%汉阳区357989万0.402%武昌区8224134万0.614%青山区295854万0.548%洪山区4999126万0.397%东西湖区258851万0.507%蔡甸区19745

6、7万0.346%江夏区166182万0.203%黄陡区1775122万0.145%新州区1018105万0.097%合计491221088 万0.451%表 4.2.1 疫情数据统计表 2.2.1 中的数据显示，武汉市每一个区的病毒感染率并不相同而且不具有任何的规律，最大值为 1.131%，最小值为 0.097%。针对这种情况，我们可以对不同的区采用不同的方案进行分级检测，提高检测效率降成本同时准确性也不会降低保证安全。根据表格的数据可以得到平均的感染率为0.451%，该值作为参考，用于对不同方案的优缺点评估。在新冠疫情检测中，我们根据资料了解到：核酸检测的费用是按照检测样本的数量来

7、计算的，一个样本的检测需要启动一次检测仪器同时进行对结果的校准，这些都是检测的成本。在大规模的检测中，多个样本作为一个样本检测就会节省成本。武汉市核算检测价格为180 人/人，一次检测的时间为6-8小时，在本文中采用6 小时作为检测时间。下面对一些变量作出基本的定义：X检测人数中感染的人数，X取值为0、1 NY混合样本中是否检测出病毒，Y=1表示阳性，Y=0表示阴性Z检测所需要的次数，Z的取值为0、1 MC一次检测所花费的成本，为180兀T一次检测所花费的时间，为6小时表 4.2.2 变量定义3. 可行性分析根据上文中提到的混检原理，下文进行对该方案的可行性分析在可行性分析中，我们在一个

8、试剂盒中混入 5 个采集的样本图 4.3.1 混检、分检均为阴性在图 2.3.1 中，混检为阴性，那么我们希望在对样本单独检测中均为阴性，分检的结果符合我们的预期。0 -0e0图 4.3.2 混检阳性，分检存在阳性同理，我们在混检中出现阳性，那么分检中至少有一个人出现阳性，图2.3.2 中的结果可以看出符合预期。图 4.3.3 混检阳性、分检阴性当混检出现阳性时，为了安全起见，我们会牺牲效率对每一个样本进行单独检测，发现分检结果均为阴性，证明每个样本是安全的。出现的问题可能在与在样本的采集或者是运输过程中出现疏漏导致，为了安全，混检出现阳性就要对样本单独检测，安全高于成本。图 4.3.4

9、混检阴性，分检阳性在分检出现阴性时，在混检的方法中我们默认改试剂盒中所有样本均为阴性，但是存在阳性的患者没有被检测出，会出现的很大的问题。武汉市防疫部门和李兰娟院士的团队，对所有阴性的结果中重新抽取近 1 万份的样本进行重新的检验，检验结果均为阴性，而且武汉没有再次出现疫情也说明了这种情况的可能性极低。通过杭州市混检阴性，分检阳性的统计概率为5.8x 10一7，由概率可以得到这种情况的自信息量I二log (1/p) =20.7，此信息的信息量很大说明这个事件具2有存疑度，但是存疑度为H (x)二p log (1/p)沁0说明事件基本不可能发生。2根据上述的四种情况以及武汉在这次全民检

10、测的实际结果中可以看出，混检的方案具有很高的可行性，准确性。五多人样本混检方案论证1、理论基础1)信息量所谓信息量是指从N个相等可能事件中选出一个事件所需要的信息度量或含量，也就是在辩识 N 个事件中特定的一个事件的过程中所需要提问是或否的最少次数.香农（C. E. Shannon）信息论应用概率来描述不确定性。信息是用不确定性的量度定义的.一个消息的可能性愈小，其信息愈多；而消息的可能性愈大，则其信息愈少.事件出现的概率小，不确定性越多，信息量就大，反之则少。信息量总的来说是指信息多少的量度。1928年R.V.L.哈特莱首先提出信息定量化的初步设想，他将消息数的对数定义为信息量。

11、若信源有 m 种消息，且每个消息是以相等可能产生的，则该信源的信息量可表示为I=logm。但对信息量作深入而系统研究还是从1948年C.E.仙农的奠基性工作开始的。在信息论中，认为信源输出的消息是随机的。即在未收到消息之前，是不能肯定信源到底发送什么样的消息。而通信的目的也就是要使接收者在接收到消息后，尽可能多的解除接收者对信源所存在的疑义（不定度），因此这个被解除的不定度实际上就是在通信中所要传送的信息量。2）信息熵信息是个很抽象的概念。人们常常说信息很多，或者信息较少，但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年，香农提出了“信

12、息熵”的概念，才解决了对信息的量化度量问题。信息熵这个词是C.E.Shannon（香农）从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。信息论之父克劳德艾尔伍德香农第一次用数学语言阐明了概率与信息冗余度的关系。通常，一个信源发送出什么符号是不确定的，衡量它可以根据其出现的概率来度量。概率大，出现机会多，不确定性小；反之不确定性就大。不确定性函数f是概率P的减函数；两个独立符号所产生的不确定性应等于各自不确定性之和，即f(P1,P2)=f(P1)+f(P2)，这称为可加性。同时满足这两个条件的函数f是对数函数，即f(P)

13、= log 1/p=-logp在信源中，考虑的不是某一单个符号发生的不确定性，而是要考虑这个信源所有可能发生情况的平均不确定性。若信源符号有n种取值：U1.Ui.Un，对应概率为：P1.Pi.Pn,且各种符号的出现彼此独立。这时，信源的平均不确定性应当为单个符号不确定性-logPi的统计平均值(E),可称为信息熵，即 H(U) = E-logp_i=_(i=1)An p_i logp_i ，式中对数一般取 2 为底，单位为比特。但是，也可以取其它对数底，采用其它相应的单位，它们间可用换底公式换算。最简单的单符号信源仅取0和1两个元素很卩二元信源其概率为P和Q=1- P ，该信源的熵即

14、为如图1所示。由图可见，离散信源的信息熵具有：非负性：即收到一个信源符号所获得的信息量应为正值，H(U)0 对称性：即对称于P=0.5 确定性：H(1,0)=0,即P=0或P=1已是确定状态，所得信息量为零极值性：因H(U)是P的上凸函数，且一阶导数在P=0.5时等于0,所以当 P=0.5 时，H(U)最大。对连续信源，香农给出了形式上类似于离散信源的连续熵，虽然连续熵仍具有可加性，但不具有信息的非负性，已不同于离散信源。不代表连续信源的信息量。连续信源取值无限，信息量是无限大，而是一个有限的相对值，又称相对熵。但是，在取两熵的差值为互信息时，它仍具有非负性。这与力学中势能的

15、定义相仿。信息的基本作用就是消除人们对事物的不确定性。多数粒子组合之后，在它似像非像的形态上押上有价值的数码，具体地说，这就是一个在博弈对局中信息混乱的现象。香农指出，它的准确信息量应该是-(p1*log(2,p1) + p2 * log(2,p2) + +p32 *log(2,p32)，其中，p1,p2p32分别是这32个球队夺冠的概率。香农把它称为“信息熵” (Entropy)，一般用符号H表示，单位是比特。有兴趣的读者可以推算一下当 32 个球队夺冠概率相同时，对应的信息熵等于五比特。有数学基础的读者还可以证明上面公式的值不可能大于五。对于任意一个随机变量X (比如得冠军的球队)，它的熵定义如下：变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。信息熵是信息论中用于度量信息量的一个概念。一个系统越是有序，信息熵就越低；反之，一个系统越是混乱，信息熵就越高。所以，信息熵也可以说是系统有序化程度的一个度量。熵的概念源自热物理学。假定有两种气体a、b，当两种气体完全混合时，可以达到热物

展开阅读全文

信息论与编码理论在新冠肺炎检测中的应用探讨

最新文档