《食品卫生安全保障体系数学模型1》由会员分享,可在线阅读,更多相关《食品卫生安全保障体系数学模型1(32页珍藏版)》请在金锄头文库上搜索。
1、11. 问题重述问题重述我国是一个拥有 13 亿人口的发展中国家,每天都在消费大量的各种食品,这批食 品是由成千上万的食品加工厂、不可计数的小作坊、几亿农民生产出来的,并且经过 较多的中间环节和长途运输后才为广大群众所消费,加之近年来我国经济发展迅速而 环境治理没有能够完全跟上,以至环境污染形势十分严峻;而且随着我国进出口贸易 的迅速增加,加上某些国外媒体的炒作,对外食品贸易中的矛盾也开始尖锐起来,因 此建立包括食品卫生安全保障体系在内的公共安全应急机制是关系国计民生和对外贸 易的重大而迫切的任务。 如何根据有关的调查或检测数据对当时的公共食品卫生安全做出评估是一个关键 问题,也就是要求我们根
2、据一些抽样调查数据来建立膳食暴露评估数学模型,具体可 分为以下几个问题: 1.建立人群食物摄入量模型(膳食模型) ,用于估计不同地区、不同年龄、不同 季节、不同劳动强度、不同经济收入的人群每天各类食品的摄入量。 2.建立污染物分布模型,根据食品卫生监测部门日常对市场上的食物的检测数据、 食品的流通量以及进出口口岸的检测数据来估计各类食物中各种污染物的分布。3.建立风险评估模型,根据前两个模型所提供的数据计算得出全国或某地区人群 某些污染物每天摄入量的 99.999%的右分位点,从而能对全国、某个地区、某 类食品的安全状况做出评价,而且能对可能出现的食品安全事件做出预警。2. 模型假设模型假设1
3、.假设各类污染物之间相互独立。 2.假设每人每天的污染物摄入量均来自食品,不考虑其他渠道进入人体的污染量。3.每人每天的污染物摄入量近似看成是日平均食物摄入量与食物中污染量的乘积。4.假设所有地区的人对污染物的吸收功能相同。3. 符号说明符号说明符符号号表表示示符符号号意意义义X市场上食物的检测数据集Y进出口口岸的食物检测数据集W市场上各类食品的流通量Z食品的污染量a匹配因子2impC地区 p、某人 i 每天摄入食品 m 的量njqD地区 q、食品 n 含有污染物 j 的量ijrF地区 r、某人 i 摄入污染物 j 的量( )Pbmi第 i 种蔬菜的平均含铅量( )Asmi第 i 种蔬菜的平均
4、含砷量STD国家标准( )initNi初始数据( )monNi检测性数据( )fitNi符合性数据4. 问题分析问题分析本题要求建立一个适合中国情况的膳食评估数学模型,通过这个模型,对某一时 刻食品安全风险做出评估,从而反应食品卫生状况的安全性。具体分析如下: 对于第一个问题,即建立人群食物摄入量模型,要求估计不同地区、不同年龄、 不同季节、不同劳动强度、不同经济收入的人群每天各类食品的摄入量,首先需要获 得我国的膳食数据。这批数据本可由调查人员入户调查获得,但由于工作量巨大,所 以不便操作,因此我们考虑使用分层多目标抽样方法去获得调查数据。此外,对于我 国居民消费的食品种类繁多而引起的调查困
5、难的问题,需要对食品种类进行合理分类, 因此我们在国家统计的大类基础上对各大类食品进一步细分,这样既不会影响调查精 度,又不会使调查工作量太大。 对于第二个问题,即建立污染物分布模型。由于本题未提供抽样调查数据,且网 上不易查到,同时在有限时间内不可能亲自去实施调查,为此,我们采用数据挖掘技 术生成数据,以模拟调查数据。又由于污染物分布并不是正态的,而且不知道样本应 满足的分布,所以一般的参数估计方法不能从样本中得到分布模型,于是我们考虑使 用非参数估计的有关理论建立污染物分布模型。 对于第三个问题,即建立风险评估模型。该问题的核心就是计算全国或者某地区 人群某些污染物每天摄入量的 99.99
6、9%的右分位点,关键就是根据前面两个模型的结 果来建立获取合理风险性数据的模型。获得该数据集后,用统计软件或其他算法易求 得其右分位点,从而达到了食品安全评估的目的。5. 模型准备模型准备本题从模型建立到最后的模型检验,都离不开大量的可靠的调查统计数据,但目 前由于数据寻找困难、调查数据面太广、工作量大等原因,使得数据源的获取成为模3型建立中的一个难题。当然,我们也可以用其他领域的调查结果作为本模型的模拟数 据,但是会引来很大误差。因此我们采用一种数据挖掘方法来生成模拟数据。.1 生成数据源思想通常产生数据的方法都是在已知分布的情况下模拟产生,但是我们需要的数据并 不清楚其分布,因此常规方法不
7、能满足我们的要求。通过查找资料,我们得到 2000 年 和 2001 年食品中金属污染物监测质量控制结果,它提供了一些主要食品所含污染物量 的统计表。但是它只提供污染物含量的平均值及范围,所以我们要从该有限数据来挖 掘我们需要的数据,用以建立一个准确完善的模型。为此,我们采用基于云模型的数 据挖掘方法,利用云模型中随机性与模糊性的特点,使得构造的数据源隐含了许多潜 在知识,这种数据刚好适合我们的要求。 以下是我们在数据源生成方法及程序实现上的基本思想: 1根据模型需要及经验,人为确定食品数量和食品种类。 2根据各类食品的平均含污染物量,用云模型对其进行刻画,然后利用云发生器 从概念中随机生成所
8、需的数据。 3根据属性间的内在联系给出用规则表示的先验知识,并将这些先验知识进行组 合编写出包含这些先验知识的多个数据生成函数,使得利用这些数据生成函数生成的 每一条记录能够暗含这些先验知识。 接下来,本文首先介绍云模型的基本概念以及基于云模型的数据的生成算法,最 后结合我们的实例来说明模拟数据的有效性。5.2 云模型概念模糊集概念有较广泛的应用,但其隶属函数的实质及具体确定方法一直没有得到 根本解决,隶属函数一旦被“硬化”成精确数值表达后,在概念定义、不确定性推理 等过程中,就不再有丝毫模糊性。而云模型的提出将不确定推理等过程中的模糊性与 随机性集成到了一起,较好地解决了以上的问题。 定义定
9、义 1 设 X 是一个普通集合,称为论域。关于论域 X 中的模糊集合 A, Xx 是指对于任意元素 x 都存在一个有稳定倾向的随机数,叫做 x 对 A 的隶属度。隶属度 在基础变量上的分布称为云。在对模糊集的处理过程中,论域中某一点到它的隶属度 之间的映射是一对多的转换,不是一条明晰的隶属曲线,从而产生了云的概念。 在云模型中,经过映射,属于一个定性语言值的数值是不确定的,而是始终在细 微变化着,并且这种变化不影响到云的整体特征。云的一个特定云滴可能是不重要的, 云可伸缩、无边沿、有弹性,云滴的分布特性反映了映射的模糊性和随机性,其整体 形状才是最重要的。5.3 云的数字特征正态云模型是表征语
10、言原子最重要最有力的工具,而云的数字特征则反映了定性 知识的定量特性。更为简单方便的是,一个基本正态云只需要用期望值,熵,ExEn 超熵三个数字特征就可以完整地表征出来。He 期望值:普通正态云的论域 X 中,对应于隶属度最大值的基础变量 x 称为云Ex 的期望,它标定了云对象在论域中的位置,即云的重心位置,换句话说,反映了相Ex4应的模糊概念的信息中心值。 熵:概念模糊度的度量,熵的大小直接决定了在论域中可被模糊概念所接受的En 范围。由期望和熵便可确定具有正态分布形式的云期望曲线方程:22()2( )u ExEn AMECue 令,有3uExEn2222()(3)22( )0.0110u
11、ExEnEnEn AMECuee 可见,对于某一模糊概念,其相应的云对象中位于处的元素均可忽略。3ExEn实际运用中,不难找出类似的元素,所以容易得到。u 3uExEn超熵:即熵的熵,反映了云的离散程度。超熵的大小间接地反映了云的厚HeEn 度。 从上面可以看出,云定义的独特之处在于仅仅用 3 个数值就可以勾画出由成千上万的 云滴构成的整个云来,把定性表示的语言值中的模糊性和随机性完全集成到一起。对 模糊集 A 而言,重要的是云的形状反映出的整体特性,以及大量使用时隶属度呈现的 规律性。5.4 数据生成算法根据各类食品所含污染物的平均量及含量范围的不同,首先将其属性划分为多个 基于云的概念,再
12、利用云发生器生成数据。 定义定义 2 给定云的三个数字特征、和,产生满足具有上述特征的正态云分ExEnHe布的若干二维点称为云滴。基本云发生器的示意图如图 1 所示:( ,)iix y云发生器ExEnHe( ,)iix y图 1 基本正态云发生器云发生器实际上表达了从定性到定量之间的一个转换。利用云发生器,每一次都 给、和输入相同的值,可以得到不同的云滴,虽然这些云滴各不相同,ExEnHe( ,)iix y 但它们从总体上反映了所要表达的概念,而这些云滴正是我们需要生成的测试数据源 中的数据。我们以这些数据作为模拟真实调查数据的来源。 设数据库 T 中存在 n 个属性,每个属性的数字特征为、和
13、, iExiEniHe 。则我们的数据生成算法流程如下: 1,2,in ,5产生个以为期望,imiEx 为方差的正态随机数iEn产生个以为期望,为imiEniHe 方差的正态随机数输出:测试数据生成云滴输入:数字特征、iEx 和及云滴数iEniHeim图 2, 基于云模型的数据生成流程图由该算法可以看出,是云的中心位置,的大小和是相关的,它们之间的ExExEn 比例反映了云的概念范围,因而也直接影响云滴的整体形状。由和生成的反EnHeEn 映了语言原子的亦此亦彼性,它的大小决定了语言原子表示的定性概念所对应的定量 值隶属于此概念的程度及整个云的离散程度。 我们以卷心菜和鸡肉的含铅量数据为例,用
14、 matlab 代码(请见附录四)实现的初 始数据集及相应的隶属度如图 3 所示:(a)卷心菜含铅量的生成数据6(b)鸡肉含铅量的生成数据图 3, 基于云模型生成的测试数据及隶属度5.5 样本数据生成样本数据生成本实验中,我们根据实际需求以及所获取的有限数据,在数据库中定义四个目标 变量:铅、砷、镉、有机磷。并根据 2001 年国家统计局统计的六类蔬菜的污染物含量 范围和平均值调查结果(请见附录一) ,用该算法生成我们需要的六类蔬菜含铅量和含 砷量的初始数据集。 由于初始数据集并不是符合性检验数据和监测性检验数据,所以我们需要对初始 数据进行处理,具体如下: 符合性检验数据=,其中。( )fi
15、tNi( ),( )0,( )initinitinitNiNiSTDNiSTD 1,2,0.98iN ,监测性检验数据,其中。( )( )moninitNiNi0.98,iNN ,于是我们产生的样本数据。samplefitmonNNNU为了验证我们所获取的样本数据的有效性,我们对六种蔬菜的含铅平均量与含砷 平均量及最后所剩下的试验数量与国家统计局统计的数据集进行比较(见表 1) 。从表 中可以看出,在云模型数据生成方法基础上获得的样本数据相应的数字特征和试验数 量与国家统计得到的结果相近,虽然像黄瓜的含铅平均量相差较大,但是相对于国家 标准 0.2mg/kg 来说已经很小了。这充分说明这种数据
16、生成方法有很切合实际的效果。 表 1,2001 年国家统计结果与我们代码生成的数据国家统计局的数据依据云模型的数据挖掘原理得到的 模拟数据试样种类试样数量含铅平均量 (mg/kg)试样数量含铅平均量 (mg/kg)卷心(白)菜180.019170.042韭菜180.031300.0357黄瓜180.006180.013番茄180.01090.036青(辣)椒180.035200.035茄子180.015120.053注释:1. 国家统计局的数据来源于2001 年我国部分蔬菜和肉类污染状况调查及分析 。2. 含铅平均量的国家标准为 0.2mg/kg。6.模型建立与求解模型建立与求解本文建立和求解三个模型:人群食物摄入量模型,污染物分布模型,风险评估模 型。考虑到人群食物摄入量模型需要在污染物分布模型的基础上完成,所以本文的描 述顺序为:污染物分布模型,人群食物摄入量模型,风险评估模型。6.1 污染物分布模型6.1.1 数据来源 污染物分布模型中我们主要利用三类数据: