数据分析在GMP中的应用

上传人:xy****7 文档编号:60797841 上传时间:2018-11-18 格式:PDF 页数:104 大小:3.36MB
返回 下载 相关 举报
数据分析在GMP中的应用_第1页
第1页 / 共104页
数据分析在GMP中的应用_第2页
第2页 / 共104页
数据分析在GMP中的应用_第3页
第3页 / 共104页
数据分析在GMP中的应用_第4页
第4页 / 共104页
数据分析在GMP中的应用_第5页
第5页 / 共104页
点击查看更多>>
资源描述

《数据分析在GMP中的应用》由会员分享,可在线阅读,更多相关《数据分析在GMP中的应用(104页珍藏版)》请在金锄头文库上搜索。

1、1 苏勤 2014.112014.11 数据分析在数据分析在GMP 实施中的应用实施中的应用 2 我国药企面临的挑战 和机遇 我国药企面临的挑战 和机遇 3 我们面临我们面临“大数据大数据”时代的挑战时代的挑战 “数据,已经渗透到当今每一个行业和业务职能领域,成为重要 的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生 产率增长和消费者盈余浪潮的到来。” -麦肯锡 “数据,已经渗透到当今每一个行业和业务职能领域,成为重要 的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生 产率增长和消费者盈余浪潮的到来。” -麦肯锡 “大数据大数据”时代已经降临,在商业、经济及其他领域中,决策将日

2、 益基于数据和分析而作出,而并非基于经验和直觉。 时代已经降临,在商业、经济及其他领域中,决策将日 益基于数据和分析而作出,而并非基于经验和直觉。 - 纽约时报纽约时报 4 数据是实施GMP管理的支持数据是实施GMP管理的支持 数据是一种观测值,是实验、测量、观察、 调查等活动中以数量的形式给出的结果。 数据分析是企业有目的地收集数据、分析数 据,使之成为信息的过程。这一过程是在产品 的整个生命周期的支持过程;是是实施GMP管理 的支持,是建立并实施高质量的药品质量体系 的支持过程。 5 10版GMP已步入到国际GMP的轨道10版GMP已步入到国际GMP的轨道 嵌入了风险管理内容最新的质量风险

3、管理 理念 嵌入了风险管理内容最新的质量风险管理 理念,已经上升到质量管理体系的层面 质量管理体系已成为 已经上升到质量管理体系的层面 质量管理体系已成为10版版GMP的核心内容 科学地评估风险管理和质量管理体系 有效性均需要数据分析的方法 的核心内容 科学地评估风险管理和质量管理体系 有效性均需要数据分析的方法 产品质量稳定与注册标准的一致性 6 数据是信息的载体。 数据统计:是数据转为信息的加工过程,统计 技术是企业质量体系中的一个重要要素。分析数 据,控制过程中的异常,坚持不懈地持续改进, 提高产品质量,提升企业的核心竞争力。 数据统计分析 -质量管理体系的支持过程 数据统计分析 -质量

4、管理体系的支持过程 7 分析和改进。 工序调节, 掌握现状, 工序管理, 检查和评价, 数据是企业的无形资产数据是企业的无形资产 8 数据分析的类型数据分析的类型 数据分析的有关基础知识数据分析的有关基础知识 描述性数据分析 推断性数据分析 验证性数据分析 描述性数据分析 推断性数据分析 验证性数据分析 是对一组数据的 各种特征的分析, 以便描述测量样本 的各种特征及其所 代表的总体的特 征。 也叫探索性 数据分析,是为 了形成值得假 设的检验而对 数据进行分析 的一种方法。 是对社会调查 数据进行的一种 统计分析。通过 因子间的关系是 否符合研究者所 设计的理论。 9 可以连续取值 的数据,

5、 计数值数据计量值数据 数据的 类型 定量数据的分类定量数据的分类 不能连续取值 的数据, 当数值是百分率时,取决于给出数值的数学式分子。分子为计量值, 则求得的百分率是计量值;如分子为计数值,求得的百分率虽不是 整数但也属于计数值。 当数值是百分率时,取决于给出数值的数学式分子。分子为计量值, 则求得的百分率是计量值;如分子为计数值,求得的百分率虽不是 整数但也属于计数值。 10 值得注意的概念值得注意的概念 总体:指所要研究对象的全体; 个体:指组成总体的每一个基本单位; 样本:从总体中随机抽出的一部分样品。 样本中所包含样品数目称为样本大小, 又叫 样本量,常用n表示。 数据的特征值数据

6、的特征值 位置特征量: 子样平均值 子样中位数 差异特征量: 极差 R=XmaxmaxXmin 标准差 相对标准差 数据的特征值计算可用Excel 一步到位。 x n 1i iX n 1 X 1 )( 2 n xx s i %100 X S RSD 12 实例11对气相层析的实验人员进行技术考 核,进样10次,每次0.5l,得色谱峰高 (mm)为: 142.1 147.0 146.2 145.2 143.8 146.2 147.3 150.3 149.9 151.8 S=3.00 RSD=2.04% 有经验的色谱工作人员很容易将RSD控制在1% 以内, 可认为该实验人员的技术还不够稳定 , 操

7、作不够熟练。 98.146x 13 平均平均 标准误差 中值 模式 标准偏差 样本方差 峰值 偏斜度 区域 最小值 最大值 求和 计数 置信度(95.0%) 用Excel进行 描述统计的 项目 14 实例1.doc实例1.doc的统计数据的统计数据 15 实例实例1:法二三个软件法二三个软件统计计算统计计算.exe 软件软件的计算的计算 16 用带统计功能(2ndF)计算器的计算用带统计功能(2ndF)计算器的计算 17 操作: ON-2ndf-C -X1-M+-X2Xi -得、得、S 、n 或或-2ndf - 得 、 得 、 X 、 X 2 X 2ndf -第二功能健第二功能健 18 让数据

8、分析的数据有质量 让数据分析产生价值 让数据分析的数据有质量 让数据分析产生价值 数据分析的前提是保证数据的质量数据分析的前提是保证数据的质量 19 抽取数据的方法 不好; 数据的抄写、计 算错误; 异常值取不到的 数据。 虚假的数据错误的数据虚假的数据错误的数据 原因 数据的来源: 历史的,现在的。 不要轻信数据不要轻信数据 数据与事实不符; 人为的虚假数据; 经过修改的数据; 因无知造成的错 误数据。 数据分析的基础数据分析的基础 制药生产现场的数据是分析的基础。 生产工序的稳定是收集可靠数据的前提。 抓住生产现场的六大因素是生产的关键。 21 算:特征数 比:统计值 找:相关因素看:动态

9、变化 22 数据分析的前处理数据分析的前处理 -数值的修约( (GB/T8170-2008)GB/T8170-2008) 四舍六入五考虑, 五后非零则进一, 五后全零看五前, 五前偶舍奇进一, 不论数字多少位, 都要一次修约成。 注:英美日药典方法修约时,按四舍五入 23 试验运算中,应比规定的有效数字多保留一 位数,后根据有效数字的修约进舍至规定有 效位。 标准差一般二位有效即可,最多保留小数后二 位。 修约的位数修约的位数 一 .一 .按美国EJ鲍尔推荐的方法进行处理。步骤 如下: 1.计算这群检测值的平均值 2.计算极差R 3.计算可疑值Xi与平均值之差的绝对值,再 用极差R除,得出ti

10、,与规定附表的临界值比较, 若ti比表上的t值大,则应弃去此可疑值。 数据的筛选方法数据的筛选方法 注:用公式t=|X-|/R计算 t,如计算值超过表上的 值时,则所调查的值是无效的。此概率约为0.95。 实例22某分析者对一样品检测,得(1)93.3(1)93.3,(2)93.3,(2)93.3 ,(3)93.4,(3)93.4,(4)93.4,(4)93.4,(5)93.3,(5)93.3,(6)94.0,(6)94.0。 问:第六个结果有效吗? 0.600.640.690.760.861.051.53t 9876543n X 0.460.500.510.520.540.560.58t 2

11、0151413121110n 附表如下:抛弃无效测量的临界值附表如下:抛弃无效测量的临界值 注:用公式t=|X-|/R计算 t,如计算值超过表上的 值时,则所调查的值是无效的。此概率约为0.95。 实例22某分析者对一样品检测,得(1)93.3(1)93.3,(2)93.3,(2)93.3 ,(3)93.4,(3)93.4,(4)93.4,(4)93.4,(5)93.3,(5)93.3,(6)94.0,(6)94.0。 问:第六个结果有效吗? X 26 解:1.计算方法六个结果的平均值 93.45 2.计算极差R94.093.30.7 3.计算可疑值与平均值之差的绝对值 再用极差除:ti|X|

12、R (94.0-93.45)0.70.79 4.与临界值t=0.76 (n6) 比较 ti0.79t=0.76 94.0是一个离群数据, 应舍弃. X X 27 二 . G-检验法(格鲁布斯法) 步骤: 1.算出包括可疑值在内的平均值; 2.计算可疑值与平均值之差; 3.算出包括可疑值在内的标准偏差; 4.用标准偏差除可疑值与平均值之差, 得G值; 5.查G的临界值表,若计算的 G 值大于查 到的值,就可把可疑值舍弃。 S XX G 28 实例2解法二解法二 查表G( 6, 0.05 ) =1.89 G = 2.04G( 6, 0.05 ) =1.89 所以这个数应舍去。 查表G( 6, 0.

13、05 ) =1.89 G = 2.04G( 6, 0.05 ) =1.89 所以这个数应舍去。 04. 2 27. 0 45.930 .94 S XX G 29 质量特性值的正态分布质量特性值的正态分布 绝大多数质量特性值服从或近似服从正态分布。 正态分布的中央点(均数)最高,然后逐渐向 两侧下降;以均数为中心,两端对称;永远不 会与 X X 轴相交的钟形曲线; 99.73% 3.0 99.00% 2.58 95.45% 2.0 95.00% 1.96 68.26% 1 50.00% 0.67 机率范围 30 异常波动 由随机原因引起 的产品质量波动 由系统原因引起的 产品质量波动; 引起波动

14、的原因- 5M1E:5M1E:人、机、料、 法、测、环。 产品质量波动产品质量波动 正常波动 生产过程在控制中, 呈稳定状态 生产过程在失控中, 呈不稳定状态 31 第二类错误:把质量坏 的一批成品当作质量好 的一批成品去看待、处 理的错误; : 第 二 类 错 误 的 概 率 值,也叫第二类错误的 风险率。 第一类错误:把质量好 的一批成品当作质量 坏的一批成品去看 待、处理的错误; :第一类错误的概率 值,也叫第一类错误 的风险率。 统计分析的两类错误和风险统计分析的两类错误和风险 弃真错误纳伪错误 32 抽样检验是由样本的质量状况去推断总体的质量是要 冒风险的。 生产方风险(PR):对于

15、给定的抽样方案,当批产 品或过程质量水平(如不合格品率)为某一指定的 可接收值(如可接受质量水平)时的拒收的概率, 即把质量好的批产品判为不合格,用表示。 使用方风险(CR):对于给定的抽样方案,当批产 品或过程质量水平为某一指定的不满意值(如极限 质量水平)时的接收概率,即把质量差的批产品判 为合格,使用方风险一般用表示 。 药品抽样检验的风险药品抽样检验的风险 33 正确抽取样本, 为测定数据 奠定基础 样本要有代表性:要代表总体,如果 做不到这一点 ,将导致对总体特性 作出不良估计。 样本也会产生误差:即使样本代表总 体,但从样本得到的信息也会产生一 定程度的误差,这种误差的大小可通 过

16、增大样本量来减小但却不能消除。 样本要有代表性:要代表总体,如果 做不到这一点 ,将导致对总体特性 作出不良估计。 样本也会产生误差:即使样本代表总 体,但从样本得到的信息也会产生一 定程度的误差,这种误差的大小可通 过增大样本量来减小但却不能消除。 关于样本关于样本 34 百分比抽样的不科学性百分比抽样的不科学性 在百分比抽样中,在相同的批不合格品 率的情况下,产品批量越大,则批的接 收概率越小,产品批量越小,则批的接 收概率越大,即“大批量严,小批量宽”, 不能正确鉴别批产品的质量水平,所以, 这是一种不科学的抽样检验方法, 工业发 达国家早已淘汰。 35 在统计数据描述的 基础上立新功,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号