数据分析在GMP中的应用

资源描述

《数据分析在GMP中的应用》由会员分享，可在线阅读，更多相关《数据分析在GMP中的应用（104页珍藏版）》请在金锄头文库上搜索。

1、1 苏勤 2014.112014.11 数据分析在数据分析在GMP 实施中的应用实施中的应用 2 我国药企面临的挑战和机遇我国药企面临的挑战和机遇 3 我们面临我们面临“大数据大数据”时代的挑战时代的挑战 “数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。” -麦肯锡 “数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。” -麦肯锡 “大数据大数据”时代已经降临，在商业、经济及其他领域中，决策将日

2、益基于数据和分析而作出，而并非基于经验和直觉。时代已经降临，在商业、经济及其他领域中，决策将日益基于数据和分析而作出，而并非基于经验和直觉。 - 纽约时报纽约时报 4 数据是实施GMP管理的支持数据是实施GMP管理的支持数据是一种观测值,是实验、测量、观察、调查等活动中以数量的形式给出的结果。数据分析是企业有目的地收集数据、分析数据，使之成为信息的过程。这一过程是在产品的整个生命周期的支持过程;是是实施GMP管理的支持,是建立并实施高质量的药品质量体系的支持过程。 5 10版GMP已步入到国际GMP的轨道10版GMP已步入到国际GMP的轨道嵌入了风险管理内容最新的质量风险

3、管理理念嵌入了风险管理内容最新的质量风险管理理念,已经上升到质量管理体系的层面质量管理体系已成为已经上升到质量管理体系的层面质量管理体系已成为10版版GMP的核心内容科学地评估风险管理和质量管理体系有效性均需要数据分析的方法的核心内容科学地评估风险管理和质量管理体系有效性均需要数据分析的方法产品质量稳定与注册标准的一致性 6 数据是信息的载体。数据统计：是数据转为信息的加工过程，统计技术是企业质量体系中的一个重要要素。分析数据，控制过程中的异常，坚持不懈地持续改进，提高产品质量，提升企业的核心竞争力。数据统计分析 -质量管理体系的支持过程数据统计分析 -质量

4、管理体系的支持过程 7 分析和改进。工序调节，掌握现状，工序管理，检查和评价，数据是企业的无形资产数据是企业的无形资产 8 数据分析的类型数据分析的类型数据分析的有关基础知识数据分析的有关基础知识描述性数据分析推断性数据分析验证性数据分析描述性数据分析推断性数据分析验证性数据分析是对一组数据的各种特征的分析，以便描述测量样本的各种特征及其所代表的总体的特征。也叫探索性数据分析,是为了形成值得假设的检验而对数据进行分析的一种方法。是对社会调查数据进行的一种统计分析。通过因子间的关系是否符合研究者所设计的理论。 9 可以连续取值的数据,

5、计数值数据计量值数据数据的类型定量数据的分类定量数据的分类不能连续取值的数据, 当数值是百分率时,取决于给出数值的数学式分子。分子为计量值, 则求得的百分率是计量值;如分子为计数值,求得的百分率虽不是整数但也属于计数值。当数值是百分率时,取决于给出数值的数学式分子。分子为计量值, 则求得的百分率是计量值;如分子为计数值,求得的百分率虽不是整数但也属于计数值。 10 值得注意的概念值得注意的概念总体:指所要研究对象的全体；个体:指组成总体的每一个基本单位；样本:从总体中随机抽出的一部分样品。样本中所包含样品数目称为样本大小，又叫样本量，常用n表示。数据的特征值数据

6、的特征值位置特征量: 子样平均值子样中位数差异特征量: 极差 R=XmaxmaxXmin 标准差相对标准差数据的特征值计算可用Excel 一步到位。 x n 1i iX n 1 X 1 )( 2 n xx s i %100 X S RSD 12 实例11对气相层析的实验人员进行技术考核，进样10次，每次0.5l，得色谱峰高（mm）为： 142.1 147.0 146.2 145.2 143.8 146.2 147.3 150.3 149.9 151.8 S=3.00 RSD=2.04% 有经验的色谱工作人员很容易将RSD控制在1% 以内, 可认为该实验人员的技术还不够稳定 , 操

7、作不够熟练。 98.146x 13 平均平均标准误差中值模式标准偏差样本方差峰值偏斜度区域最小值最大值求和计数置信度(95.0%) 用Excel进行描述统计的项目 14 实例1.doc实例1.doc的统计数据的统计数据 15 实例实例1:法二三个软件法二三个软件统计计算统计计算.exe 软件软件的计算的计算 16 用带统计功能(2ndF)计算器的计算用带统计功能(2ndF)计算器的计算 17 操作: ON-2ndf-C -X1-M+-X2Xi -得、得、S 、n 或或-2ndf - 得、得、 X 、 X 2 X 2ndf -第二功能健第二功能健 18 让数据

8、分析的数据有质量让数据分析产生价值让数据分析的数据有质量让数据分析产生价值数据分析的前提是保证数据的质量数据分析的前提是保证数据的质量 19 抽取数据的方法不好；数据的抄写、计算错误；异常值取不到的数据。虚假的数据错误的数据虚假的数据错误的数据原因数据的来源: 历史的,现在的。不要轻信数据不要轻信数据数据与事实不符；人为的虚假数据；经过修改的数据；因无知造成的错误数据。数据分析的基础数据分析的基础制药生产现场的数据是分析的基础。生产工序的稳定是收集可靠数据的前提。抓住生产现场的六大因素是生产的关键。 21 算:特征数比:统计值找:相关因素看:动态

9、变化 22 数据分析的前处理数据分析的前处理 -数值的修约( (GB/T8170-2008)GB/T8170-2008) 四舍六入五考虑, 五后非零则进一, 五后全零看五前, 五前偶舍奇进一, 不论数字多少位, 都要一次修约成。注:英美日药典方法修约时,按四舍五入 23 试验运算中，应比规定的有效数字多保留一位数，后根据有效数字的修约进舍至规定有效位。标准差一般二位有效即可,最多保留小数后二位。修约的位数修约的位数一 .一 .按美国EJ鲍尔推荐的方法进行处理。步骤如下： 1.计算这群检测值的平均值 2.计算极差R 3.计算可疑值Xi与平均值之差的绝对值，再用极差R除,得出ti

10、,与规定附表的临界值比较，若ti比表上的t值大，则应弃去此可疑值。数据的筛选方法数据的筛选方法注：用公式t=|X-|/R计算 t，如计算值超过表上的值时，则所调查的值是无效的。此概率约为0.95。实例22某分析者对一样品检测，得（1）93.3（1）93.3，（2）93.3，（2）93.3 ，（3）93.4，（3）93.4，（4）93.4，（4）93.4，（5）93.3，（5）93.3，（6）94.0，（6）94.0。问：第六个结果有效吗？ 0.600.640.690.760.861.051.53t 9876543n X 0.460.500.510.520.540.560.58t 2

11、0151413121110n 附表如下：抛弃无效测量的临界值附表如下：抛弃无效测量的临界值注：用公式t=|X-|/R计算 t，如计算值超过表上的值时，则所调查的值是无效的。此概率约为0.95。实例22某分析者对一样品检测，得（1）93.3（1）93.3，（2）93.3，（2）93.3 ，（3）93.4，（3）93.4，（4）93.4，（4）93.4，（5）93.3，（5）93.3，（6）94.0，（6）94.0。问：第六个结果有效吗？ X 26 解：1.计算方法六个结果的平均值 93.45 2.计算极差R94.093.30.7 3.计算可疑值与平均值之差的绝对值再用极差除：ti|X|

12、R （94.0-93.45）0.70.79 4.与临界值t=0.76 (n6) 比较 ti0.79t=0.76 94.0是一个离群数据, 应舍弃. X X 27 二 . G-检验法(格鲁布斯法) 步骤: 1.算出包括可疑值在内的平均值; 2.计算可疑值与平均值之差; 3.算出包括可疑值在内的标准偏差; 4.用标准偏差除可疑值与平均值之差, 得G值; 5.查G的临界值表,若计算的 G 值大于查到的值,就可把可疑值舍弃。 S XX G 28 实例2解法二解法二查表G( 6, 0.05 ) =1.89 G = 2.04G( 6, 0.05 ) =1.89 所以这个数应舍去。查表G( 6, 0.

13、05 ) =1.89 G = 2.04G( 6, 0.05 ) =1.89 所以这个数应舍去。 04. 2 27. 0 45.930 .94 S XX G 29 质量特性值的正态分布质量特性值的正态分布绝大多数质量特性值服从或近似服从正态分布。正态分布的中央点（均数）最高，然后逐渐向两侧下降；以均数为中心，两端对称；永远不会与 X X 轴相交的钟形曲线； 99.73% 3.0 99.00% 2.58 95.45% 2.0 95.00% 1.96 68.26% 1 50.00% 0.67 机率范围 30 异常波动由随机原因引起的产品质量波动由系统原因引起的产品质量波动；引起波动

14、的原因- 5M1E:5M1E:人、机、料、法、测、环。产品质量波动产品质量波动正常波动生产过程在控制中, 呈稳定状态生产过程在失控中, 呈不稳定状态 31 第二类错误：把质量坏的一批成品当作质量好的一批成品去看待、处理的错误； : 第二类错误的概率值，也叫第二类错误的风险率。第一类错误：把质量好的一批成品当作质量坏的一批成品去看待、处理的错误； :第一类错误的概率值，也叫第一类错误的风险率。统计分析的两类错误和风险统计分析的两类错误和风险弃真错误纳伪错误 32 抽样检验是由样本的质量状况去推断总体的质量是要冒风险的。生产方风险（PR）：对于

15、给定的抽样方案，当批产品或过程质量水平（如不合格品率）为某一指定的可接收值（如可接受质量水平）时的拒收的概率，即把质量好的批产品判为不合格，用表示。使用方风险（CR）：对于给定的抽样方案，当批产品或过程质量水平为某一指定的不满意值（如极限质量水平）时的接收概率，即把质量差的批产品判为合格，使用方风险一般用表示。药品抽样检验的风险药品抽样检验的风险 33 正确抽取样本, 为测定数据奠定基础样本要有代表性:要代表总体，如果做不到这一点，将导致对总体特性作出不良估计。样本也会产生误差:即使样本代表总体，但从样本得到的信息也会产生一定程度的误差，这种误差的大小可通过

16、增大样本量来减小但却不能消除。样本要有代表性:要代表总体，如果做不到这一点，将导致对总体特性作出不良估计。样本也会产生误差:即使样本代表总体，但从样本得到的信息也会产生一定程度的误差，这种误差的大小可通过增大样本量来减小但却不能消除。关于样本关于样本 34 百分比抽样的不科学性百分比抽样的不科学性在百分比抽样中，在相同的批不合格品率的情况下，产品批量越大，则批的接收概率越小，产品批量越小，则批的接收概率越大，即“大批量严，小批量宽”，不能正确鉴别批产品的质量水平，所以，这是一种不科学的抽样检验方法, 工业发达国家早已淘汰。 35 在统计数据描述的基础上立新功,

展开阅读全文