概率论与数理统计在大数据分析中的应用3篇概率论与数理统计在大数据分析中的应用1概率论与数理统计知识是数学知识体系中的重要分支,对日常生活有着 广泛的理论指导基于此,首先介绍了概率论与数理统计的主要学科知识, 其次对于概率论与数理统计知识在日常生活中的应用,从等概率问题、序 列概率问题、几何概率模型问题、统计模型、常识性统计几个方面,进行 具体的研究与分析,最后对概率与数理统计的应用做出展望概率论和数理统计是高等数学中的重要组成部分在自然界和人们的日 常生活中,随机现象与随机事件非常普遍,概率论和数理统计是对某一事 件可能结果的客观分析和理性判断只要我们细心研究就会发现,概率论 和数理统计在日常生活中有着多方面的应用一、概率论与数理统计知识概率论(Probability Theory)是研究随机现象数量规律的数学分支,数 理统计(Mathematics Statistics)是以概率论为基础,研究人类社会和自 然界中的随机现象变化规律的一种数学模型[1]概率论与数理统计知识主 要包含事件间关系的确定、概率的计算、概率计算模型、概率计算公式、 相关性分析、参数估计、假设检验与回归分析、随机变量知识、中心极限 定理等等[2]。
概率论与数理统计来源与生活,是对生活中的多种随机现象 的逻辑分析与抽象总结在日常生活中,也能找到多种应用概率论与数理 统计知识的具体体现二、概率论与数理统计在日常生活中的具体应用体现(一) 概率论与数理统计在等概率事件中的应用等概率事件是指每一个随机事件发生的概率都是相同的,等概率问题是 生活中常见的问题,小到我们玩狼人杀时的身份抽取、值日生分组中的抓 阉分组,大到工厂的货物质检、食品安全部门的卫生抽检,都能应用到概 率论与数理统计的相关知识例1: 一个罐头生产厂将密封不严、颜色不达标、微生物超榇的罐头列为 次品该工厂每月生产十五批货一批货的次品率是1/20,数量很大,有 几万个,现在随机取9个问9个里面次品数量大于2个(包括2个)的概 率有多少?解:P(B1)代表9个产品中次品数量大于2的概率P(B2)代表9个里面次品数量小于1个(包括1个)的概率,也相当于只有 一个次品的概率+没有次品的概率P(B2)=9_(1/20)_(19/20)8 +(19/20)9=10_(19/20)9=0.9288P(B1)=1-P(B2)=1-0.9288=0.0712在这次检验中,每个罐头是次品的概率都是相同的,我们从相识生活的 经验可知,整批次上万个罐头逐一检验确定产品的次品率,在时间上、成 本上都是不现实的。
这样的等概率计算可以保障工厂,在只抽检9个罐头 产品的情况下,对该批次上万个罐头的产品质量进行估计,大大节省了质 量检验的时间,同时,一定程度上保障了质量检验的科学性二) 概率论与数理统计在密码问题中的应用密码问题也是我们生活中的常见问题,当下,每个人都拥有多种电子设 备芯片存储卡,为了保障电子设备和卡片的安全性,我们常常设置不同的 密码,但往往会在使用中忘记完整的密码,以及具体的密码和设备与卡片 之间的搭配应用概率论与数理统计的知识,我们可以将琐碎的密码信息 进行随机排列组合,有计划的进行密码尝试,破解被我们忘记的密码例2:丹丹为母亲李女士购买了一台新型智能,李女士岁进行密 码设置之后,不慎将密码遗忘,只记得密码的四个数字是5, 8, 6, 3,丹 丹进行解锁尝试,有多大的可能一次就将密码解开?(正确密码为3, 5, 6, 8)解:事件A为丹丹一次尝试解锁就可以将设备解开3,5,6,8出现在设备锁中的第1,2,3,4位置为事件A1A2A3A4,P(A)=P(A1A2A3A4)=P(A1)P(A2/A1)P(A3/A1A2)P(A4/A1A2A3)=1/4_1/3_1/2_1=1/24所以,丹丹一次尝试就能成功解开的概率为1/24。
丹丹在经过概率 计算之后再进行设备解锁,可以在解锁中平心静气,认真记录每次解锁的 数值,坚定解锁过程的信心,按照不同的数字组合顺序依次解锁,避免解 锁中的重复尝试造成的时间精力的浪费,更快找到正确的密码三) 概率论与数理统计在时效性问题中的应用时效性问题是生产生活中常见的问题,例如我们与朋友相约见面、生产 中多种原料的综合投产、多种药品同时服用的相互影响作用、护肤产品的 保质期限与使用间隔时间等问题,都属于时效性问题应用几何概率模型, 能够有效的帮助我们解决生活中遇到的时效性问题,帮助我们更加科学合 理的安排与计划时间,增加对物料使用的利用效率例3:同学甲和同学乙约定上午9时到11时在南湖公园一起玩耍,不论 谁先到都在公园门口等对方30分钟,如果30分钟后对方仍没有来,就先 进入公园,按照公园的游览路线独自游览,在这样的情况下,二人在南湖 公园门口见面的几率有多大?解:假设甲同学到达南湖公园的时间为—,乙同学到达公园的时间为y, 两人在南湖公园门口见面为事件A,那么事件A实现的条件为|_-y|_le;30P(A)=(120_120-90_90)/120_120=0.4375由计算分析可知,两个同学在南湖公园门口碰面的概率为0.4375,两个 同学在知晓概率结果之后,可以更好的安排自己的时间,由于见面的几率 较小,所以二人应该在见面前加强联系,尽量缩短约定的时间间隔,并且 尽可能的为见面安排预备方案,例如,十点整在公园内摩天轮处汇合等。
在不破坏各自的路线规划的情况下,增加见面的几率,提升游玩过程的愉 悦程度 (四)假设检验在日常生活中的应用假设检验是根据假设条件的状态,从样本推断整体的一种数理统计方法 根据事件成立或满足条件的显著性水平,对一只样本数据进行检验假设 检验主要包含u检验法、t检验法、_chi;2检验法(卡方检验)、F检验法, 秩和检验等[3]实际生活中的人口结构估算、工厂生产设备状态判断、医 疗药品的临床应用效果检验等,都经常用到假设检验的数理统计方法例4: A市第六中学人口结构研究一小组,在项目报告中称老年人口比重 为15.9%,王明同学参加的课题组为了一小组的统计是否可靠,在王明同学 所在的社区内选择了 200名常住居民,发现其中有32名居民为老年人,请 问这项调查研究结果是否支持一小组的报告研究数据?(0.05)解答这类问题的要点要注意以下几个问题:首先要提出合适的假设,选 择适当的检验统计量,其次要确定统计量的分布,确定统计量的临界值, 最后要根据统计量的计算结果,选择假设检验的检验标准,最后根据假设 检验的结果对事件进行决策,对支持假设和拒绝假设进行解释说明五)贝叶斯公式在日常生活中的应用贝叶斯公式(Bayes Rule),主要表达式为P(A|B)二P(B|A)_P(A)/P(B),是 由数学家Thomas Bayes在1763年提出的、用来阐述两个条件概率之间关 系的概率论原理。
指分析样本无限大,直至接近总体时,样本中事件发生 的概率与总体中事件发生的概率将非常接近贝叶斯公式对于人们日常生 活中的多种行为决策,都有一定的指导作用尤其是医疗过程中的疾病诊 断、临床医学实验、市场行为预测与分析、现代电子邮箱信息过滤处理技 术的发展中,多处运用到贝叶斯公式贝叶斯公式在解决日常生活中的多 种问题的核心步骤是:第一,理清因果链条,哪个是假设,哪个是证据 第二,给出所有可能假设,即假设空间第三,给出先验概率第四,根 据贝叶斯概率公式求解后验概率,得到假设空间的后验概率分布第五, 利用后验概率求解条件期望,得到条件期望最大值对应的行为[4]例5, A医院研发了一台新设备,对于患有肝癌的病人的检测设备的检测 灵敏度是95%,对于没有换肝癌疾病的病人,这台设备的检测准确率为99% 这台设备的研发之后,在征询医生意见的时候,遭到医学专家的强烈反对,请问专家的统计学理由是什么?解:事件A为{病人确诊为患肝癌},事件B为{一个人患有肝癌},从已 知条件的分析可知P(B)=0.001,P(A|B)=0.95,P(A)=0.001_0.95+0.999_0.01=0.01094P(B|A)=0.001_0.95/0.0109_asymp;0.087从检测的结果来看,被检测患有肝癌疾病、而此人确实患有肝癌疾病的 概率仅为0.087,因此,这种设备的检验结果的代表性并不高,所以专家一 致反对。
患肝癌或其他严重疾病,在人群中属于小概率事件,生活中对于这样的 事件的检验,由于很难获得足够数量的样本,因而检验的结果与人们的常 识很有可能不一致,在这种情况下,要尤其重视先验概率与后验概率在贝 叶斯公式应用中的作用例如,在使用新药的情况下,即使取得了 100个 患者之中,有80个病情好转的漂亮数据,如果其对照组,即没有使用新药 的那组患者中,100个患者中有70个病情也好转了,那么这个新药即使算 是有效,但其效果也只能说是很微弱这就是为什么在设计一个方案,来 评估某种新药的疗效或某种新的治疗手段的有效性的时候,一定要设立对 照组的原因同样评估一个教育方案的有效性,评估一项新技术的效果, 分析一项员工激励措施的效果时,我们都不要忽略先验概率六)概率论与数理统计在日常生活中的其他应用布朗运动是指一种没有相关性的随机运动,分数布朗运动(fractional Bro)模型具有自相似性、非平稳性两个重要性质,在日常生活中有着多方 面的应用,例如金融市场中的股价计算,证券期货价格的随机性分析等布朗运动假设是现代资本市场理论的核心假设回归分析 (RegressionAnalysis)能够解决变量之间是否相关、相关关系强弱、相关方向等问题, 被广泛应用在财务、审计、管理与决策分析当中。
结论:综上所述,概率论和数理统计与日常生活联系紧密,在生活中有着多方 面的应用从的分析可知,研究概率论和数理统计在日常生活中的应用, 有助于我们加深对概率论和数理统计知识的理解,提高对概率论和数理统 计知识的学习兴趣,增强我们应用数学知识解决实际问题的能力,因而, 我们要在生活与实践中注意观察,加强对知识运用的灵活性21世纪以来,互联网的快速发展与推广使数据呈现几何倍数的增长,这 使我国迎来了大数据时代由于大数据具备规模大、增长快、稀疏性等特 征,这也给大数据分析带来较大困难在大数据时代,利用概率论与数理 统计方法来对繁杂数据进行分析与挖掘不失为是一种简单高效的方法,为 此,便对概率论与数理统计方法在大数据分析中的相关应用策略进行深入 的探讨在人们的生产生活中,概率学知识在方方面面中得到了广泛的应用,它 是我们对世界进行更深刻认识的重要工具,通过概率学与数理统计工具的 应用,能够使人们对各种复杂的问题及数据进行冷静科学的分析,从而使 人们的生活质量得到显著提高,并且能够根据已有的数据对事物的演变规 律及发展趋势进行准确预测正是因为这些优势,使概率论与数理统计成 为许多复杂问题的指引如今,人们对大数据的分析需求越来越迫切,这 也使人们急需一种能够适用于大数据分析的有效方法来解决实际生产生活 中的复杂问题。
鉴于此,以下便对概率论与数理统计在大数据分析中的相 关应用策略进行探讨,希望能为人们在生产生活中的大数据分析提供相应 的参考建议1. 概率论与数理统计的含义在高等数学中,概率论与数理统计方法一种具备鲜明特征的分析,其在 研究对象上具有非常独特的思维特征,并且它和其他学科特别是经济学科 存在着非常紧密的联系概率论与数理统计的内容非常丰富,这也使其成 为数学学科中的重要组成部分现阶段,概率论与数理统计方法在各个领 域中都得到了非常广泛的应用从当前来看,概率论与数理统计可以看作 是一种较为独立的学科,它在人们的生产生活当中发挥着巨大的作用,不 论是在工业领域还是在其他领域,概率论与数理统计方法对信。