数据分析心得体会.doc

上传人:F****n 文档编号:92120693 上传时间:2019-07-07 格式:DOCX 页数:49 大小:69.39KB
返回 下载 相关 举报
数据分析心得体会.doc_第1页
第1页 / 共49页
数据分析心得体会.doc_第2页
第2页 / 共49页
数据分析心得体会.doc_第3页
第3页 / 共49页
数据分析心得体会.doc_第4页
第4页 / 共49页
数据分析心得体会.doc_第5页
第5页 / 共49页
点击查看更多>>
资源描述

《数据分析心得体会.doc》由会员分享,可在线阅读,更多相关《数据分析心得体会.doc(49页珍藏版)》请在金锄头文库上搜索。

1、数据分析心得体会篇一:数据挖掘与分析心得体会正如柏拉图所说:需要是发明之母。随着信息时代的步伐不断迈进,大量数据日积月累。我们迫切需要一种工具来满足从数据中发现知识的需求!而数据挖掘便应运而生了。正如书中所说:数据挖掘已经并且将继续在我们从数据时代大步跨入信息时代的历程中做出贡献。1、数据挖掘数据挖掘应当更正确的命名为:“从数据中挖掘知识”,不过后者显得过长了些。而“挖掘”一词确是生动形象的!人们把数据挖掘视为“数据中的知识发现(KDD)”的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤!由此而产生数据挖掘的定义:从大量数据中挖掘有趣模式和知识的过程!数据源包括数据库、数据仓库

2、、Web、其他信息存储库或动态地流入系统的数据。作为知识发现过程,它通常包括数据清理、数据集成、数据变换、模式发现、模式评估和知识表示六个步骤。数据挖掘处理数据之多,挖掘模式之有趣,使用技术之大量,应用范围之广泛都将会是前所未有的;而数据挖掘任务之重也一直并存。这些问题将继续激励数据挖掘的进一步研究与改进!2、数据分析数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析有极广泛的应用范围。典型的数据分析可能包含以下三个步:1、探索性数据分析:当数据刚取

3、得时,可能杂乱无章,看不出规律,通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,即往什么方向和用何种方式去寻找和揭示隐含在数据中的规律性。2、模型选定分析,在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。3、推断分析:通常使用数理统计方法对所定模型或估计的可靠程度和精确程度作出推断。数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系

4、的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。由上可见,数据挖掘和数据分析虽然概念上层次清晰,作用上分工明确(数据分析主要以上数理统计为主,数据挖掘主要是挖掘算法为主)。但很明显的是,数据挖掘必须借助数据分析的有关方法来挖掘出有效的,对目标应用有意义的模式和知识。或者可以说:数据挖掘也可以是数据分析的一种!在这样一个信息迅速膨胀的时代,数据挖掘和分析都与大量数据打交道。两者都离不开一种80年代后期兴起的一种高级数据分析技术:数据仓库和联机分析处理。3、数据仓库数据仓库是一个从多个数据源收集的信息存储库,存放在一致的的模式

5、下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。为便于决策,数据仓库中的数据围绕主题组织。数据存储从历史的角度提供信息,并且通常是汇总的。数据仓库提供一些数据分析能力,称作联机分析处理(OLAP)。数据仓库有以下四种关键特征:面向主题的:数据仓库围绕一些重要主题,如顾客、供应商、产品、和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。集成的:通常,构造数据仓库是将多个异构数据源,使用数据清理和数据集成技术,确保命名约定,编码结构,属性度量等的一致

6、性。时变的:数据存储从历史的角度提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。非易失的:数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作:数据的初始化装入和数据访问。顺便提一下联机事务处理(OLTP)和联机分析处理(OLAP)的主要区别。4、分类及算法分类是一种重要的数据分析形式,它提取刻画重要数据类的模型。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和

7、特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。分类算法主要有决策树归纳、贝叶斯分类、使用IF-THEN规则分类、神经络、支持向量机等。5、聚类分析聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。常用的算法有:划分方法:k-均值算法,k-中心点算法。层次方法:层次聚类算法、平衡迭代归约和

8、算法、Chameleon(变色龙)、基于密度的方法:DBSCAN算法,OPTICS算法,DENCLUE算法。基于格的方法:STING(统计信息格),CLIQUE6、广泛应用作为一个应用驱动的领域,数据挖掘融汇来自其他一些领域的技术。这些领域包括统计学、机器学习、数据库和数据仓库系统,以及信息检索。数据挖掘研究与开发的多学科特点大大促进了数据挖掘的成功和广泛应用。数据挖掘已经有许多成功的应用,如商务智能,Web搜索,生物信息学,卫生保健信息学,金融,数字图书馆和数字政府等。7、学习总结数据挖掘技术已经形成很广泛的应用空间,而目前JDMP的版本也在完善当中,大多数数据挖掘开发工具涌现出来。各种相关

9、的框架如Hadoop也如雨后春笋纷纷出现。这些现象的出现,正是因为数据挖掘的发展会有越来越广泛的天空。然而数据挖掘还是有很多需要面临并且急需解决的问题而我们也希望其越来越深刻的研究和改进。对于数据挖掘的学习,还是要注重算法的研究和开发。目前我还很欠缺这一块知识。包括统计学、概率论,机器学习等。数据挖掘是个繁复的过程,需要我们长此以往的研究!篇二:实验设计与数据处理心得实验设计与数据处理心得体会刚开始选这门课的时候,我觉得这门课应该是很难懂的课程,首先我们做过不少的实验了,当然任何自然科学都离不开实验,大多数学科(化工、化学、轻工、材料、环境、医药等)中的概念、原理和规律大多由实验推导和论证的,

10、但我觉得每次到处理数据的时候都很困难,所以我觉得这是门难懂的课程,却也是很有必要去学的一门课程,它对于我们工科生来说也是很有用途的,在以后我们实验的数据处理上有很重要的意义。如何科学的设计实验,对实验所观测的数据进行分析和处理,获得研究观测对象的变化规律,是每个需要进行实验的人员需要解决的问题。“实验设计与数据处理”课程就是是以概率论数理统计、专业技术知识和实践经验为基础,经济、科学地安排试验,并对试验数据进行计算分析,最终达到减少试验次数、缩短试验周期、迅速找到优化方案的一种科学计算方法。它主要应用于工农业生产和科学研究过程中的科学试验,是产品设计、质量管理和科学研究的重要工具和方法,也是一

11、门关于科学实验中实验前的实验设计的理论、知识、方法、技能,以及实验后获得了实验结果,对实验数据进行科学处理的理论、知识、方法与技能的课程。通过本课程的学习,我掌握了试验数据统计分析的基本原理,并能针对实际问题正确地运用,为将来从事专业科学的研究打下基础。这门课的安排很合理,由简单到复杂、由浅入深的思维发展规律,先讲单因素试验、双因素试验、正交试验、均匀试验设计等常用试验设计方法及其常规数据处理方法、再讲误差理论、方差分析、回归分析等数据处理的理论知识,最后将得出的方差分析、回归分析等结论和处理方法直接应用到试验设计方法。比如我对误差理论与误差分析的学习:在实验中,每次针对实验数据总会有误差分析

12、,误差是进行实验设计和数据评价最关键的一个概念,是测量结果与真值的接近程度。任何物理量不可能测量的绝对准确,必然存在着测定误差。通过学习,我知道误差分为过失误差,系统误差与随机误差,并理解了他们的定义。另外还有对准确度与精密度的学习,了解了他们之间的关系以及提高准确度的方法等。对误差的学习更有意义的应该是如何消除误差,首先消除系统误差,可以通过对照试验,空白试验,校准仪器以及对分析结果的校正等方法来消除;其次要减小随机误差,就是要在消除系统误差的前提下,增加平行测定次数,可以提高平均值的精密度。比如我对方差分析的理解:方差分析是实验设计中的重要分析方法,应用非常广泛,它是将不同因素、不同水平组

13、合下试验数据作为不同总体的样本数据,进行统计分析,找出对实验指标影响大的因素及其影响程度。对于单因素实验的方差分析,主要步骤如下:建立线性统计模型,提出需要检验的假设;总离差平方和的分析与计算;统计分析,列出方差分析表。对于双因素实验的方差分析,分为两种,一种是无交互作用的方差分析,另一种是有交互作用的方差分析,对于这两种类型分别有各自的设计方法,但是总体步骤都和单因素实验的方差分析一样。除了以上一些实验设计与数据处理方法外,学习这门课程最大的收获就是对chemdraw及origin两个软件的学习。计算机软件的应用是计算机学科在化学领域中的最主要的应用之一,它不仅解决了化学计算中的复杂问题,而

14、且利用虚拟的程序把化学世界的微观结构、光谱形态等形象地展现出来,以致把化学学科的教育和科研的革命推向一个崭新的阶段。Chemdraw软件。ChemDraw是为辅助专业学科工作者及相关科技人员的交流活动和研究开发工作而设计的。它给出了直观的图形界面,开创了大量的变化功能,只要稍加实践,便会很容易地绘制出高质量的化学结构图形。因而,可为化学界出版物、手稿、报告、CAI软件、涉及化学结构图形的软件的编写制作等提供高质量的结构图形、3D转换、基本的分子模型及化学数据管理功能等。ChemDraw为此已成为世界上最流行、最受欢迎和最有应用价值的化学绘图软件。这个软件对于我们化工专业的学生来说是很有用途的。

15、我们会经常写一些化学反应式或反应机理,但每次在Word文档中都无法输入正常的分子式或根本无渠道来表达反应式。但通过对Chemdraw软件的学习,显然给我们带来了极大的方便.它给出了直观的图形界面,用起来方便,也很容易学习,不需要我们再去一条线一条线的来画,而是可以直接用鼠标点一下就可以插入,像苯环及其衍生物,而且很多反应式可以极其形象的表达出来,给我们的学习带来极大的方便。 Origin软件Origin为OriginLab公司出品的较流行的专业函数绘图软件,是公认的简单易学、操作灵活、功能强大的软件,既可以满足一般用户的制图需要,也可以满足高级用户数据分析、函数拟合的需要。而使用Origin就像使用Excel和Word那样简单,只需点击鼠标,选择菜单命令就可以完成大部分工作,获得满意的结果。 像Excel和Word一样,Origin是个多文档界面应用程序。它将所有工作都保存在Project(*.OPJ)文件中。该文件可以包含多个子窗口,如Worksheet,Graph,Matrix,Excel等。各子窗口之间是相互关联的,可以实现数据的即时更新。子窗口可以随Project文件一起存盘,也可以单独存盘,以便其他程序调用。Origin的数据分析主要包括统计、信号处理、图像处理、峰值分析和曲线拟合等各种完善的数学分析功能。准备好数据后,进行数据

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 事务文书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号