毕业论文--基于数据挖掘的时间序列异常事件检测技术研究

上传人:liy****000 文档编号:115496926 上传时间:2019-11-13 格式:DOCX 页数:33 大小:520.31KB
返回 下载 相关 举报
毕业论文--基于数据挖掘的时间序列异常事件检测技术研究_第1页
第1页 / 共33页
毕业论文--基于数据挖掘的时间序列异常事件检测技术研究_第2页
第2页 / 共33页
毕业论文--基于数据挖掘的时间序列异常事件检测技术研究_第3页
第3页 / 共33页
毕业论文--基于数据挖掘的时间序列异常事件检测技术研究_第4页
第4页 / 共33页
毕业论文--基于数据挖掘的时间序列异常事件检测技术研究_第5页
第5页 / 共33页
点击查看更多>>
资源描述

《毕业论文--基于数据挖掘的时间序列异常事件检测技术研究》由会员分享,可在线阅读,更多相关《毕业论文--基于数据挖掘的时间序列异常事件检测技术研究(33页珍藏版)》请在金锄头文库上搜索。

1、HUNAN UNIVERSITY毕 业 论 文设计论文题目:基于数据挖掘的时间序列异常事件检测技术研究学生姓名:学生学号:专业班级:自动化四班学院名称:电气与信息工程学院指导老师:学院院长:2015年5月20日28 湖南大学毕业设计(论文) 第 28 页摘 要研究时间序列的异常事件的检测对于当今社会有重要的学术意义和现实意义。针对时间序列的连续性和非线性的复杂特征,开创了时间序列异常检测的新纪元。时间序列是特殊的数据序列中的一种,其在经济、金融、科学等各个领域都被广泛运用。所以对时间序列的异常检测在现实中具有及其重要的地位。论文重点研究了基于四分法的异常检测和基于密度的dbscan算法的异常检

2、测,还有基于ARMA模型的异常检测。首先是运用四分法粗略检测异常点的分布,这是一种比较简单常规的处理办法,可以去除很明显的异常点。而dbscan算法则较为复杂,是基于密度的一种解决方案,通过对邻域的判断来区分异常点,其结果较为精确。用ARMA模型对数据进行处理,判断数据是否平缓可适用于这个模型的选择,再甄别出异常点。关键词:异常点,时间序列,ARMA模型,异常检测 ABSTRACTThe detection of abnormal events of time series is of great academic and practical significance for the soci

3、ety today. The new era of anomaly detection of time series is created by the complex features of the continuity and nonlinearity of time series. Time series is one of the special data sequences, and it is widely used in the fields of economy, finance, science and so on. So the anomaly detection of t

4、ime series is of important status in reality.This paper mainly studies the anomaly detection based on four - point method and the anomaly detection of DBSCAN algorithm based on density, and the anomaly detection based on ARMA model.The first is to use the four methods to detect the distribution of a

5、bnormal points, which is a simple and conventional method, can remove the obvious abnormal points. The DBSCAN algorithm is more complex, is based on the density of a solution, through the neighborhood of the judgment to distinguish between the abnormal points, the result is more accurate.Using ARMA

6、model to deal with the data, judge whether the data is flat can be applied to the choice of the model, then identify the outliers.Key Words:Abnormalpoint,time series,ARMA model,anomaly detection目录基于数据挖掘的时间序列异常事件检测研究I摘要IAbstractII第一章 绪论11.1 研究背景1 1.1.1 数据挖掘.1 1.1.2 时间序列数据挖掘.1 1.1.3 异常检测.11.2 研究目的.21.

7、3 研究现状和发展趋势21.4 设计和研究方法31.5 设计过程及研究内容3第二章 相关理论技术42.1 时间序列数据挖掘任务4 2.1.1 时间数据的序列预测.42.2 时间序列的表示方法5 2.2.1 时间序列的定义表示.52.2.2 时间序列的模式表示62.2.3 时间序列的分段表示62.3 聚类分析62.4 分类62.5 异常7第三章 时间序列异常分析83.1 时间序列异常分析方法83.1.1 四分法83.1.2 方差法93.1.3 滑动窗口分析103.2 实验数据处理10 3.2.1 实验数据.10 3.2.2 实验结果.11 3.3 本章小结12第四章 ARMA模型异常检测134.

8、1 ARMA模型134.2 ARMA模型的异常点描述14 4.3实验数据和结果.16第五章 基于距离和密度的异常检测195.1距离19 5.1.1 欧几里得距离.19 5.1.2闵可夫斯基距离.20 5.1.3 距离的性质205.2 基于距离的异常检测21 5.3 基于密度的异常检测21 5.4 实验数据和结果23第六章 结论.26致谢27参考文献28附录第一章 绪论1.1 研究背景1.1.1数据挖掘在当今社会快速发展的时候,不管是科学还是自然已经生活,都产生了许许多多的数据,这些数据从理性中解释着我们的世界。在随着这些年的科学技术发展和人类社会进步,在社会的各个方面积累了庞大的数据,所以说在

9、这个数据大爆炸的年代,如何无处理这些庞大的数据是人们关注的一个焦点问题。对海量数据的挖掘需要一定的工具和方法,只有这样才能方便快捷的找出其所隐含的规律来让我们加以利用。定义1.1.1 数据挖掘1数据挖掘是一种将传统的普通数据分析方法与处理大量数据的复杂算法相结合的一种新方法,并且是从大量的数据中提取出有用的价值的信息和知识的过程。1.1.2 时间序列数据挖掘 日常生活中有许多的数据都是时间序列,例如实验室的实验数据,股票市场的股价变动,医院的看病人数,电力局的用电量等。 时间序列数据挖掘是对一个或多个时间序列的数据挖掘,是将人们事先不知道上的有用信息和知识从大量的时间序列数据中提取出来并完美地

10、应用于指导人们的社会、经济、军事和生活等活动2。1.1.3异常检测异常检测的主要目的是发现一些对象,这些对象根本不同于其他的对象。异常数据不是像人们所想的那样是错误的数据,而是就像实验时会产生误差一样,异常数据的产生是不可避免的,同时其也可能包含着一些特殊信息,这些信息相对于正常数据而言,可能会对我们有更大的作用。异常的主要成因有(1)数据来源于不同的类,(2)自然变异,(3)数据测量或收集误差。31.2研究目的 对时间序列的异常和变化点检测已可用于欺诈检测在时间序列数据挖掘领域成为研究的热点,发现罕见的事件,事件或趋势变化检测等4。基于数据挖掘的时间序列异常事件可以用于气象预报分析中的变化模

11、式的选择,证券市场的股票序列变化模式的原因,金融领域的信息安全和交通领域的道路推荐,供水领域的管网监测以及医保、环保、电力等行业的监测和预报工作。同时对于时间序列异常模式挖掘的研究不仅具有重要的学术价值,还有其现实意义。并且在针对时间序列连续、非线性、高维的复杂结构等性质上,开启了时间序列异常检测的新途径和展望。1.3研究现状和发展趋势异常模式的数据挖掘是数据挖掘大方向上的一个分支,在许多的领域都是不可或缺的,所以成为当前研究的热点。国内外关于这方面的算法文献较多,大致可以分为以下在基于时间序列的异常事件的检测的研究方法5,例如有(1)生物法,其原理来自于生物学的免疫系统机制,通过自我和异己的

12、机制来识别区分正常和异常的模式,但正常模式不止一种,可能导致负选择机制没法发挥作用。(2)机器学习方法,其分为两类:人工神经网络和支持向量机。主要是基于规则来实现的,对于原始数据进行聚类或分段得到某种规则来构造状态机,这个状态机只接受正常模式,不被接受则是异常模式。(3)基于特征空间的方法,通过对时间序列的特征化使对时间序列异常检测转换为无序集合异常点的检测。(4)基于小波的方法,在查询性能上有所改进但对短期异常无法检测。(5)基于AR或是MA模型的方法,需要知道时间序列模型。由于异常数据包含很重要的信息,所有往往不能将它作为错误数据,而是应该寻找有效的方法来检测和挖掘这些异常数据的潜在意义,

13、使之为我们的生活和发展做出贡献。时间序列在目前社会上通常是高维的、非线性这种类型的数据,如果直接对时间序列的异常模式挖掘的话,其准确率会很低,因此就需要在对时间序列进行数据挖掘模式异常之前做一个数据预处理,使得数据异常模式能够更加方便的应用到时间序列数据中。主要的预处理就是时间序列数据变换,其典型案例就是傅里叶变换,也就是将原始时间序列映射到某个特征空间,通过这个特征空间的映像来反应原始时间序列。这种方法是目前主流应用的方案,同时还有其他一系列的表示方法。例如奇异值分解、离散小波变换、分段合计近似、分段线性表示和分段多项式等方法。在2000年的Science上发表的从低维流形认知事物的观点来探讨流线学习的定义和方法,提出两种代流线形学习方法6:局部线性嵌入算法(LLE)和等距映射算法(ISOMA

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号