大规模过程数据挖掘技术v7ppt课件

上传人:资****亨 文档编号:129964041 上传时间:2020-04-24 格式:PPT 页数:43 大小:9.47MB
返回 下载 相关 举报
大规模过程数据挖掘技术v7ppt课件_第1页
第1页 / 共43页
大规模过程数据挖掘技术v7ppt课件_第2页
第2页 / 共43页
大规模过程数据挖掘技术v7ppt课件_第3页
第3页 / 共43页
大规模过程数据挖掘技术v7ppt课件_第4页
第4页 / 共43页
大规模过程数据挖掘技术v7ppt课件_第5页
第5页 / 共43页
点击查看更多>>
资源描述

《大规模过程数据挖掘技术v7ppt课件》由会员分享,可在线阅读,更多相关《大规模过程数据挖掘技术v7ppt课件(43页珍藏版)》请在金锄头文库上搜索。

1、 大规模过程数据挖掘技术 王建民清华大学软件学院2012 12 15北京 香山 互联网速度 277 000Logins6millionFacebookviews 2 millionSearchqueries 1 3millionVideoviews Event isanobservableoccurrenceorphenomenonEventdatarecordsarecreatedwheneversomesortoftransactionoccursEventdatarecordsaregeneratedatanextremelygranularlevelbybusinessapplicat

2、ions ITinfrastructure RFIDs etc andsecuritysystemsAlmostanytypeofrecordthatiscreatedtorecordatransactionandaffixedwithatimestampmeetsthedefinitionofaneventdata 事件数据 事件数据也被称为行为数据 过程数据 DataComposedofEventsDataonmultipleunitsandlevelsofanalysiswithambiguousboundariesDataofVariableTemporalEmbeddednessDa

3、tathatareEclectic AcademyofManagementReview AMR 1999年发表 截止2012年12月 Googlescholar引用1696次 SCI引用520次 Top6of899 ImpactFactor 6 169 过程数据具有潜在Caseid的事件数据 表现为Trail的集合 过程数据举例 1 工程机械物联示意图 据 数 件 事 执行 感知 决策 传输 记录了工程机械的实际运行过程 过程数据举例 1 工程机械工况日志 设备信息 参数取值 发生时间 事件类型 事件 过程数据举例 2 大型集团企业OA日志 来自IBMLotusDomino系统公文流转日志事件

4、 每个事件都具有7个属性 文档id 即案例D 处理环节 即活动名称 处理人 即执行人 到达时间 即开始时刻 发出时间 即结束时刻 提交路径 输出弧的名称 后续处理环节 即下一个活动及其执行人 过程数据举例 3 互联网搜索引擎日志 20110916151157003 192 168 34 116 218 24 110 165 Mozilla 4 0 compatible MSIE6 0 WindowsNT5 2 SV1 NETCLR1 1 4322 NETCLR2 0 50727 F51D0D56A558A3C79D08C645D0DBBD83 bb89c91a 24a7 4f14 9e6c 2

5、2cc35240d90 xxx www page search XXX com UTF 8 100011 t page fr 0 q 杨欣梅电台工作人员 sa 0 pn 10 hit 1247056964 rt 170 过程数据举例 3 互联网搜索引擎日志 行为模式 行为活动发生 进行和完成的某种固有方式 2011年图灵奖的贡献 Causality relationshipbetweenanevent thecause andasecondevent theeffect wherethesecondeventisunderstoodasaconsequenceofthefirstiscruci

6、altotheunderstandingofbothdailyactivityandscientificdiscovery isamongthesinglemostinfluentialworksinshapingthetheoryandpracticeofknowledge basedsystems Googlescholar被引用次数 5791 Forfundamentalcontributionstoartificialintelligencethroughthedevelopmentofacalculusforprobabilisticandcausalreasoning 两个事件E1

7、和E2之间的基本关系 用过程模型表示行为模式 1 维基百科Sequenceofinterdependentandlinkedeventswhich consumeoneormoreresources employeetime energy machines money toconvertinputs data material parts etc intooutputs 过程的本质是并发系统中可观察事件间存在的偏序关系 PartialOrder 用过程模型表示行为模式 2 维基百科Processmodelsareprocessesofthesamenaturethatareclassified

8、togetherintoamodel Thus aprocessmodelisadescriptionofaprocessatthetypelevel 过程模型的本质是描述并发系统中可观察事件间的偏序关系 BPMNwillprovidebusinesseswiththecapabilityofunderstandingtheirinternalbusinessproceduresinagraphicalnotationandwillgiveorganizationstheabilitytocommunicatetheseproceduresinastandardmanner 常用过程建模语言

9、有限状态机 数据流图 EPC 事件驱动的过程链 UML活动图 程序流程图 PETRI网 PI演算 YAWL YetAnotherWorkflowLanguage IDEF3 XPDL jPDL ECA 产生式 WSFL BPMN EnablinguserstodescribebusinessprocessactivitiesasWebservicesanddefinehowtheycanbeconnectedtoaccomplishspecifictasks BPEL 过程挖掘 事件日志 挖掘算法 挖掘结果 过程挖掘是一种新型商务智能技术 也称为过程智能技术 过程挖掘 ProcessMinin

10、g 指从现代信息系统中常见的事件日志中获取过程知识 以发现 监测和改进实际系统行为模式 用过程模型来表达 学术研究起源于1995年 由J E Cook首先提出 事件间关系的判定 直接后继 x yiffforsomecasexisdirectlyfollowedbyy 顺序 因果关系 x yiffx yandnoty x 并行 x yiffx yandy x互斥 x yiffnotx yandnoty x 例子1 ABCDACBDEF A B B C C DA C C B B DE F A BA CB DC DE F 基本关系 事件日志 直接后继 紧邻关系 因果关系 过程模型 例子2 ABDAC

11、DEF A B B DA C C DE F A BA CB DC DE F 基本关系 事件日志 直接后继 紧邻关系 因果关系 过程模型 例1与例2的对比 ABDACDEF 事件日志2 过程模型2 ABCDACBDEF 事件日志1 过程模型1 例1 例2 面向日益增长的对事件日志数据进行过程分析的需求 2009年IEEE计算智能学会 ComputationalIntelligenceSociety 下的数据挖掘技术委员会 DataMiningTechnicalCommittee 设立了IEEE过程挖掘工作组 IEEEProcessMiningTaskForce 包括三类成员 1 软件商 包括HP

12、 IBM Infosys SoftwareAG FujitsuLaboratories等 2 咨询公司 最终用户 包括Gartner ProcessGold BusinessProcessTrends Deloitte等 3 研究机构 包括如TU e UniversityofCalabria PennStateUniversity K U Leuven 清华大学 UniversityofInnsbruck等 IEEE过程挖掘工作组 IEEE过程挖掘工作组发布过程挖掘宣言 2011年IEEE过程挖掘工作组发布了 过程挖掘宣言 75位作者分别来自50多个组织 目前已被翻译成汉语 荷兰语 法语 德语

13、 希腊语 意大利语 日语 韩语 波兰语 葡萄牙语 西班牙语 土耳其语共12国语言 2012年CACM关注 推动事件日志格式标准XES成为ISO标准 IEEE过程挖掘工作组制定日志标准 过程数据挖掘的典型步骤 阶段0 计划与调整 阶段1 提取过程数据 阶段2 构建过程模型并与事件日志关联 阶段3 集成外部决策数据 阶段4 运营支持 监测日志数据 设备运行模型 目标KPI 问题 行为模式 行为预测 异常诊断 理解可用数据 理解领域 评价 三一重工过程数据挖掘 行业地位 全国第一 全球第六产品情况 混凝土设备 挖掘机 履带吊 汽车起重机桩工机械 路面机械 港机机械 风电设备 三一重工工况数据特点 已

14、经上线的工程机械设备 注册设备总数9万台 日常活跃5万台涵盖工程机械设备种类 达到20多类产品泵车 拖泵 车载泵 摊铺机 压路机 平地机 起重机 堆高机 监测数据总量容量30T 生产库中总工况条数114 亿条 历史库中300 亿包括 部件工作温度 液压系统油压 机械震动 电控开关信号 主机状态 工作时长以及报警提醒等信息 日均收到的监测数据量工况条数日增长 5000万条 日泵送产品数目 3 2万台 累计开工时间已达2900万小时 原始数据1000 混凝土搅拌车1 2亿条油位数据分析目标油耗行为分析 偷油行为判定 解决问题有遗漏 有误判 搅拌车油位数据分析 中国移动过程挖掘分析 IT集中化过程中

15、面临的最重要挑战之一就是如何快速 有效 准确地重构分散在原有系统中的业务流程 在多年的信息化建设过程中 为及时响应业务需求 企业IT系统频繁变更业务流程 这使得现有实际运行的流程早已偏离原有设计 因此利用人工方式重构数量庞大的流程是一项异常复杂的工作 必将耗费大量人力物力和时间 中国移动利用流程挖掘技术从企业流程实际运行时保存下来的日志文件中收集 提取信息 并通过算法自动化地客观再现流程模型 1 2 文档ID 对应于流程实例ID 3 提交路径 4 处理环节 流程阶段的 到达时间 发出时间 标记一次收文流程从运行过程 可细分为若干个活动环节 任务 头到尾的 划分 每个环节包含若干个具体任务 对应

16、于一项任务处理的起止时间 对应于具体的活动任务 以公司总部OA系统中公司发文流程为例 通过采集包含231个流程实例 1953行日志数据 可完整复原原有流程 公司发文流程 中国移动部门收文过程挖掘 1 流程挖掘算法需要的输入是MXML或者XES格式 利用商业软件Disco可以将Excel格式的流程日志转换为挖掘算法需要的日志格式 并进行初步的统计与分析 形成按照活动 实例 重复次数统计图 以及平均 最大 总持续时间统计图 按活动统计 按实例统计 按重复次数统计 中国移动部门收文过程挖掘 2 流程挖掘算法需要的输入是MXML或者XES格式 利用商业软件Disco可以将Excel格式的流程日志转换为挖掘算法需要的日志格式 并进行初步的统计与分析 形成按照活动 实例 重复次数统计图 以及平均 最大 总持续时间统计图 按平均持续时间 按最大持续时间 按总持续时间 中国移动部门收文过程挖掘 3 PatternMiner FuzzyMiner HeuristicsMiner Miner 过程数据挖掘在盘古搜索的应用 用户访问各频道行为分析 提取重要节点 数据样本2012年10月份Mypangu登录用

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号