大数据厂商联盟--为您的客户在30天内部署大数据应用剖析

上传人:今*** 文档编号:107464141 上传时间:2019-10-19 格式:PPT 页数:88 大小:14.52MB
返回 下载 相关 举报
大数据厂商联盟--为您的客户在30天内部署大数据应用剖析_第1页
第1页 / 共88页
大数据厂商联盟--为您的客户在30天内部署大数据应用剖析_第2页
第2页 / 共88页
大数据厂商联盟--为您的客户在30天内部署大数据应用剖析_第3页
第3页 / 共88页
大数据厂商联盟--为您的客户在30天内部署大数据应用剖析_第4页
第4页 / 共88页
大数据厂商联盟--为您的客户在30天内部署大数据应用剖析_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《大数据厂商联盟--为您的客户在30天内部署大数据应用剖析》由会员分享,可在线阅读,更多相关《大数据厂商联盟--为您的客户在30天内部署大数据应用剖析(88页珍藏版)》请在金锄头文库上搜索。

1、怎样在三十天内为您的客户部署大数据应用 总体规划分步实施 一、怎样快速部署大数据分析系统 1、怎样部署web数据的抽取监控 2、非结构化动态数据的抽取整合和联网数据 3、怎样部署适合您的融合三类数据的数据库 4、怎样部署高速政务情报与舆情分析展现 二、方案与产品的行业机会 三、联盟能帮助您什么? 合作模式 (推广交流方案实施服务) 联盟能帮助您什么?(厂商+CIO+渠道方案=推广),数据的相关性-因果关系 实时动态预警跟踪防范、社会治理成本将会低70%,罗湖,宝安,数据的混杂性-精准性 抵御犯罪,保卫和平少年派报告 “预警人”,2、现在:装配一个数采设备,通过网络连接到中央处理中心牛产的奶中收

2、集数据。每一个乳头里挤出的奶都需要查验颜色、脂肪、蛋白质含量、温度、传导率(用于判断是否存在感染的指标) 每头牛身上收集数据汇总,检测结果直接发给奶农的手机上,以判断分析牛奶质量;预测发情、疾病,总体数据-样本数据 不再担心喝的是三聚氢胺了,模式的改变: 1、传统:奶农送样板检测,动态的车位收费价格,被逼迫的大数据决策 定性分析定量分析(经验决策数据决策) (世界是由数据组成的,你我都在被大数据化) 大数据改变着人们的生活工作和思维方式,老公呀!市中心停车好贵哟,我下午去吧?,我赶时间,我不得不走快车收费道!,1、HOV(高使用率车辆)专用车道,鼓励拼车,只允许乘坐人数为3人或3人以上的车子行

3、驶,否则将被处以100美元以上罚款 2、按市场规则,停车场高额收费8.99-20美元,路边收费便宜1美元1小时,咪表限定15分钟-2个小时,不得不来回投硬币 3、开始征收8美元,不征收拥堵费:1、造成对非市中心居民不公平,2、只改善5%,3,居民已经缴纳了道路城建费 4、抗拥塞项目:收费快速通道,动态定价政府通过大数据引导驾驶人员在该通道上行驶,保证交通畅通车道用于高占用率的车辆,紐約市政府還設立了(高使用率車輛)專用車道,鼓勵私家車主上下班拼車。這種車道只允許車內乘坐人數為人或人以上的車子行駛。車內乘客不到人且使用這一專用車道行駛的車輛將被處以美元以上的罰款。,紐約市政府還設立了(高使用率車

4、輛)專用車道,鼓勵私家車主上下班拼車。這種車道只允許車內乘坐人數為人或人以上的車子行駛。車內乘客不到人且使用這一專用車道行駛的車輛將被處以美元以上的罰款。,紐約市政,市場規則限制私家車,动态高占用率通道,数据公开、信息对称、数据决策 人类社会从“全景监狱”到“共景监狱”,社会的变革都是因为资源拥有的不对称-而对资源的争夺(煤炭-石油-黄金-数据信息),现在是收集情报数据的 黄金时代 因为所有人都在自觉自愿地表达他们是谁,现在是收集情报数据的 黄金时代 因为所有人都在自觉自愿地表达他们是谁,数据的实时动态交互和互动性 依据数据决策、分析的核心是预测 上帝从此不用掷骰子 “人类行为的93%是可以预

5、测的”,三类数据的融合和互动,第一步:重建新式数据库:2008年奥巴马的团队抛弃了众多分散的孤岛式数据库 第二步:增加了大量来自Web追踪和社交媒体网站的新数据 第三步:整合各类实时动态数据和WEB数据 第四步:建立数据分类分析 1、募捐大数据分析 2、演讲拉选票大数据分析,当“大数据”遇到“小数据”,大数据每次都会赢。 大数据加上大量的资金呢?这将是无敌的,奥巴马竞选获胜的核心:数据驱动-的竞选决策 “核武器”(They are our nuclear codes),数据决策的障碍:数据公开、信息对称,总体规划分步实施 (怎样部署政务情报与舆情分析系统) 1、怎样部署web数据的抽取监控 2

6、、非结构化动态数据的抽取整合和联网数据 3、怎样部署适合您的融合三类数据的数据库 4、怎样部署高速政务情报与舆情分析展现,怎样把静态历史交易数据与WEB数据融合,融合交互互动,怎样解决WEB数据抽取监控发布的问题 监控与自己相关的网上信息 把网上数据转化成自己的数据库 Web 数据抽取监控神器 (Connotate+Paraccel+Datameer),16,方式一,17,方式二,HTML TAG、BTE算法、,18,19,方式三,Web Agent(数据抽取的工具)可自动自主的运行 根据您的要求输出结构化数据集(通常是CSV格式或则是XML格式),WEB数据抽取的工作流程,Web Agent

7、可自动自主的运行。 根据您的要求输出结构化数据集(通常是CSV格式或则是XML格式-DB),21,22,实施和运行,23,为什么要用WEB抽取工具,WEB抽取与其他方式的比较,26,采用自动化web数据抽取监控软件: 该政府部门的IT团队采用了新技术,其中包括Connotate用于精准的Web数据抽取, 在八周的时间里,Connotate监控了1000多个网站并根据需求每天地为该部门抽取数据 Connotate为该部门推送符合其格式要求的数据,并传送到预设好的网站上 该部门还把Connotate抽取的数据导入数据仓库,用其他应用程序进行分析,某政府监控1000多个网站,进行政府管理的大数据决策

8、,手工下载: 政府部门开展公共资源数据抽取,在选择自动化抽取之前, 组织部门内部大量的研究调查人员,从成千上网个公共资源网站上 手动的下载公共数据,并手动地进行统计,然后为短期计划和长期计划做准备。 但是,这种方法不能保证数据的准确度、速度和时效性。,爬虫软件搜索: 接着,该政府部门的IT团队选择了Web爬虫软件进行数据抽取,但是随着项目的不断进行,Web爬虫的维护费用也不断增加,而且不稳定,经常会由于Web数据源的改变而瘫痪,政府公共事业智慧城市方面的应用,政务WEB数据抽取监控发布分析举例,一、日常管理决策中遇到的问题: a、传统方式收集信息情报信息内容少、内容陈旧,更新不及时,更多的是已

9、经发生的 事件 数据和信息。对于现在正在发生和即将发生的事件无法获取数据信息。 b、效率低,信息需要时间长,导致信息滞后,对战略决策毫无意义。 c、提取的信息精准度不高,手工的方式往往会出错却难以发现。 e、人工成本太高,如需要聘请专业的技术人员去编纂历史数据并进行季度报表。 f、后期维护费用太高 g、对接其他数据仓库时出现无法兼容的情况,二、实现有关政府部门相关信息的全网监测,重点监测: 新闻、门户、论坛、微博(新浪、腾讯)、提及过政府的微博大账号 监测内容涵盖政府官方新闻、媒体自发报道、政府其他新闻。 a、解决及时预警如:网站,论坛、微博等迅速扩大的关于政府信息第一时间反馈,实现重大负面系

10、统自动预警。 b、实现海量数据清晰分类,按照不同条件或多维度要求整理归类。可按照舆情的性质,及重要程度等进行分类。 如:政府的重大新闻传播,政府重大负面扩散、论坛、微博相关诉求等。 c、针对突发事件,负面事件。对政府造成影响重大的负面事件,需要专业技术舆情分析师给予建议, 为其分析整个事件起因,传播度,媒体关注度,影响力,后期危机公关效果评估,提供针对“事件性 ”深度分析报告。 d、解决区辖范围重点企业相关信息监测,投资环境、人文环境、治安环境等信息监测;,信息传播的速度和广度,成就了“意见领袖” 巨大的舆论能量。 及时发现、收集、监控和分析舆情信息,调整管理, 从“维稳”到“促和”成为政府部

11、门新的课题。,三、监控范围: a、网络媒体:各新闻网站、门户网站、搜索引擎、论坛、SNS、地方性站点等。 b、微博(新浪、腾讯) c、海外媒体 d、各种少数民族的文字信息 四、监控要求: 一、全面性 a、所有监控范围都要监控到,不留死角。 b、在系统交付运行后,系统需要7*24小时不间断的进行监控,不遗漏任何一个时间点。 c、语言不受限制 二、及时性 对于监控的及时性要求非常高,一般要求从舆情信息发现起,不超过2小时。 影响重大的舆情信息要求更高,从舆情信息出现起到系统预警处理完毕,中间需要经过及时发现、 分析确认、上报、预警通知等许多过程,需要能够尽早发现、及时发现,高效准确的分析判断处理

12、三、准确性 需要系统能够提供尽可能准确地定位和判断,能够提供准确的舆情信息源、源地址、信息内容、 事件发生时间、事件证据等。 四、潜在负面舆情媒介和舆情发送人群收集 在系统交付前和运行期间,系统能够不断自动收集潜在的负面发生媒介和发送人群,作为后续的重点监控源。 五、去重 同一负面舆情信息只需要监控和报告一次,避免重复报告,过滤广告。,人人拿着麦克风,人人都可被关注,随时随地可发布,社会围观结构是众人对个体展开的凝视和控制 人们在“交头接耳”中沟通着彼此的信息,六、分类 对监控的结果分类 a、舆情信息来源:网站、微博、博客、SNS、论坛 b、舆情产生类型:机构、名人、普通个人 等 c、影响程度

13、:包括转载数、评论数、网站影响力等综合指数评定。 七、实时预警 对于影响重大的负面舆情信息等,一旦发现,系统需要立即发出预警,以便监控人员能够及时采取措施。 八、 定时报告 系统按照指定的时间报告最新监控结果,上报内容包括:媒介、地址、内容、发生时间、原始信息等九、监控结果分析 系统可以随时对监控结果进行各种统计分析和总结报告,以为后续的监控提供指导。 a、传播媒体分析 b、传播趋势分析 c、传播路径分析 d、传播影响力分析 e、传播人群分析 十、数据格式转换 系统收集的数据往往是非结构化数据,如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等,而要把这些数据转换为结构

14、化数据加以分析是非常关键的。 十一、兼容性 a、支持把SOAP与REST Web Services APIs集成到工作流中,也可以快速创建任何兼容开放数据库连接(ODBC)的数据库,包括SQL服务器、MySQL、Oracle等。 b、当网站格式发生变化时,很多传统的爬虫软件都会罢工!因此需要一种适用性更好的数据挖掘工具。 十二、成本 a、 人工成本,配备专业的技术人员进行编写代码的成本要低。 b、 物理成本,不需要高昂的硬件设备支持,订阅新闻信息服务和后期维护成本。,(3),一、为政府节省资源,舆情信息采集效率提高 独有的技术可以有效的利用海量数据,从中挖掘出对企业增长有价值的信息,并可以 进

15、行高度可扩展性的数据监控和数据收集。 二、及时监测政府部门相关舆情信息 通过Connotate的自动化Web数据抽取工具,自动化抽取数据和监控数据, 实现对政府相关领导和相关部门对目标数据的精准抽取。全面监测,及时发现问题,做出应对措施。 三、准确正负面判断呈现政府关注的负面舆情信息 政府可以第一时间了解到最新舆情信息。 四、政府相关行业信息监测 对Connotate抽取的信息进行舆情趋势分析,及时掌握本区最新及热点信息。 五、舆情传播路径、趋势分析 对抽取的信息进行媒介分析、关键字分析、传播度分析及舆情信息传播趋势分析, 预判所收集到舆情信息的未来走势。 六、负面舆情及时预警 敏感事件、违法

16、乱纪行为、民生问题、社会分配、突发性事件等舆情信息, 通过对Connotate抽取的数据进行语义分析,自动判断信息的正负面,在此基础上分析负面信息中出现的热点信息, 当其热度达到一定的预警值,则自动推荐为预警信息,自动弹窗、邮件通知、短信通知。 七、自动生成舆情报告 根据之前设定的关键字眼和敏感话题,自动生成政府预设模板的舆情报告,并定期发送。,实施效果,a、全面:自动全天候抽取相关网站的内容,新闻、门户、论坛、微博(新浪、腾讯)QQ群 b、高效:大大减少了数据抽取需要的时间,又提高了精准度,避免了人工干预带来的难以 发现的错误。 c、低成本:无需专业的技术人员,普通职员也可以进行操作,减少了人工成本。 d、发现洞察:及时发现并解决问题,大大有利于决策的制定和维护社会稳定和促进和谐。 e、

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号