数据挖掘加工海量数据

上传人:壹****1 文档编号:563862940 上传时间:2022-07-27 格式:DOC 页数:3 大小:15.50KB
返回 下载 相关 举报
数据挖掘加工海量数据_第1页
第1页 / 共3页
数据挖掘加工海量数据_第2页
第2页 / 共3页
数据挖掘加工海量数据_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《数据挖掘加工海量数据》由会员分享,可在线阅读,更多相关《数据挖掘加工海量数据(3页珍藏版)》请在金锄头文库上搜索。

1、数据挖掘加工海量数据在这个信息爆炸的时代,互联网上丰富的信息给我们 带来了无数机遇,同时也带来了挑战:如何从浩如烟海的数 据中找到真正有用的信息?如何为企业用户带来所需要的 行业资讯?对于上述问题,海量信息技术有限公司 (简称海量公司 ) 的副总裁兼首席科学家周富秋博士认为,通过采用智能计算 技术,对海量信息进行筛选,从中可以得到用户真正想要的 信息。对于智能计算技术,周富秋做了进一步的解释,该技 术是建立在自然语言处理 (Nature Language Process, NPL基础 上的,通过人工筛选的庞大语料库,按照事先设计的算法, 对海量数据进行识别,从中找到对用户有用的信息和情报。周富

2、秋所在的海量公司是一家成立于 1999 年、专注于 中文智能计算和信息数据挖掘技术的民营企业。该公司沿着 “字符到语义、非结构化到结构化”的技术路线,经过多年 的技术积累,所研发的海量中文智能分词基础件已经广泛应 用于腾讯、猫扑网、 Myspace 等大型网站。此外,海量公司 还为微软、Autonomy、Askjeeves等国外公司提供中文智能 计算技术,帮助他们实现软件本土化。周富秋将数据信息处理分为 3 个层次。为了更好地解释 这 3 个不同的层次,他绘制了一个 3 层金字塔模型:位于底 部的是数据,在其之上是筛选出来的信息,而在金字塔塔尖 的就是经过技术提取的精华内容一情报。对于数据和信

3、息的 处理,周富秋认为目前主要采用了浅度智能自然语言处理技 术(NPL Shallow),而通过这种方式提取出来的内容 (数据和信 息),主要是 Google 和百度等搜索引擎厂商正在从事的主要 工作。而对于在数据和信息基础上进行精加工产生的精华一 情报,则是海量公司正在致力去做的工作,而他们所采用的 技术叫做深度智能自然语言处理技术 (NPL Deep)。这种技术, 周富秋认为正是海量公司的核心竞争力所在。目前,海量公司已经开发除了基于上述技术的数据挖掘 产品“海纳” 。该产品可以通过智能计算技术为网络媒体、 行业门户、企业情报部门提供在线网络数据挖掘服务。 “海 纳”可以自动对指定的网站页

4、面进行监控,对于所发现的新 增页面及时提示,并对重复信息进行归总。用户只需要单击 鼠标,就可以对网页内容进行转载收录。 “海纳”运用智能 计算技术, 替代人工完成大量信息加工工作, 简化编辑工作, 经过深度加工提升信息价值。海纳是一款在线产品,用户所 有操作都是在客户端完成,而其所有的智能分析和自然语言 处理工作均在海量公司的专用机房内完成。据产品总监沈止 戈介绍,该公司目前为“海纳”投入了 100 台大型服务器。对于自然语言处理来说,语料库是一切工作的基础。沈 止戈透露, 他们拥有国内最大规模的语料库 (北京大学的语料 库位居第二 ),而该公司有近 20 名语言方面的专业人士每天 不停地更新语料库,保证对于新词的收录。而这样做,就保 证了对于中文语句分词的机器识别准确率。海量公司下一步的研究重点将主要集中在对数据信息 的深度加工,并且针对不同用户需求提炼出有用的情报信息, 为用户决策提供依据。沈止戈向记者演示了一个实例。海量 公司对于某体育网站近期的 NBA 相关新闻进行加工, 通过数 据挖掘技术从中得出 NBA 各球队的相关情报。 计算机通过分 析,很快就生成了一份报表,报表中显示太阳队的后卫名叫 纳什,主教练名叫安东尼。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 商业计划书

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号