基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件

上传人:aa****6 文档编号:54134024 上传时间:2018-09-08 格式:PPT 页数:38 大小:1.29MB
返回 下载 相关 举报
基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件_第1页
第1页 / 共38页
基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件_第2页
第2页 / 共38页
基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件_第3页
第3页 / 共38页
基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件_第4页
第4页 / 共38页
基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件_第5页
第5页 / 共38页
点击查看更多>>
资源描述

《基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件》由会员分享,可在线阅读,更多相关《基于半结构化和语义web信息挖掘的智能搜索技术研究ppt培训课件(38页珍藏版)》请在金锄头文库上搜索。

1、基于半结构化和语义Web信息挖掘的智能搜索技术研究,Agenda,海量Web数据对信息发现的挑战 半结构化数据 搜索引擎现状和智能化信息检索 Web挖掘技术目前的研究情况 Semantic Web的信息搜索,数据的挑战,每天增加100万个页面,总数超过10亿。 有限的搜索引擎覆盖范围,低于20。 知识表达方式的限制无结构、半结构化和多媒体形式。 采用关键字的搜索方法在海量数据检索中能力有限。,数据的挑战,Nature - July 1999,半结构化数据,介于完全结构化数据(如关系型数据库)和完全无结构的数据(纯文本)之间 自描述数据和结构互相混合 无固定数据模式(Schema) 半结构化数据

2、:HTML,XML,半结构化数据模型,先有数据,后有模式。 数据模式用于描述数据的结构信息,而不是对数据结构进行强制性的约束无固定数据模式。 模式是非精确的,它可能只描述数据的一部分结构,也可能根据数据处理不同阶段的视角不同而不同 数据模式规模很大而且动态变化。,半结构化数据模式描述形式,基于逻辑的描述形式,如一阶逻辑(First-order Logic)、描述逻辑(Description Logic)及 Datalog。 基于图的描述形式,如Stanford大学提出的对象交换模型(Object Exchange Model,OEM)。,Web查询语言现状,任务-基于内容的查询(根据页面内容查

3、询符合条件的页面)和基于页面之间链接结构的查询 第一代查询语言-WebSQL、WebLog、W3QL等 第二代查询语言-WebOQL、StruQL、Lorel等,搜索引擎现状和智能信息检索,仍以关键字匹配查询为主。 利用了Web文档超文本信息。 部分特定知识领域的智能搜索引擎使用了机器学习和人工智能算法实现数据抽取。 基于自然语言理解的搜索引擎还处于低级的萌芽状态。,智能搜索引擎样例,Stanford Google-使用PageRank评估页面质量;世界上第一个PDF文档搜索引擎。 NEC-ResearchIndex(Inquirus)-采用Web内容挖掘算法对Web上科技论文提取特征参数,如

4、作者、文章名和摘要等。 Cora-计算机科学论文检索系统,使用了基于随机过程方法的实体抽取技术。 Vivisimo-CMU项目,高精度的结果分类。,智能搜索引擎样例,Web挖掘技术目前的研究情况,Web Content Mining Web Structure Mining Web Usage Mining,Web挖掘分类:,Web Content Mining(WCM),定义:Web Content Mining=Web Information Retrieval+Web Information Extraction。 研究对象-隐藏在半结构化数据中的模式和数据实体(Pattern, Ent

5、ity)。 研究方法-词频统计、分类算法、机器学习、模式识别、元数据等。 广泛应用在Web信息的发现和信息管理。,WCM应用领域,主题抽取和文本分类 半结构查询语言与模式抽取(Lorel,DIPRE迭代算法等) Web异构数据集成 学习模式或规则 基于特定知识领域的信息发现 .,WCM目前研究情况,使用基于词频统计的算法,如使用VSM的TDIDF方法。 利用Wrapper进行Web信息抽取。缺点:需要事先知道数据表达方式。 Nicholas Kushmerick提出的自动Wrapper生成。,WCM目前研究情况(续),Sergey Brin-DIPRE首次利用迭代方法发现数据实体间的模式和关系

6、,并成功的发现了作者/作品数据对。 Snowball-改进DIPRE算法,引入了模式置信度评估元组质量。,WCM目前研究情况(续),Snowball原理图:,WCM目前研究情况(续),IBM Neel Sundaresan等在基于Web的单词/缩写的挖掘中,把2级的二元性问题扩展为n级,并实现用户英文单词简称的抽取。 IEPAD通过分析Web页面中的HTML标签的重复规律,进行模式挖掘并生成数据抽取规则。IEPAD使用了PAT数据结构实现最大模式对的发现和校验。,WCM目前研究情况(续),J. Hammer等利用了Stanford大学提出的对象交换模型(Object Exchange Mode

7、l, OEM)模型,定义了抽取器规范并对对HTML文档中的天气预报信息进行了提取。 Dayne Freitag研究了使用机器学习算法进行HTML查询的方法。它提出了一个基于关系学习(Relational Learning)机器学习算法SRV将输入的自由文本转换成一定的规则。,WCM目前研究情况(续),Kristie Seymore使用HMM从训练样本中检查有标记和无标记的数据,并从数据中获得模型结构。通过运用Viterbi算法,HMM可以找到产生最大观测序列的状态。 .,WCM研究工作总结,Naive Bayes模型-基于主题词频率。 Maximum entropy算法-Bayesian算法的

8、改进 Co-training-利用了超链接信息和文本内容的组合 增加自然语言-未来,MIT Technology Review-Tom Mitchell,2001,Web Structure Mining(WSM),定义:以超链接分析为来评估基础Web资源,提高搜索质量。 优点:客观、避免了人工作弊;减小了人们在搜索结果中长时间的挑选和尝试。 成功案例:Google PageRank、HITS、百度等,WSM应用领域,搜索引擎查询结果的排名。 查找相关文档。 计算Web页面Reputation。 确定某站点的主要内容和特征。(Whats Related?)。 Web Crawler的URL爬行

9、的优先顺序。,WSM目前研究情况,独立于查询的算法-PageRank 查询相关算法-HITS .,Web Usage Mining(WUM),定义:可以自动、快速的发现网络用户的浏览模式。 应用:Web日志挖掘,用户个性化服务。 研究重点:数据预处理和日志挖掘算法。,WUM的挖掘过程,数据预处理。 挖掘算法实施。 模式分析。 可视化。,WUM的主要算法,统计分析。 关联规则。 聚类。 分类。 序列模式。,Semantic Web的信息搜索,什么是语义Web? 传统Web-信息的机器不可读性,信息检索的困难。 Tim Berners Lee-Weaving the Web 1999 www.w3

10、.org/DesignIssues/Semantic.html XML/RDF是Semantic Web的基础。,RDF in Semantic Web,RDF:描述数据的数据。 RDF:资源描述框架(Resource Description Framework:RDF)W3C领导下开发的用于元数据互操作性的标准。 提供自动的、语义级别(Semantic)的互操作性。,RDF in Semantic Web,RDF数据模型包括:资源(Resource) 属性(Property) 声明(Statement),RDF in Semantic Web,RDF数据模型:,Ontology in Sem

11、antic Web,什么是Ontology(本体)? 按照Stanford AI专家Tom Gruber的定义,Ontology是为帮助程序和人共享知识的概念化规范,在知识表达和共享的领域,Ontology描述了在代理之间的概念和关系(Concepts and Relations) 在Web上,Ontology表现为分类法和一组推理规则。,Ontology在信息挖掘中的作用,对于Web搜索来说,通过本体的定义,搜索程序可以进行基于概念的精确搜索而不是模糊的关键词方法。 可以使用Ontology把页面上的信息与某些知识结构和规则链接起来: http:/www.cs.umd.edu/hendler

12、 。 这种Web中的本体标记还可以用来开发出智能的问题回答系统,而答案可以不用位于同一页面。,Ontology在信息挖掘中的作用,The Semantic Web- Tim Berners Lee, ScientificAmerican May 2001.,Ontology当前研究状况,SHOEhttp:/www.cs.umd.edu/projects/plus/SHOE/ Ontology Exchange Language(XOL)http:/ Ontology Markup Language(OML and CKML)http:/wave.eecs.wsu.edu/,Ontology当前

13、研究状况,Resource Description Framework Schema Language(RDFS) http:/www.w3.org/TR/PR-rdf-schema/ RiboWeb http:/www-smi.stanford.edu/projects/helix/riboweb/kb-pub.html OIL (Ontology Interchange Language) http:/www.ontoknowledge.org/oil/,基于Semantic Web的信息获取,XML和Ontology在语义Web中的使用,对Web搜索技术带来了新的契机。 搜索引擎的可以进行语义级别的Web分析和信息抽取。 问题式的检索由于使用了基于Ontology的定义,可以采用级联的方式在若干页面查找后最后给出问题的答案。 国内外的研究工作刚刚起步.,谢 谢,,2003.11.20,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号