现有数学搜索引擎对比

上传人:mg****85 文档编号:49834270 上传时间:2018-08-03 格式:PPT 页数:22 大小:277.50KB
返回 下载 相关 举报
现有数学搜索引擎对比_第1页
第1页 / 共22页
现有数学搜索引擎对比_第2页
第2页 / 共22页
现有数学搜索引擎对比_第3页
第3页 / 共22页
现有数学搜索引擎对比_第4页
第4页 / 共22页
现有数学搜索引擎对比_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《现有数学搜索引擎对比》由会员分享,可在线阅读,更多相关《现有数学搜索引擎对比(22页珍藏版)》请在金锄头文库上搜索。

1、vvMathSearchMathSearch简介简介vv现有数学搜索引擎对比现有数学搜索引擎对比vv数学标记语言简介数学标记语言简介vv数学查询语言数学查询语言MQLMQL简介简介MathSearch简简介MathSearch的设计目标 MathSearch的设计思想MathSearch的研究内容MathSearch的设计目标vMathSearch是一个可进行数学内容检索的基 于公式的网络数学搜索引擎。vMathSearch使用语义检索方式,不仅可以实 现基于字面显示结构的数学公式检索,同时 可以实现基于数学公式语义的检索。vMathSearch能够实现对含有数学公式、数学 符号的网页、文档、

2、资料的搜索。vMathSearch支持的具体查询有:结构查询, 语义查询,通配符查询,组合查询,抽象查 询MathSearch的设计思想Mathsearch利用一系列爬虫进程从网络上收集信息 ,并判断其是否含有数学相关的内容,如果有则开 始下载相应的文档,并从文档中提取所需数学公 式、数学符号或数学相关内容。为了同时支持基于数学显示方式的查询和基于数 学公式语义的查询,Mathsearch为这些公式、符 号和数学内容分别建立面向数学公式显示的 Presentation索引和面向数学公式语义的Content索 引。用户表达查询需求时,既可以通过所见即所得的 GUI窗口输入要搜索的内容,也可以直接

3、输入数学 查询语 言MQL来表达搜索需求。MathSearch对MQL进行解析,查找相应的数学内 容,通过合理的算法对这些网页连接建立 PageRank,将结果排序显示,并将查找内容突出 显示。MathSearch的设计思想(续)图:MathSearch设计思想MathSearch的研究内容()vv数学搜索数据源的界定及表达方式之间的转换研数学搜索数据源的界定及表达方式之间的转换研 究究MathSearch搜索数学公式的主要搜索目标格式为MathML 格式,OpenMath格式,中缀格式以及LaTex格式。这几种 格式在表示方法上存在较大差异,MathSearch主要研究不 同格式的数学公式的

4、等价性及它们之间的相互转换方法。MathSearch在数学公式编辑器MathEdit基础上研究数学公 式转换器,针对目前Web中比较常见的数学公式标记语 言MathML,OpenMath,LaTex和Infix进行转换,采用标 准的JavaScript,DOM及XSL实现,提供可视化的图形界 面,方便用户编辑 、转换和提取负责的数学公式。该研 究可以有效应用于网络数学搜索引擎中。MathSearch的研究内容(2)v数学公式查询语查询语 言的研究数学搜索引擎的关键在于查询,在数学信息 检索系统中,定义一种直观的通用的有力的 查询表达方式是一项重点研究内容。MathSearch使用了一种基于Ma

5、thML格式 的扩展表达方式作为数学查询语言,通过该 查询语言用户可以有效便利地对查询需求进 行描述。该查询语言除支持常规结构化查询 需求描述外,还支持组合查询表达和抽象查 询表达,增强了查询表达力度。MathSearch的研究内容(3)vv数学公式索引的研究数学公式索引的研究索引是针对顺序查找的低效率而创建的一种方法。索引是指能把一个 关键码与它对应的数据记录的信息相关联的一种数据结构。由于数学 公式本身往往具有丰富的语义和特定的结构,当前数学搜索主要研究 以数学公式的布局特征和语法结构进行的搜索。目前,索引技术主要 有以下三种:倒排索引、后缀数组和签名文件。其中,倒排索引技术 是当前大多数

6、的信息检索系统中采用的索引建立技术,它对于关键词 的搜索非常有效。为了兼顾数学公式的显示和语义,MathSearch提出同时为数学公式建 立面向公式结构的Presentation索引和面向公式语义的Content索引。在建立基于数学公式语义的Content索引时,为了增强语义支持,对于 网络爬虫搜集到的每一数学公式,要首先对其进行相应规范化。为了 实现细粒度的数学公式查询,对于网络爬虫搜集到的每一数学公式, 要分为若干N-grams的数学子公式,并对每一子公式按照权重计算方 法赋予一定权重并建立索引。另外,为了增强数学搜索系统的语义支 持,对于Content索引内容,还要连接到计算机代数系统进

7、行计算转化 ,并对所有计算结果赋予一定权重并建立索引。在建立基于数学公式结构的Presentation索引时,由于Presentation MathML表示的数学公式不同于Content MathML表示的数学公式,它 们本身不包含语义信息,也无法从语义层面进行数学子公式划分。因 而,在建立Presentation索引时,重点考虑数学公式的布局及显示方 式,因而直接按其本身字面建立索引 。MathSearch的研究内容(4)v数学搜索系统性能与质量的研究搜索引擎提供的结果集中页面质量的好坏以及高质量的页 面能否在结果集中有较好的排名,对搜索引擎用户来说具 有重要意义,同时也是衡量搜索引擎技术优

8、劣的关键指标 ,所以对页面进行重要性评估并按重要性排序是搜索引擎 要解决的技术核心。 在数学搜索中,要考虑的一个重要问题是相关度Relativity 。相关度是指检索出的内容与查询条件之间的匹配程度。 因此,加入以下两个方面的因素的考虑:第一,在数学公式中,不同的数学符号、数学公式具有不 同的重要度。第二,对于同一公式,有时具有多种语义,多种表示方式 和多个计算结果 。另一方面,在搜索时为了明确用户需求,系统可以针对不 同的用户记录历史操作,以跟踪用户行为,总结用户偏好 ,建立用户日志。使得在下一次搜索中可以根据用户的习 惯搜索并显示可能符合用户意图的相关结果。 MathSearch的研究内容

9、(5)v搜索结果的返回显示研究搜索引擎强调命中显示、突出查询关键项显示的 主要目的是便于用户查看和评测返回结果。对于内容较多的文件,系统需要在查询返回结果 中显示若干摘要信息并突出显示匹配查询条件的 关键项。一方面,这样可以使用户在结果文件中 快速定位查询条件中关键项,便于查看。另一方 面,也可以作为搜索引擎性能的一个评估标准, 检测搜索结果是否符合查询需求以及符合程度。 现有数学搜索引擎对比(1)现有数学搜索引擎分两大类: -不支持数学内容识别的 通过查找已提供的元数据,可以执行比普通全文 搜索引擎更好的数学内容搜索,但不能处理数学 操作。 -支持数学内容识别的根据他们的数学识别方法又分为:

10、v基于语义的方法v基于语法的方法现有数学搜索引擎对比(2)vMathDexMathDex是最早的能够进行数学内容识别的全文检索引擎,是基于 Apache的Lucene搜索引擎 。关键特性有以下几点:支持无语义数学 内容文档的查询;支持不同数学编码数学内容的查询;同时支持数学 符号和文本的检索,尽可能满足用户的查询期望而不仅仅针对字面查 询。MathDex对于所有检索到的文件首先将其转换成 XHTML+MathML格式。文件根据结构及与查询项的语法相似程度进 行排序。MathDex提出N-grams匹配方法以提高精确度。在索引建立 阶段,不仅为每个公式建立索引,同时记录其子公式出现的频率信息 。

11、子公式出现的频率对增加复杂公式的匹配度有很大意义。另外一个提高精确度的方法是将文件分为多个域,比如题目、正文等 ,并给予不同权重。出现在标题中项的权重应高于出现在正文中项的 权重。MathDex存储表达式的不同部分以进行并行查询,从方程不同 部分匹配到的项具有不同的权重。不同公式可具有分子域、上标域、 行域等。输入公式被解析,定义合适的域,然后查询被重写,在所选 择领域匹配子项。越多子项匹配,相关度越高。MathDex不能处理数 学操作和等价性匹配。现有数学搜索引擎对比(3)vvDLMF SearchDLMF SearchDLMF Search是为美国国家标准与技术研究所(National I

12、nstitute of Standards and Technology)的数学公式数字 图书馆(Digital Library of Mathematical Functions)而建 立的一个检索系统。DLMF Search的目标公式格式主要针对于TeX/LaTex格式 ,查询语言也是基于LaTex。查询描述阶段,为了使用户 能够表达模糊查询需求,DLMF Search在LaTex格式基础 上进行扩展,定义一系列元数据,这种查询语言是一种文 本化的查询语言。在索引建立阶段,DLMF Search扩展文 本信息检索的索引方法。首先对数学对象进行线形化,即 将所有非字母表中的数学符号都对应到字

13、母表中的一个字 。其次界定并序列化数学对象的子项及表达式,最后按顺 序将各子项化为标准规范形式,即转化为已定义的规范顺 序以免表述风格的不一致导致的查询错误。该引擎的核心 仍是基于文本的检索,与传统文本检索系统在本质上没有 差别。 现有数学搜索引擎对比(4)vvLeActiveMathLeActiveMathLeActiveMath是一个基于Web的智能数学学习环境,主要 目标是根据用户的前期工作及实际知识水平为其提供个性 化内容。目前,这个学习系统并未向公众免费开放,而且 并未查找到其可用的搜索系统。它是基于Apache Lucene 搜索引擎的。显然,这样的教育系统是需要一个搜索引擎的。该

14、系统针 对的数据源是OMDoc编码的具有语义的数学文件。索引阶 段依赖于特殊的OMDoc格式,其包含语义信息以及其他的 元数据。应用于现有真实文档则仍有一定问题。然而,使 用特殊的OMDoc格式可以提高文档的相关度,使得搜索引 擎在特殊环境更加有效。OMDoc具有把文件分为被称之为 项的内容单元的特性。这些项包括:定理,练习,证明, 定义等等。它们可以通过单一的标志符来定位,这有利于 开发它们之间的关系。索引阶段,将OMDoc的公式转换为 特殊的包含信息深度的文本化标记。子公式的深度信息包 含于索引字符串中。搜索阶段将输入公式转化为具有深度 级别的表达式。目前,他们解决这一问题的办法是迭代索

15、引库中从1到最大深度的公式。现有数学搜索引擎对比(5)vEgoMathEgoMath是一个基于Egothor v2的可识别数学内容的全文本搜索引擎。 它的主要目的是适用于现实世界中不包含隐含语义信息的数学内容。 它支持Presentation MathML和Content MathML表示方式,更侧重于针 对Presentation MathML表示方式。对于PDF文件,用Infty转换器转换 为Presentation MathML标记的数学文件。EgoMath同时支持文本化查 询和数学公式查询,这对于现实应用更具有效性。EgoMath并不是用一个单独的项来表示一个数学公式,复杂的公式往 往

16、由一个项的有序集合来表示。后一个表达式可以由前一个表达式通 过应用归纳和变形来得到。这些规则试图降低全文索引库的最大缺陷 静态特性。每个集合中后面的公式都是由归纳而来的,因而可以 匹配更多的表达式。在搜索阶段,用户输入被分为简单文本查询和数 学查询。然后,采用和索引阶段相同的算法处理数学查询。算法产生n 个表达式,这些表达式通过“AND”操作符附加到简单文本查询上。结果 是执行n个连续的查询操作。出于后面的查询项被匹配到的可能性更大 ,因为后面的项比前面的更具有普遍性。每个数学文件都被分为数学 部分和文本部分进行存储。否则类似于“sin”的模糊查询就会即返回包含 数学公式“sin”的文档,又返回包含字符串“sin”的文档。EgoMath中查询语言采用类似于LaTex的表示方式。EgoMath由于UI设 计仍未完成直至目前仍未公布。 现有数学搜索引擎对比(6)vMathWebSea

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 教育/培训

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号