开源智能-xpress开源智能软件平台xpress项目汇报

上传人:mg****85 文档编号:56607317 上传时间:2018-10-14 格式:PPT 页数:20 大小:290.50KB
返回 下载 相关 举报
开源智能-xpress开源智能软件平台xpress项目汇报_第1页
第1页 / 共20页
开源智能-xpress开源智能软件平台xpress项目汇报_第2页
第2页 / 共20页
开源智能-xpress开源智能软件平台xpress项目汇报_第3页
第3页 / 共20页
开源智能-xpress开源智能软件平台xpress项目汇报_第4页
第4页 / 共20页
开源智能-xpress开源智能软件平台xpress项目汇报_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《开源智能-xpress开源智能软件平台xpress项目汇报》由会员分享,可在线阅读,更多相关《开源智能-xpress开源智能软件平台xpress项目汇报(20页珍藏版)》请在金锄头文库上搜索。

1、开源智能软件平台XPress 项目汇报,谢欣 2003年12月31日,开源智能-XPress,2,目录,项目概述 系统 匹配算法 展望,开源智能-XPress,3,项目概述,名称:“开源智能软件平台” ,Xpress 功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。 特点:自动,开源智能-XPress,4,商业经理:刘菲菲,软工 开发经理:谌贻容,语言所 档案经理:石武光,语言所 项目组长:谢 欣,网络,项目概述:团队成员,开源智能-XPress,5,项目概述:商业计划回顾,本项目以宽带网络服务提供商为服务对象 协助

2、其以低廉的价格对现有下载服务进行大规模扩充,快速提高其商业竞争力为目标。2003年10月23日录音回放:,开源智能-XPress,6,系统介绍,实际使用 http:/xpress.3322.org:7001/XPress,开源智能-XPress,7,系统结构图,开源智能-XPress,8,系统重点一:web信息提取,信息提取简介 基于模板(我们的选择) 基于Ontology 基于规则 基于语法,开源智能-XPress,9,系统重点二:FTP搜索,利用天网文件搜索的技术 爬虫 多线程并行抓取 每个站点一个线程,开源智能-XPress,10,系统重点三:匹配算法,对每个FTP文件匹配所有的软件资源

3、,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功 不是百分之百正确 为什么不用MD5 在现实实施中不可能 文件大小往往不同 增加匹配成功度:语言版本,版本号 算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件 在名称上具有一定的相似度 文件大小相差不大,开源智能-XPress,11,匹配算法一:石氏(石午光)算法,名称文件大小,各占一定百分比 文件大小 二者大小之差的百分比反比于比较结果 名称 假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容 实际做法:前几个字符所占比重较大,越在后面的字符所占比重越小,开源智能-XPress,12,匹配

4、算法二:刘氏(刘菲菲)算法,前提假设:很多软件同时有中英文名 特点:中英文分别匹配,最大子串 步骤 过滤掉文件大小之差大于阀值的匹配 然后进行名称文件大小的匹配 对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串 若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重 比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值,开源智能-XPress,13,匹配结果,开源智能-XPress,14,实际测试,实际查询 http:/xpress.3322.org:7001/XPress Leapftp 网络蚂蚁 Maze 友情强档,开源智能-XPr

5、ess,15,展望:质,提高匹配的准确程度 不同的单词应该有不同的权重,比如: “photoshop”之类的词权重应比较高(区分性较强) “windows”,“ system”之类的权重应比较低 “中文版”,“build”之类的权重应非常低 不手工建立词典,采用分布均匀性公式,开源智能-XPress,16,展望:质(续),对每一个可能的词进行计算 北大计算语言所张化瑞的计算公式 计算词频的分布均匀性 (Distributed Consistency, DC) 分布均匀度越高,该词的权重越低,开源智能-XPress,17,展望:量,增加从web上进行信息提取的来源数量 自动发现软件站点 利用我们

6、的软件信息库和现有的搜索引擎 自动提取此类网站的模板 提取出网站中大量相似页面中的不同内容 自动更新软件信息 基本于软件网站同步更新,开源智能-XPress,18,各位员工好,这是我们开源智能跨国公司这个月的财政收入,ft!我怎么只有180万!,哇,钱不少嘛,不过其实我不爱钱,可是钱爱我,商业展望: 2008年7月开源智能跨国公司的一次月度财政会议,谢谢观赏,开源智能-XPress,20,Ontology,A computational entity, a resource containing knowledge about what “concepts” exist in the worl

7、d and how they relate to one another Components Concepts Domain dependent Context free Context sensitive Domain independent Context free Context sensitive Relationship (relational schema between the concepts) Constraints,Car - object;Car 0:1 has Make 1:*; Make matches 10 constant extract “baudib“; ; end;Car 0:1 has Model 1:*; Model matches 25constant extract “80“; context “baudiS*s*80b“; ; end;Car 0:1 has Mileage 1:*; Mileage matches 8constant extract “b1-9d0,2k“; substitute “kK“ - “000“; end;Car 0:1 has Price 1:*; Price matches 8constant extract “1-9d3,6“;context “$1-9d3,6“; end;,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号