分布式Web化学数据库定向检索引擎系统的研究和实现

上传人:206****923 文档编号:47366038 上传时间:2018-07-01 格式:PDF 页数:107 大小:4.15MB
返回 下载 相关 举报
分布式Web化学数据库定向检索引擎系统的研究和实现_第1页
第1页 / 共107页
分布式Web化学数据库定向检索引擎系统的研究和实现_第2页
第2页 / 共107页
分布式Web化学数据库定向检索引擎系统的研究和实现_第3页
第3页 / 共107页
分布式Web化学数据库定向检索引擎系统的研究和实现_第4页
第4页 / 共107页
分布式Web化学数据库定向检索引擎系统的研究和实现_第5页
第5页 / 共107页
点击查看更多>>
资源描述

《分布式Web化学数据库定向检索引擎系统的研究和实现》由会员分享,可在线阅读,更多相关《分布式Web化学数据库定向检索引擎系统的研究和实现(107页珍藏版)》请在金锄头文库上搜索。

1、摘 要摘 要I n t e r n e t上的化学数据库是重要的专业资源,基于超链接分析的搜索引擎还不能索引这类资源。本论文以充分利用 I n t e r n e t r 的化学数据库数据为目标,将 “ 个查询发动多个同级检索引擎, 并以结构化的方式组织信息” 的方案应用于以化合物标识信息为检索入I = 1 的We b 化学数据库, 建立了 一个基于多站点数据库的We b 数据库定向检索引擎, 初步实现了深层网_ 二 的数据挖掘与 资源共享。 木论文完成的主要 I .作包括:( I ) 系统模型与通用化数据获取和存储方案的确立:该引擎是一 个包括用户交万 _ 层、中间检索层、 数据提供层的三层

2、 We b 模型。各层在系统内部分别对应于响应用户检索请求的客户端代理模块、 集成远程We b 信息的服务器端代理模块、以及提供缓存和检索的关系数据库模块。 模型通过J S P + J a v a 组件方式实现, 利用H T T P 协议构造并发送We b 化学数据库检索请求,采用X ML 技术对检索返回文档进行结构化数据的提取和表示,利用X ML - D B MS实现X ML数据的存储和检索。( 2 ) 客户端代理模块的实现: 通过J S P 响应程序提供用户以化合物标识、 We b 数据库站点、标识匹配方式为参数的检索入口,对用户输入的化合物标识信息进行预处理;将检索请求传递给服务器端代理

3、,以执行目标数据的提取和封装,并接受服务器端的检索结果,最终返回用户链接了显示样式表的 X ML结果页面;同时为了提高分子式检索的方便性和准确性,对分子式进行了归一化处理。( 3 ) 服务器端代理模块的实现: 利用J a v a B e a n 实现了 访问木地缓存和远方We b 站点并生成X M L 文 档的高层A P I ; 通过修改T id y 程序包, 并将其作为类库集成到J a v a应用程序,实现了H T ML向X H T ML的转换:利用集成了X S L T的数据提取器,从X H T ML文档中提取包含目标数据的X ML文档; 在程序中集成了X ML - D B MS ,实现X

4、MI 文档和关系数据库之间的数据转换。( 4 ) 关系数据库模块的实现:利用X M L - D B MS 的M a p M a n a g e r 工具根据各站点 抽象出来的 X ML D T D,创建用于缓存各站点目 标挖掘数据的子数据库;建立了 化合物索引) 1 F : ,以方便系统对化台物的识别和快速定位:创建了数) 1 s 1 / 1 连接池,以阶低数据库系统的开销( 5 )将各模块整合在 一 起,初步建立了C h e m D B P o r t a l 定向检索引擎系统,P ) 利用分分布式 W e b 化学数据库定向检索引擎系统r ) I 儿和实现子 式、 英文名, C A S登录

5、号实现五个分布式We b 化学数据库的同时检索和统一显不总之, 本论文建立的分布式We b 化学数据库定向检索引擎系统, 是针对深层We b信息挖掘和集成检索的 一 次尝试它可为其它领域建立类似的系统提供借鉴关键词: W e b 数据挖掘, 深层网, 分 布式数据库, 化学数据片, 集成检索, I n t e r n e t ,XM I ,摘 要T h e D i r e c t e d S e a r c h E n g i n e S y s t e m f o r D i s t r i b u t e dCh e mi c a l Da t a b a s e sC h u C h u

6、 n - m e i ( A p p l i e d C h e mi s t ry)D i r e c t e d b y A s s o c i a t e P r o f e s s o r L i X i a o - x i aAb s t r a c tTh e d a t a i n I n t e r n e t Ch e mi c a l d a t a b a s e s a r e a c l a s s o f v a l u a b l e r e s o u r c e s . wh i c hc o u l d n t b e i n d e x e d b y s

7、 e a r c h e n g i n e s b a s e d o n h y p e r l i n k a n a l y s i s . T h e m a j o r p u r p o s e o ft h i s p a p e r i s t o t a k e g o o d a d v a n t a g e o f t h e s e r e s o u r c e s . T h i s i s a n a p p r o a c h t h a t o n e q u e r yl a u n c h e s s e v e r a l s e a r c h e

8、 n g i n e s a t h o s t s i t e s o f d i s t r i b u t e d c h e m i c a l d a t a b a s e s w i t h c o m p o u n d i d e n t i f i c a t i o n s a s e n t ry p o i n t s i n a c a s c a d i n g f a s h i o n . a n d s e a r c h i n g r e s u l t so r g a n i z e d i n a s t r u c t u r a l w a y

9、 . T h e m a i n w o r k o f t h e t h e s i s c a n b e s u m m a r i z e d a s f o l l o w s :( 1 ) A t h r e e - t i e r m o d e l i s d e s i g n e d f o r t h e a p p r o a c h . T h e m o d e l i n c l u d e s t h e u s e r i n t e r f a c ea s a C l i e n t A g e n t r e s p o n d i n g u s e

10、 r s q u e r i e s , t h e s e a r c h i n g m i d d l e - t i e r w a r e a s a S e r v e rA g e n t i n t e g r a t i n g d a t a fr o m t h e t a r g e t s i t e s , a n d t h e W e b s i t e s a n d l o c a l d a t a b a s e a s t h ed a t a m a n a g e r s p r o v i d i n g r e t r i e v a l o

11、f t h e d a t a . C o m b in i n g w i t h H T T P t o s e n d q u e r i e s ,t h e m o d e l i s i m p l e me n t e d w i t h J S P + J a v a B e a n f a s h i o n , u s i n g X ML t e c h n o l o g y t o w r a ps t r u c t u r a l d a t a fr o m t h e r e t u r n e d p a g e s a n d X ML - D B MS

12、t o s t o r e a n d r e t r i e v e X MLd o c u me n t s i n l o c a l d a t a b a s e s .( 2 ) I m p le m e n t e d w i t hs e a r c h i n g i n t e r f a c eJ S P , t h e C l i e n t A g e n t m o d u l e h a s b e e n e s t a b l i s h e d p r o v i d i n g u s e r sw i t h o p t i o n s o f c o

13、m p o u n d i d e n t i f i c a t i o n s , We b d a t a b a s e s i t ea n d t h e i d e n t i f i c a t i o n m a t c h i n g m o d e . T h e i n p u t p a r a m e t e r s a r e p r o c e s s e dl i s ta n dt r a n s f e r r e d t o t h e S e r v e r A g e n t t o a c h i e v e s t r u c t u r a l

14、 d a t a , a n d t h e n t h e X ML r e s u l t sl i n k i n g X S h s h e e t s a r e r e t u rne d t o u s e r s( 3 ) T h e S e r v e r A g e n t m o d u l e h a s b e e n d e v e l o p e d u s i n g J a v a B e a n s t o a c h i e v e t h eh i g h - A P I s f o r r e t r i e v i n g X ML d o c u

15、m e n t f r o m t h e We b s i t e s o r l o c a l d a t a b a s e s . I ti n t e g r a t e d T i d y t o t r a n s f e r d a t a fr o m H T ML t o X H T ML , X S L T t o t a k e X ML o u t f r o mX H T ML , a n d X ML - D B MS t o t r a n s f e r d a t a b e t w e e n X ML d o c u m e n t s a n d l

16、 o c a ld a t a b a s e s( 4 ) T h e R D B m a n a g e m e n t m o d u l e h a s b e e n c o n s t r u c t e d . Wi t h t h e X ML D T D f o r d a t a b a s es i t e s c r e a t e d , t h e Ma p Ma n a g e r i n X ML - D B MS i s u s e d t o c r e a t e d a t a b a s e s c a c h in g d a taf r o m r e l e v a n t s i t e s . A n d a n a s s i s t a n t t a b l e i s u s e d t o s t o r e t h e c o m p o u n d i d e n t i f i c a t i o nr V分布式W e b 化学数据库定向检索引擎系统研7 L 和实现d a t a . C o n n e

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号