搜索引擎和ecommerce(续)

上传人:ldj****22 文档编号:51262011 上传时间:2018-08-13 格式:PPT 页数:24 大小:75.50KB
返回 下载 相关 举报
搜索引擎和ecommerce(续)_第1页
第1页 / 共24页
搜索引擎和ecommerce(续)_第2页
第2页 / 共24页
搜索引擎和ecommerce(续)_第3页
第3页 / 共24页
搜索引擎和ecommerce(续)_第4页
第4页 / 共24页
搜索引擎和ecommerce(续)_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《搜索引擎和ecommerce(续)》由会员分享,可在线阅读,更多相关《搜索引擎和ecommerce(续)(24页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎和eCommerce(续)参考Jaime Carbonell教授的讲义1建一个搜索引擎 (1)得到一个文档集合,C 要一个(例如从北京大学网络实验室) ,买一个(例如从Inktomi) 自己从Web上爬取一个 或者,收集本单位网站上的内容 爬取,或者直接得到2建一个搜索引擎 (2)对这个文档集合建立索引 基于收集的文档集合C建立一个词典 找到所有的词,可以考虑取词根 过滤掉停用词 也可以考虑产生一些短语作为词项, 记为词项的集合 对中的每一个wi 计算并存储其 log2IDF 找到所有wi 在其中出现的文档 Dj 存储文档的标识 ID(Dj) 和 wi 在其中的位置3建一个搜索引擎 (

2、3)查询Q和文档的匹配 过滤掉不在 中的词 计算 ArgmaxkDj in Csim(Q, Dj 用点乘或者cosine相似度 用倒排索引结构4搜索引擎Business (1)所提供的服务 定位(最)有用的网页 两步曲:“给出查询,得到结果列表“ 然后基于综述点击察看5搜索引擎Business (2)收入模型 追求流量 = 广告等 Lycos, Google, AltaVista, Excite, Metacrawler. 安装intranet搜索,收费;或者为其他网站提 供搜索服务 Inktomi, Verity, Google, Condor. 提升父公司的声誉和价值 Infoseek =

3、 Disney6搜索引擎Business (3)混杂模型 通用定位器 (人,地点,.) Metacrawler/GO2Net, Lycos. 基于内容的层次式信息浏览 Yahoo clear first, later Lycos & others. 结合新闻,股票行情,聊天室, Yahoo clear leader, now many others.7新技术 (1)更好的搜索引擎技术 元搜索 (将多个搜索引擎的结果组合起 来) e.g. Metacrawler, Vivisimo 将IR和人工分类结合 Yahoo首先这么做,后来大多数其他的 目录门户都跟随8新技术 (2)Better Sear

4、ch Technologies 按照入向链接的密度对网站排序 e.g. Google, Authorities = 具有很高的“入度”的网页 Hubs = 具有很高的“出度”的网页 Rank = Argmaxkdj in Drelilogi (inlinki(dj)ai 将IR和翻译结合 e.g. AltaVista/Babblefish, Google, 9新技术 (3)Better Mousetraps in the Drawing Board 真正基于Web的跨语言IR 功能强,更准确的查询:收费 (MMR, probabilistic IR search, quality filter

5、s,.) WebSearch + Summarization & Fusion 多媒体搜索:收费 自动生成类似于Yahoo的目录层次 搜索部分潜藏的Web(hidden-web) (distributed IR)10新技术 (4)Better Mousetraps in the Drawing Board 更全面的Web Crawlers AltaVista indexes “antique, vintage, classic“ 5. 拿它们干什么? 修改你的网站内容,让它自然地包含这些词 项(意在使用户搜索竞争者相关的内容时也 能发现你!)14Optimizing WebSites for

6、Searching (4)Content Strategy 6. 对一些不方便包含的词,让它们在网站中“隐 形”出现(invisibly) Meta-tags for indexing 用很小的字号 (illegible text appears as background pattern) 用和背景同样的颜色 在首页上尽量少出现其他无关的文字 (例如,可以将它们挪到其他链接的网页上)15Optimizing WebSites for Searching Part II (1)发现主要竞争对手 1. 接着前面,完成你的网站 2. 在所有的搜索引擎上都登记 3. 联系20-to-50个潜在的“客

7、户”16Optimizing WebSites for Searching Part II (2)Find Key Competition 4. 让他们在不知道你网站具体内容的情况 下给出若干对你的产品或服务的查询。 在多个搜索引擎上试这些查询5. 观察哪些网站基本上总能排在你的前面17Optimizing WebSites for Searching Part II (3)Analyze Key Competition 6. 考察竞争网站的网页,看哪些词项和一些随 意的查询匹配(仔细看meta-tags, invisible fonts等) 7. 将这些词项隐式加入你的网站 8. 进一步考虑

8、从你的首页中去掉更多不相干的 文字 9. 重新向搜索引擎登记,可能反复多次,直到 你的网站对合理的查询,在多数搜索引擎上 都出现在查询结果的前面18Optimizing WebSites for Searching Part II (4)进一步优化 尽量删去不是关键词的文字(例如,考 虑将它们放到链接的网页中,或者做成 图像文件) 还记得cosine相似度函数的分母? 将内容宽泛的入口网页分解为若干不同 主题的网页(增加和查询匹配信息的密 度)19 上面这些措施的基本架设是什么? 对Authority and Frequency-biased搜索引 擎 20Optimizing WebSite

9、s for Searching Part III (1)关联策略 让你的那些词语很丰富的网页看起来有吸引 力 盼望被搜索引擎关注到 将这些网页链接到你的主页或入口页 尽快引起别人注意 如果你的网站有多于30个网页,可以考虑提 供站内搜索,只收集本站的网页和其他文字 信息21Optimizing WebSites for Searching Part III (2)Connectivity Strategy 对于用户在本站的查询(可能涉及面很 宽),如果本地搜索不到,可以考虑自 动转到某个通用搜索引擎 不给用户泼冷水。 尽可能增加对自己网站入口网页的链接 数,从各个方面(站内,站外) 例如和别的网站“exchange links”2223下周 按顺序,项目小组介绍构思 每小组10-15分钟 PPT可以在周三上午提前发给我24

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号