信息检索0-简介

上传人:飞****9 文档编号:131351979 上传时间:2020-05-07 格式:PPT 页数:54 大小:7.02MB
返回 下载 相关 举报
信息检索0-简介_第1页
第1页 / 共54页
信息检索0-简介_第2页
第2页 / 共54页
信息检索0-简介_第3页
第3页 / 共54页
信息检索0-简介_第4页
第4页 / 共54页
信息检索0-简介_第5页
第5页 / 共54页
点击查看更多>>
资源描述

《信息检索0-简介》由会员分享,可在线阅读,更多相关《信息检索0-简介(54页珍藏版)》请在金锄头文库上搜索。

1、第0讲课程简介Aboutthecourse 2016年8月 提纲 什么是信息检索 为什么要学习信息检索 课程情况 2 提纲 什么是信息检索 为什么要学习信息检索 课程情况 3 从几个互联网应用说起 4 搜索引擎 中科院研究生院2011年度秋季课程 5 中科院研究生院2011年度秋季课程 6 中科院研究生院2011年度秋季课程 7 三个应用例子的共同特征 给定需求 或者是对象 从信息库中找出与之最匹配的信息 或对象 Google的例子 需求 现代信息检索 卓越 亚马逊的例子 对象 天王表 石英女表LS3522S 黑色 世纪佳缘网的例子 对象 你自己 不同场景下的 匹配 定义不同买了微波炉 继续推

2、荐微波炉微博中向老婆推荐前女友数据形式无固定结构的自由文本结构化数据 8 信息检索 InformationRetrieval IR 给定用户需求返回满足该需求信息的一门学科 通常涉及信息的获取 存储 组织和访问 从大规模非结构化数据 通常是文本 的集合 通常保存在计算机上 中找出满足用户信息需求的资料 通常是文档 的过程 找对象 的学科 即定义并计算某种匹配 相似度 的学科 9 信息检索与其他学科领域的关系 非严格 自然语言处理 NaturalLanguageProcessing NLP 对文本进行浅层 深层处理的学科 也称计算语言学 数据挖掘 DataMining DM 对结构化和非结构化信

3、息进行分类 聚类 预测等分析处理的学科机器学习 MachineLearning ML 从数据中学习到知识或规律的学科并行计算 ParallelComputing 对大规模数据进行快速分析处理的领域 10 信息检索技术的应用 11 搜索 推荐 挖掘 IR技术 情报处理 内容安全 舆情分析 信息检索应用系统 搜索系统Web搜索引擎 如Google IBMWaston问答系统 微软小冰 推荐系统淘宝网豆瓣网微博推荐 好友推荐 12 从信息规模上分类 个人信息检索 个人相关信息的组织 整理 搜索等 桌面搜索 DesktopSearch 个人信息管理 PIM PersonalInformationMan

4、agement 个人数字记忆 PersonalDigitalMemory 企业级信息检索 在企业内容文档的组织 管理 搜索等 企业级信息检索是内容管理 ContentManagement 的重要组成部分 局域网 内网搜索Web信息检索 在超大规模数据集上的检索 13 提纲 什么是信息检索 为什么要学习信息检索 课程情况 14 市场发展的需求 用户 国家 企业 个人等 需要信息检索技术 互联网的信息量太大 噪音太多 寻找所需要的信息非常不容易公司需要信息检索技术 搜索引擎改变了很多传统的生活方式 Yahoo Google Baidu 还有一些公司如Microsoft Sina Sohu Tenc

5、ent Netease 360 Facebook都加入到这个搜索技术的竞争 目前搜索引擎公司甚至整个互联网正常运转的计算广告的核心技术是信息检索技术不只是搜索引擎才需要信息检索技术 电子商务 如亚马逊网站 淘宝等 社交网 微博 Facebook twitter 校内网 数字图书馆 大规模数据分析 金融证券行业等 等都需要信息检索技术人才的竞争 搜索相关人才人数出现缺口 他们非常抢手 待遇如日中天是不是泡沫 2000年左右出现的网络泡沫和现在的互联网有什么不同 搜索引擎在其中占什么位置 15 几个应用需求 移动搜索产品搜索专利搜索广告推荐社会网络分析消费行为分析网络评论分析SEO营销 16 信息

6、检索应用的三个层次 信息检索技术是内容应用特别是互联网内容应用的核心技术 可以说在这些应用中无处不在信息检索将会成为一门计算机专业的基础学科搜索 狭义的信息检索 的三个层次 个人认为 17 中科院研究生院2011年度秋季课程 18 应用层次 搜索是一项非常重要的应用 中科院研究生院2011年度秋季课程 19 中间层次 搜索是极其重要的API 中科院研究生院2011年度秋季课程 20 www G 2015年9月的结果 中科院研究生院2011年度秋季课程 22 介绍一本有趣的书 中科院研究生院2011年度秋季课程 23 核心层次 搜索是未来操作系统的重要组成部分 提纲 什么是信息检索 为什么要学习

7、信息检索 课程情况 24 前任主讲老师介绍 主讲老师 王斌研究员 2014年9月1日调入中科院信工所第二研究室 此前就职于中科院计算所前瞻研究实验室 现为信工所研究员 博士生导师 研究方向 信息检索与自然语言处理邮件地址 wangbin 新浪微博 王斌 IIEIR 25 主讲老师介绍 主讲老师 何苯副教授 2010年8月调入国科大计控学院 此前就职于加拿大约克大学信息检索实验室 现为国科大副教授 硕士生导师 研究方向 信息检索 自然语言处理邮件地址 benhe 在信息检索 社会计算 自然语言处理等领域发表过60余篇论文主持国家自然科学基金 北京市自然科学基金等多个科研项目 26 课程的宗旨 信

8、息检索的基本原理 模型和方法 含部分机器学习 自然语言处理方法 信息检索系统的基本实现方法 27 本课程的特点 不是教学生学怎么使用信息检索工具 另有课程 而是了解信息检索工具背后的基本原理和技术 并且能够进行深层的研究或开发相关的应用 知其然知其所以然 掌握原理 积极讨论 广泛阅读 深入实践 28 授课内容简介 基本内容布尔检索倒排及各种索引索引构建及压缩向量检索检索评价方法相关反馈及查询扩展高级内容概率模型语言模型分类聚类矩阵分解及LSI机器学习在IR上的应用 Learningtorank neuralIRmodels WEB采集 检索及链接分析 29 授课内容简介 另一个角度 信息检索的

9、基本概念信息检索的评价信息检索模型和算法模型 布尔模型 向量模型 概率模型 语言模型 相关反馈 查询扩展文本处理技术文本分类和聚类技术信息组织和索引信息检索的应用WEB检索 30 授课方案 课堂讲述和课后练习互动相结合讲授内容既包含传统内容 也注意吸收最新研究成果学术内容和业界进展相结合既考虑一般学生普及入门的需求 也考虑相关专业学生更高的要求与往年相比授课内容增多速度加快增加大作业讨论环节 31 课程基础 数学基础概率统计线性代数计算机基础算法和数据结构程序设计 32 考核方式 大作业 期末考试 开卷 1个大作业50 课程项目 第3周开始布置期末考试50 课堂开卷 33 国际著名研究机构和代

10、表人物 美国康奈尔大学Salton 1927 1995 现代信息检索的奠基人 倡导向量空间模型SMART的完成人第一任Salton奖 1983年 得主 ACMFellow英国剑桥大学SparckJones 1935 2007 概率检索模型的提出者之一NLP和IR中的杰出先驱曾获ACL终身成就奖和1988年Salton奖 34 国际著名研究机构和代表人物 微软英国剑桥研究院 伦敦城市大学Robertson ACMFellow概率检索模型的先驱和倡导者开发了OKAPI检索系统2000年Salton奖得主美国UMassCIIRW B Croft ACMFellow基于统计语言建模IR模型的提出者和倡

11、导者和CMU共同开发了Lemur工具2003年Salton奖得主 35 国际著名研究机构和代表人物 英国Glasgow大学Rijsbergen ACMFellow信息检索逻辑推理学派的提出者和倡导者现在试图用量子理论解决IR问题2006年Salton奖得主微软美国研究院SusanDumais隐性语义索引LSI的提出者2009年Salton奖得主 36 国际著名研究机构和代表人物 德国Duisburg Essen 杜伊斯堡 埃森 大学NorbertFuhr教授信息检索和数据库上的理论贡献信息检索概率学派的杰出代表人物之一数据库和XML检索的主要代表人物交互式检索 InteractiveRetri

12、eval 的重要人物2012年Salton奖得主 37 中科院研究生院2011年度秋季课程 38 中科院研究生院2011年度秋季课程 39 40 41 国际著名研究机构和代表人物 美国CMU美国UIUC微软研究院IBM研究院Google研究院Yahoo 研究院 42 一些活跃的华裔学者 加拿大蒙特利尔大学聂建云教授跨语言检索IR模型美国UIUC翟成祥 ChengxiangZhai博士 IR模型 主题模型 TopicModel 美国CMU杨颐明 YimingYang 教授文本分类领域最著名的学者之一 43 一些活跃的华裔学者 台湾中研院简立峰号称 中文搜索 第一人加入Google研究院微软研究院

13、的一大批学者马维英李航文继荣高剑峰 44 国内一些相关研究机构 北京大学复旦大学清华大学哈尔滨工业大学上海交通大学国科大中科院计算所中科院软件所中科院信工所中科院自动化所 45 重要会议 国际会议 SIGIR ACL WWW SIGKDD WSDM ICMLCIKM EMNLP COLINGTREC NTCIR评测会议ECIR AIRS国内会议 全国信息检索学术会议 1年一届 全国计算语言学联合会议 2年一届 46 ACMSIGIR ACM 美国计算机学会SIGIR specialinterestgrouponinformationretrieval 特定兴趣组ACMSIGIRConferen

14、ce IR领域的最重要会议 起始于1978年 2014年是第37届 会议地点在美洲 欧洲和亚太三个地区轮换 2009 美国波士顿2010 瑞士日内瓦2011 北京2012 美国波特兰2013 爱尔兰都伯林2014 澳洲黄金海岸2015 智利圣地亚哥2016 意大利比萨2017 日本东京 47 IR及相关研究领域重要会议 48 ACMSIGIR VLDB PODS ICDE ASIS Learning Mining NLP Applications Statistics Software systems COLING EMNLP ANLP HLT NIPS UAI RECOMB PSB JCDL

15、 Info Science InfoRetrieval ACMCIKM Databases ACMSIGMOD ACL ICML AAAI ACMSIGKDD ISMB WWW SOSP OSDI TREC 本页借用了ChengxiangZhai的课件 重要期刊 国际 ACMTransactionsonInformationSystems TOIS ACMTransactionsonAsianLanguageInformationProcessing TALIP InformationProcessing Management IP M InformationRetrievalJASIST 美

16、国情报学会会刊 国内中文信息学报计算机学报 软件学报 计算机研究与发展 49 重要工具 信息检索SMART 向量空间模型工具 C编写Lemur Indri 包含各种IR模型的实验平台 C 可以直接对TREC语料进行处理 CMU Umass联合开发Terrier 格拉斯哥大学开发的IR实验平台 除其他IR模型外 还包含该组倡导的DFR模型 JavaWeka 数据挖掘工具 Java编写深度学习TensorFlow Google发布的深度学习开源工具平台Keras 基于Python的深度学习工具Pytorch 另一个基于Python的深度学习工具 50 重要工具 开发平台Lucene 检索工具 Java版是维护版本 存在其他各种版本 主要是向量空间模型Sphinx C 检索工具 实现了BM25概率模型 和MySQL集成较好 据说不要定制Xapian C 检索工具 实现了BM25概率模型 据说易定制Nutch 开源爬虫 LuceneLarbin 采集工具 C Mahout 分布式数据挖掘平台Java更多 51 网站地址 研究生院课程主页 52 教材 注意最好选 如果可选的话 最近一次 目前是第

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 电子/通信 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号