人工智能之表示学习103页精品分析

资源描述

《人工智能之表示学习103页精品分析》由会员分享，可在线阅读，更多相关《人工智能之表示学习103页精品分析（125页珍藏版）》请在金锄头文库上搜索。

1、人工智能知识稣学习目录报告说明11. 研究范围12. 研究方法21. 概述篇411表示学习的概念41.2表示学习的特点和形式513技术发展历程614表示学习的典型应用101.4.1语音识别和信号处理101.4.2自然语言处理111.4.3内容推荐122. 技术篇142.1表示学习的理论基础142.1.1向量空间模型142.1.2词袋模型162.1.3主题模型182.1.4 独热表示与分布式表示192.2网络表示学习的主要算法202.2.1基于网络结构的网络表示学习202.2.2结合外部信息的网络表示学习232.3知识表示学习的主要方法模型252.3.1距离模型/结构表示252.3.2单层神经网

2、络模型252.3.3能量模型262.3.4双线性模型262.3.5张量神经网络模型272.3.6矩阵分解模型272.3.7平移模型272.4表示学习领域必读论文解读282.5表示学习话题模型352.6领域专利申请情况372.7领域相关的国家自然科学基金NSFC项目392.8表示学习领域研究前沿动态403. 人才篇573.1表示学习领域学者情况概览573.2代表性学者简介613.2.1国外代表性学者613.2.2国内代表性学者734. 趋势篇904.1技术研究发展趋势904.2国家研究发展趋势914.3技术发展面临的挑战91参考文献933图目录IL.图1数据表示学习和神经网络的发展历程8图2Tr

3、ansformer模型架构图34图3BERT的整体预培训和微调程序35图4LDA结构图36图52010至2019年期间表示学习相关专利申请量38图62010至2019年期间表示学习专利受理局排名38图72010至2019年期间表示学习相关专利申请排名前十机构39图82010-2020年国家自然科学基金NSFC项目数量前十的项目类型40图92010-2020年国家自然科学基金NSFC项目量前十依托单位40图10表示学习领域全球顶级学者分布图57图11表示学习领域顶级学者数量TOP 10国家58图12表示学习领域顶级学者数量TOP10机构58图13表示学习领域学者的h-index分布59图14我国

4、表示学习领域顶级学者分布图60图15表示学习领域中国学者合作论文数量TOP10国家61图16表示学习领域热点技术趋势图90图17表示学习领域国家的研究发展趋势91表目录表1表示学习领域的顶级期刊和会议1表2VSM模型中文本与空间的映射表15表3主题模型的四个类别19表4表示学习话题模型36表52020年表示学习领域研究前沿动态41人工智能之表示学习报告说明深度学习下的表示学习旨在将研究对象的语义信息表示为稠密低维实值向量，便于在低维空间中进行对象关系的语义关联计算,并有效解决数据稀疏问题, 显著提升自然语言处理、计算机视觉和机器学习算法等任务的性能。人工智能之表示学习报告主要从概念、理论模型

5、、领域人才、技术趋势等4个部分，介绍表示学习的技术发展和最新研究进展，并展望该技术的未来发展方向与前景。1. 研究范围（1）研究对象期刊和会议所收录的表示学习主题相关的论文数据、以及专利数据等。（2）时间范围报告研咒时段为2010-2020年期间。（3）领域的国内外顶级期刊和会议范围本报告所采用的表示学习领域顶级期刊和会议，是根据CCF推荐国际学术期刊和会议目录和ACM计算机学分类系统相关子领域的A类期刊和会议作为数据来源，并征求领域顾问专家意见，而最终确定了可作为研究对象的表示学习领域的顶级期刊和会议，共计10个，包括ICLR、NeurIPS、ICML、AAAI、IJCAk ACL

6、、EMNLP、CVPR、ICCV以及ECCV。这些期刊和会议的具体详细信息，如表1所示。表1表示学习领域的顶级期刊和会议序号期刊/会议名称简称1International Conference on Learning RepresentationsICLR2Annual Conference on Neural Information Processing SystemsNeurlPS3International Conference on Machine LearningICML4AAAI Conference on Artificial IntelligenceAAAI5Intcniat

7、ional Joint Conference on Artificial IntelligenceUCAI6Annual Meeting of the Association for Computational LinguisticsACL 一7Conference on Empirical Methods on Natural Language ProcessingEMNLP8 IEEE Conference on Computer Vision and Pattern Recognition CVPR9 IEEE International Conference on Computer V

8、isionICCV10 European Conference on Computer VisionECCV2. 研究方法借助科技情报大数据挖掘与服务系统平台AMiner,本报告综合运用了文献分析、大数据分析和挖掘技术、特征抽取、人才画像等研究方法。通过对2010-2020年期间上述来源的论文数据进行挖掘，基于“表示学习” 领域的关键词，通过关键词智能匹配挖掘出所有相关论文。基于这些论文，进行进一步挖掘分析。其中，“表示学习”领域的关键词由表示学习领域顾问组给出，具体包括: 表示学习(RepresentationLearning)、分布式表示(Distributed Representat

9、ion)、符号表示(Symbol Representation)、知识表示(Knowledge Representation)、语义表示(Semantic Representation)、稀疏表示(Sparse Representation)、词典学习(DictionaryLearning)、嵌:入(Embedding)、特征学习(FeatureLearning)、特征提取(Feature Extraction),特征工程(Feature Engineering)、特征表示(Feature Representation)。(1) 人才画像分析法通过以上领域关键词，对挖掘岀的指定研究时段

10、内该领域国内外顶级期刊和会议所收录的论文数据进行分析，获取论文学者信息，通过命名消歧和信息抽取等大数据分析和挖掘技术，对表示学习领域的专家学者进行学者画像，构建表示学习领域人才智库，然后根据学者画像信息进行领域人才相关分析。此外，还抽取论文作者的供职机构和国家信息，对不同国家和机构的研究者及论文数量进行统计。本报告中，人才分析维度包括作者所在机构、机构所属国家等。(2) 技术趋势分析法借助AMiner平台的领域技术分析系统(),通过挖掘和分析论文数据，获取表示学习领域相关论文中的关键词，然后统计这些关键词的起止年份，再按照窗格统计词频，对其进行词频分析和对比，得到表示学习领域的

11、技术研究热点和发展趋势、国际趋势及机构趋势等相关结果。1/1.概述篇人工智能之表示学习1.概述篇近年来，以深度学习为代表的表示学习技术热度高涨，在语音识别、图像分析和自然语言处理领域获得广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量，在该低维向量空间中，两个对象距离越近则说明其语义相似度越高。知识表示学习则面向知识库中的实体和关系进行表示学习，该技术可以在低维空间中高效计算实体和关系的语义联系，有效解决数据稀疏问题，使知识获取、融合和推理的性能得到显著提升。本篇主要介绍表示学习的概念、特点以及技术发展历程。1.1表示学习的概念表示学习 CRepresentatio

12、n Learning),也叫特征学习(Feature Learning), 是一种将原始数据转换成为能够被机器学习方法有效开发的一种技术的集合。 Bengio等学者(2013)指出，数据的表示学习是为了能在构建分类器或其他预测器时更容易提取有用的信息；在概率模型中，好的表示是可以捕捉到所观察到输入的潜在因素的后验分布，也可用作有监督预测器的输入。国内学者刘知远和孙茂松等口认为，知识表示学习是面向知识库中实体和关系的表示学习。通过将实体或关系投影到低维向量空间，能够实现对实体和关系的语义信息的表示，从而高效地计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有重要意义

13、。国内学者涂存超等(2017)、李志义等同(2018)认为，表示学习旨在将研宽对象的语义信息表示为稠密低维实值向量，以在低维空间中高效计算实体和关系的语义联系，并有效解决数据稀疏问题，使知识获取、融合和推理的性能显著提升。由于这种低维度的表示向量能够有效地显示出词语之间的语义关系，且更易于被应用到其他的系统当中，目前知识表示学习中的距离模型、单层神经网络模型、双线性模型、矩阵分解和翻译等模型己广泛应用在信息抽取、知识库自动问答系统，以及多媒体信息资源的处理与识别中。特别地，以深度学习为代表的表示学习技术在语音识别、图像分析和自然语言处理领域获得了更大关注，特征表示学习(Feat

14、ure Representation Learning)逐步成为机器学习的一个新兴分支。孙晓玲和丁壁(2018)研究文章指出，深度学习中的表示学习，将研究对象(如词汇、短语、句子等)的语义信息表示为稠密低维的实值向量。这种分布式表示可以看作是对人脑神经系统的多个神经元的模拟，对象在该语义空间中的相对距离代表它们之间的语义关联度。1.2表示学习的特点和形式在表示学习算法出现之前，机器学习研究人员需要利用手动特征工程 (Manual Feature Learning)等技术从原始数据的领域知识(Domain Knowledge) 建立特征，然后再部署相关的机器学习算法.虽然手动特征工程对于应用机器学习很有效，但它同时也是很困难、很昂貴、很耗时的，并依赖于强大专业知识。特征学习弥补了这一点，它使得机器不仅能学习到数据的特征，并能利用这些特征来完成一个具体的任务。类似于机器学习，表示学习可以被分为两类：监督式表示学习(Supervised Representation Learning)和无监督式表示学习(Unsupervlsed Representation Learning)在监督式表示学习中，被标记过的数据被当作特征用来学习，例如神经网络(Neural Networks)、多层感知器(Multi-LayerPe

展开阅读全文