2023年Chat-GPT深度拆解AI算力模型

上传人:周哈****孩子 文档编号:595190289 上传时间:2024-10-25 格式:DOCX 页数:13 大小:1.17MB
返回 下载 相关 举报
2023年Chat-GPT深度拆解AI算力模型_第1页
第1页 / 共13页
2023年Chat-GPT深度拆解AI算力模型_第2页
第2页 / 共13页
2023年Chat-GPT深度拆解AI算力模型_第3页
第3页 / 共13页
2023年Chat-GPT深度拆解AI算力模型_第4页
第4页 / 共13页
亲,该文档总共13页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《2023年Chat-GPT深度拆解AI算力模型》由会员分享,可在线阅读,更多相关《2023年Chat-GPT深度拆解AI算力模型(13页珍藏版)》请在金锄头文库上搜索。

1、ChatGPT深度拆解AI 算力模型2023 正文目录1. ChatGPT,深度拆解AI 算力模型41.1. ChatGPT 算法的核心壁垒41.2. 不同类别 AIGC 算法比对91.3. 我国国产 ChatGPT 生态正在形成112. 投资建议:梳理AIGC 相关受益厂商143. 风险提示15图目录图表 1 AI 算法的全流程4图表 2 模型的准确度和数据数量呈现正相关5图表 3 AI 需求呈现指数级别的增长5图表 4 Transformer 算法的前世今生5图表 5 Transformer 模型与RNN、CNN 模型准确度对比(%)5图表 6 深度学习初期模型越来越大6图表 7 预模型出

2、现后机器对自然语言的理解不断提升6图表 8 国外主要 AIGC 预训练模型一览7图表 9 谷歌GBRT 取得的能力8图表 10 谷歌 GBRT 预训练架构8图表 11 CLIP 算法示意图8图表 12 DallE2 自动生成图画8图表 13 强化学习近端策略优化优化示意图9图表 14 ChatGPT 和 LaMDA 的不同(左为 ChatGPT,右为 LaMDA)10图表 15 图神经网络在电子健康记录建模的应用10图表 16 药物发现和合成化合物11图表 17 百度文心预训练模型(大模型)发展历程12图表 18 百度文心大模型全景图13图表 19 部分国产ChatGPT 文心一言合作公司14

3、13 1. ChatGPT,深度拆解 AI 算力模型1.1. ChatGPT 算法的核心壁垒AI 的完整算法生成分为五部分分别是数据收集、数据清洗、模型训练、模型测试、模型部署和反馈。图表 1 AI 算法的全流程资料来源:CSDN,华西证券研究所核心壁垒一,庞大的数据训练数据。数据是所有人工智能(或大数据)的“燃料”,根据 appen 的数据,ChatGPT 的前身 GPT-3 就使用了 3,000 亿单词、超过40T 的大规模、高质量数据进行训练。ChatGPT 在其基础上,加入了人工打标的监督学习,即对话式模型给出结果后,由训练师对结果做出评价并修改结果以更贴切对话内容。原因,往往愈发庞大

4、的“燃料”意味着模型的精准度的提升,数据量的大小 跟深度学习(大数据)的准确度庞大的正相关。此外,数据量的大小对于运算计算机算力的要求往往呈现指数级别的关系,这也是强大算法的核心需求。原因是数据清洗和数据标注的核心意义就是将人们理解的非结构化数据转变成计算机可以理解的结构化数据。可以将人工智能的本质理解成矩阵的运算,矩阵的维度往往代表着数据特征的维度,这也是训练神经网络参数的基础,一般情况下,数据维度越多,模型参数量越多,模型越复杂,模型的准确度越高,对算力的指数需求越高。本质是数据维度与算力指数呈现正相关。(不考虑参数堆积、模型过拟合的情况)图表 2 模型的准确度和数据数量呈现正相关图表 3

5、 AI 需求呈现指数级别的增长资料来源:知乎,华西证券研究所资料来源:腾讯云,华西证券研究所第二,模型训练方面,ChatGPT 强大的底层技术是 Transformer 算法,该算法正逐步取代 RNN(循环神经网络)。Transformer 算法在神经网络中具备跨时代的意义: RNN 和 CNN 已经广泛应用于序列模型、语言建模、机器翻译并取得不错效果, 然而在算法上仍有一定限制和不足。Transformer 具备跨时代的意义的原因是算法上添加了注意力机制,这种机制具备突破性的原因在于 1、突破了 RNN 模型不能并行计算的限制;2、相比 CNN 模型,关联所需的操作次数不随距离增长;3、模型

6、解释力度明显加强。从结果上看,根据 CDSN 数据,Transformer 的综合特征提取能力、远距离特征捕获能力、语义特征提取能力,全部明显增强,因此此算法正逐步取代 RNN 算法,也是 ChatGPT 算法的底座。图表 4 Transformer 算法的前世今生图表 5 Transformer 模型与 RNN、CNN 模型准确度对资料来源:公开资料整理,华西证券研究所资料来源:CSDN,华西证券研究所第三,模型训练部分,AI 预训练模型(大模型)引发了AIGC 技术能力的质变。在该模型问世之前,具有使用门槛高、训练成本低、内容生成简单和质量偏低等问题。而在AIGC 领域,AI 预训练模型拥

7、有巨大参数量模型,AI 预模型可以实现多任务、多语言、多方式等至关重要的作用。AI 预训练模型的出正是人工智能发展的未来和趋势, AI 预训练模型(大模型) 即“大算力+强算法”结合的产物。大模型通常是在大规模无标注数据上进行训练, 学习出一种特征和规则。基于大模型进行应用开发时,将大模型进行微调,如在 下游特定任务上的小规模有标注数据进行二次训练,或者不进行微调, 就可以完成多个应用场景的任务。AI 预训练模型的本质是机器对自然语言理解能力的不断提升: 其根本原因除Transformer 算法以外,还有就是参数量的大小,谷歌 BERT 网络模型的提出,使得参数量首次超过 3 亿规模,GPT-

8、3 模型超过百亿。此外,目前较火热 AIGC 的参数量已经超过千亿。此外,参数量往往是计算空间的复杂程度,模型空间越复杂, 往往意味着庞大的计算量,计算量和参数量呈现正比关系。这也是随着 AI 的功能强大,AI 对算力呈现指数级别根本需求的本质原因。图表 6 深度学习初期模型越来越大图表 7 预模型出现后机器对自然语言的理解不断提升经典神经网络AlexNe tVGG16Inceptio n-V3模型内存(MB)20050090-100参数(百万)6013823.2计算量(百万)720153005000资料来源:博客网,华西证券研究所资料来源:知乎,华西证券研究所此外,预训练模型(大模型),按照

9、应用的基本类型分类:可分为 1、自然语言处理(NLP),例如谷歌的LaMDA 和PaLM、OpenAI 的GPT 系列;2、计算机视觉(CV), 例如微软的 Florence;3、多模态即融合文字、图片、音视频等多种内容形式,例如 OpenAI 的 DALL-E2; 此外,根据不同的领域的应用,可以将预训练模型进一步分类。图表 8 国外主要 AIGC 预训练模型一览厂商预训练模型应用参数量领域谷歌BERT语言理解与生成4810 亿NLPLaMDA对话系统NLPPaLM语言理解与生 成、推理、代码生成5400 亿NLPImagen语言理解与图像生成110 亿多模态Parti语言理解与图像生成20

10、0 亿多模态微软Florence视觉识别6.4 亿CVTuring-NLG语言理解、生成170 亿NLPFacebookOPT-175B语言模型1750 亿NLPM2M-100100 种语言互译150 亿NLPDeep MindGato多面手的智能体12 亿多模态Gopher语言理解与生成2800 亿NLPAlphaCode代码生成414 亿NLPOpen AIGPT3语言理解与生成、推理等1750 亿NLPCLIPDALL-E图像生成、跨模态检索120 亿多模态Codex代码生成120 亿NLPChatGPT语言理解与生成、推理等NLP英伟达Megatron-TuringNLG语言理解与生成

11、、推理等5300 亿NLPStability AIStable Diffusion语言理解与图像生成多模态资料来源:腾讯AIGC 发展报告 2023,华西证券研究所谷歌BERT 作为自然语言处理(NLP)是预训练模型(大模型)的里程碑之作: BERT 模型是谷歌 2018 年发布的的掩码语言模型,当时发布后,在许多自然语言理解任务上取得了最先进的性能,被当时誉为最先进的神经网络模型。其具有里程碑式结果如下,机器阅读理解顶级水平测试 SQuAD1.1 中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且还在 11 种不同 NLP 测试中创出最佳成绩,包括将GLUE 基准推至 80.4(绝对改

12、进 7.6),MultiNLI 准确度达到 86.7% (绝对改进率 5.6)等。BERT 取得跨时代的意义是新的预训练模型:在 BERT 模型出世之前,现有的技术已经严重限制了预训练表示的能力,原因是标准语言模型架构是单向的,因此, Bert 采用了 Transformer 技术的双向编码器表示。与最近的其他语言表示模型不同,BERT 旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此, 预训练的 BERT 表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,无需针对具体任务做大幅架构修改。模型的预训练核心机制是其具备里程碑的根本原因:

13、语言建模(15% 的标记被屏蔽,训练目标是在给定上下文的情况下预测原始标记)和下一句预测(训练目标是对两个文本跨度进行分类)依次出现在训练语料库中)。因此,BERT 学习了上下文中单词和句子的潜在表示,例如语言推理、文本分类和基于序列到序列的语言生成任务,此外该阶段的计算成本明显高于微调。我们认为该算法是 AIGC 的初始应用算法。图表 9 谷歌 GBRT 取得的能力图表 10 谷歌 GBRT 预训练架构资料来源:知乎,华西证券研究所资料来源:稀土掘金,华西证券研究所第四,模型训练方面,多模态数据协同极大的推动 AIGC 的内容多样性与通用性: 预训练模型更具备通用性、多才艺的根本原因得益于多

14、模型技术(multimodal technology)的使用,即多模态表示图像、声音、语音融合的机器学习。2021 年, OpenAI 团队将跨模态深度学习(CLIP)开源,CLIP 能够将文字和图像进行关联,比如将文字“狗”和图像狗进行关联。CLIP 的优势有两点:1、同时进行自然语言处理(NLP)和计算机视觉分析(CV),实现文本和图像的匹配;2、CLIP 模型利用互联网的照片“文本-图像”进行训练,这为后续 AIGC 奠定基础,极大减少数据标注的工作量。多模态同样具有跨时代的意义: 因此,在多模态技术的支持下,预训练模型已经从早期单一的自然语言处理和机器视觉发展成自动生成图画、图像文字、音视频等多模态、跨模态图型。DallE2 就是典型的代表,CLIP 模型让文字和图片两个模态找到能够对话的交界点。图表 11 CLIP 算法示意图图表 12 DallE2 自动生成图画资料来源:知乎,华西证券研究所资料来源:OpenAI 官网,华西证券研究所1.2. 不同类别AIGC 算法比对ChatGPT: ChatGPT 基于 GPT-3.5 架构,拥有 175B 个参数。ChatGPT 的训练功能强大的原因就是

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号