蓝色商务风SORA人工智能

资源描述

《蓝色商务风SORA人工智能》由会员分享，可在线阅读，更多相关《蓝色商务风SORA人工智能（23页珍藏版）》请在金锄头文库上搜索。

1、适用于公司员工培训、人工智能科普Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”）创新丨愿景丨未来汇报：时间：202X.XXSora简介01目录CONTNENTSA R T I F I C I A L I N T E L L I G E N C E行业背景02名字由来03发展历程04功能特色05PAPER DESIGNPART 01Sora简介Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2

2、024年2月15日正式对外发布Sora简介Sora简介Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2024年2月15日（美国当地时间）正式对外发布名称来源Sora这一名称源于日文“空”（sora），即天空之意，以示其无限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开发而成的。Sora简介功能Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。继承了DA

3、LL-E3的画质和遵循指令能力，能理解用户在提示中提出的要求。技术Sora对于需要制作视频的艺术家、电影制片人或学生带来无限可能，其是OpenAI“教AI理解和模拟运动中的物理世界”计划的其中一步，也标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞跃PAPER DESIGNPART 02行业背景Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2024年2月15日正式对外发布行业背景视觉算法的进步01视觉算法近年来的突破在泛化性、可提示性、生成质量和稳定性等方面均取得了进展，这预示着技术拐点的临

4、近以及爆款应用的涌现。02特别是在3D资产生成和视频生成领域，由于扩散算法的成熟，这些领域受益匪浅。然而，与图像生成相比，3D资产和视频生成在数据和算法方面面临的难点更多。03尽管如此，考虑到大型语言模型（LLM）对人工智能各领域的加速作用以及已经出现的优秀开源模型，2024年该行业有望实现更大的发展。04在2023年末至2024年初，Pika、HeyGen等人工智能生成的视频应用逐渐受到关注，这验证了多模态技术的持续进步与成熟。05但与此同时，民主倡导者和人工智能研究人员警告说，这些工具已经被用来欺骗民众。PAPER DESIGNPART 03名字由来Sora，美国人工智能研究公司OpenA

5、I发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2024年2月15日正式对外发布名字由来Sora在日语中是“天空”（）的意思，引申含义还有“自由”，象征着其无限的创造潜力PAPER DESIGNPART 04发展历程Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2024年2月15日正式对外发布发展历程模型发展012021年1月5日文生图模型Dall-E发布，Dall-E可以根据简单的描述创建逼真和清晰的图像，精通各种艺术风格，还可以生成文字制作建筑物

6、上的标志，并制作同一场景的草图和全彩图像。022022年4月Dall-E2发布，Dall-E2不仅可以生成更真实和更准确的画像，而且能够将文本描述中的概念、属性和风格等元素综合起来，生成现实主义的图像和艺术作品。032022年11月30日大语言模型ChatGPT发布29，ChatGPT不仅能与人对话，还能编写代码、创作内容等，这一款革命性产品的上线引发全球关注，上线仅5天用户数量就已突破100万。发展历程012023年3月15日GPT-4正式面世，GPT-4可以更准确地解决用户的难题，多模态的GPT-4还可以生成、编辑具有创意性或技术性的文章，在高级推理方面的表现超过其前代产品。012023年

7、9月21日Dall-E3正式发布，Dall-E3能够更准确、更优秀地生成效果，可以更准确地呈现用户的想法，用户可以要求ChatGPT提供合适的提示词。032024年2月16日Sora问世，Sora继承了Dall-E3的画质和遵循指令能力，可以根据用户的文本提示创建逼真的视频，可以深度模拟真实物理世界，能生成具有多个角色、包含特定运动的复杂场景。美国当地时间2024年2月15日，OpenAI正式发布文生视频模型Sora，并发布了48个文生视频案例和技术报告，正式入局视频生成领域。Sora能够根据提示词生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。发展历程正式发布PA

8、PER DESIGNPART 05功能特色Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”），于2024年2月15日正式对外发布功能特色优点功能综述Sora可以快速制作最长一分钟、准确反映用户提示、可一镜到底的视频（其他AI视频工具还在突破几秒内的连贯性），视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”视频扩展与缺失帧填充Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域具有应用前景，可以帮助用户快速完成视频内容的补充和完善。静态图生成视

9、频Sora还具备根据静态图像生成视频的能力，能够让图像内容动起来，并关注细节部分，使得生成的视频更加生动逼真，这一功能在动画制作、广告设计等领域具有应用前景。连接视频可以使用Sora连接两个输入视频，在具有完全不同主题和场景组成的视频之间实现无缝过渡01Sora可以生成各种尺寸的图像，分辨率最高达20482048。图像生成02Sora可以生成动态运动的视频，随着相机的移动和旋转，人和场景元素在三维空间中一致移动。3D一致03Sora通常能够有效地对短期和长期依赖关系进行建模，包括人、动物和物体的持久化，即使它们被遮挡或离开框架。同时，它还能在单个样本中生成同一角色的多个镜头，以保持其在整个视频

10、中的外观。远距离连贯性、物体持久性功能特色其他能力Sora有时可以用简单的方式模拟影响世界状态的动作。例如一个画家可以在画布上留下新的笔触，并随着时间的推移而持续，或者一个男人可以吃汉堡并留下咬痕Sora可以模拟人工过程，例如电子游戏，并能够通过基本策略控制玩家，同时高保真地渲染世界及其动态。Sora可以生成多机位、多角度的视频。功能特色互动性模拟数字世界多机位功能特色多帧预测生成Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面主体在暂时离开视野时

11、仍保持一致。技术特点功能特色特殊架构Sora采用与GPT模型相似的Transformer架构，OpenAI用Transformer结构替代Diffusion模型中常用的U-Net结构，提升了原来Diffusion模型在深度和宽度上的可扩展性，为视频模型增加输出时长奠定基础。Transformer架构能够处理长序列数据，并通过自注意力机制捕捉数据中的依赖关系，从而提高模型的生成能力。但为了解决Transformer架构在长文本和高分辨率图像处理上的问题，扩散模型采用更可扩展的状态空间模型（SSM）主干替代了传统的注意力机制，从而减少了算力需求，并能够生成高分辨率图像。技术特点功能特色重述提示词S

12、ora借鉴DALL-E3的“重述提示词技术”，为视觉训练数据生成高度描述性的标注，这使得模型能够更忠实地遵循用户的文本指令，生成符合用户需求的视频内容，同时也提高了模型的灵活性和可控性。数据表示OpenAI将视频和图像表示为Patch，类似于GPT中的token，这种统一的数据表示方式使得Sora能够在更广泛的视觉数据上进行训练，涵盖不同的持续时间、分辨率和纵横比，有助于模型学习到更丰富的视觉特征，提高生成视频的质量和多样性。功能特色原生规模训练Sora采用“原生规模训练”，过往的图像和视频生成通常会将视频调整为标准大小，但这样会失去视频的原始长宽比和细节，而原生规模的训练方法可以带来更好的效

13、果。Sora可以对各种尺寸和纵横比的视频进行采样，允许直接为不同尺寸的设备创建内容，并快速原型化较低分辨率的内容。与将视频裁剪为正方形的模型相比，Sora可以生成更完整、更美观的视频。技术特点功能特色例如，在“五只灰狼幼崽在一条偏僻的碎石路上互相嬉戏、追逐”的场景中，狼的数量会变化，一些凭空出现或消失。在提示词“篮球穿过篮筐然后爆炸”中，篮球没有正确被篮筐阻挡。Sora也存有以下弱点：可能难以准确模拟复杂场景的物理原理，无法理解因果关系，混淆提示的空间细节，难以精确描述随着时间推移发生的事件。适用于公司员工培训、人工智能科普Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型（但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”）创新丨愿景丨未来汇报：时间：202X.XX

展开阅读全文