多模态AI深度：从Sora看多模态大模型发展

次浏览

次

2024-3-28

编辑推荐:

本文主要介绍了从Sora看多模态大模型发展相关内容。希望对你的学习有帮助。
本文来自于知乎，由火龙果软件Linda编辑，推荐。

一、多模态AI综述

AI模型：必将从单模态走向多模态，实现复杂场景下的智能决策

2024年，有望出现多模态领域类ChatGPT的爆款应用

大模型行业规模持续增长，市场前景广阔

预计2028年全球大模型市场规模将超过1000亿美元。根据大模型之家、钛媒体数据，预计2023年全球大模型市场规模达到210亿美元，同比增长94.4%。预计到2028年全球大模型市场规模将达到1095亿美元，2022~2028年复合增长率约为47.12%，根据IDC预测，全球生成式AI计算市场规模将从2022年的8.2亿美元增长至2026年的109.9亿美元，CAGR约为91.34%。

预计至2028年我国大模型市场规模接近1200亿人民币。根据大模型之家、钛媒体数据，预计2023年中国大模型市场规模达到147亿人民币，同比增长110.0%。预计到2028年中国大模型市场规模将达到1179亿人民币，2022~2028年复合增长率约为60.11%，市场规模快速成长。

多模态大模型带来AI全新应用场景，多模态内容市场规模有望快速成长。第一财经数据显示，预计至2025年，中国多模态内容市场规模将达到832.7亿美元，2018-2025年复合增长率达65.02%。多模态大模型内容将主要应用于商业定制、医疗、游戏、教育和影视领域。

多模态AI以融合为核心，基于5大技术环节实现复杂问题解决

OpenAI 发布Sora模型，将视觉数据转化为patch

过去的视频模型（循环网络、生成对抗网络、自回归Transformer和扩散模型等）：只关注特定类型的视觉数据、较短或者固定尺寸的视频；

Sora：通用的视觉数据模型，能生成各种持续时间（甚至长达1分钟）、宽高比和分辨率的视频和图片。借鉴了LLM的思想。

视频压缩网络（Video compression network）：减少视觉数据维度。输入原始视频，输出一个在时间和空间上都压缩了的潜在空间。Sora在这个压缩后的潜在空间中进行训练。（同时训练了一个解码器将生成的潜在表征转回原像素空间）

潜空间patch（Spacetime latent patches）：类比Transformer tokens，推理时通过在合适大小的网格中随机初始化patch控制生成视频的大小。

Sora模型核心要点梳理

Sora技术路线

二、Sora模型技术分析

2.1 Sora模型底座：Diffusion Transformer

Sora是一个Diffusion（扩散）模型：输入有噪声的patch，预测原来 “干净”的patch。

同时，Sora是diffusion transformer。Transformer在语言、视觉和图像生成等多个领域都表现出良好的拓展能力。如今，视频领域同样表现优异。

Sora模型 VS 基础模型：基于Transformer的Sora与基于U-Net的基础模型相比，有提升了一个量级的视频时长（2秒到1分），更强的清晰度（4K到1080P），支持数字世界模拟，在一致性等方面均表现更优。

2.1 Sora模型灵感：谷歌使用Patchify技术压缩时空变量

2023年12月，斯坦福团队同谷歌合作，推出了用于生成逼真视频的扩散模型W.A.L.T。该方法成功地将Transformer架构整合到了隐视频扩散模型中。

隐扩散模型（LDM）可在源自自动编码器的更低维隐空间中运行，从而降低计算需求。第一阶段，用一个自动编码器将视频和图像映射到一个统一的低维隐空间，可以在图像和视频数据集上联合训练单个生成模型，并显著降低生成高分辨率视频的计算成本。第二阶段，该团队设计了用于隐视频扩散模型的新 Transformer 块，其由自注意力层构成，这些自注意力层在非重叠、窗口限制的空间和时空注意力之间交替。首先，使用局部窗口注意力能显著降低计算需求。其次，它有助于联合训练，其中空间层可以独立地处理图像和视频帧，而时空层则用于建模视频中的时间关系。

Patchify（图块化）。按照原始 ViT 的设计，该团队对每个隐含帧分别进行图块化，做法是将其转换成一个不重叠图块的序列。窗口注意力。完全由全局自注意力模块组成的 Transformer 模型的计算和内存成本很高，尤其是对于视频任务。为了效率以及联合处理图像和视频，该团队是以窗口方式计算自注意力，这基于两种类型的非重叠配置：空间（S）和时空（ST），

该团队在文本 - 图像和文本 - 视频对上联合训练了 W.A.L.T 的文本到视频生成能力。他们使用了一个来自公共互联网和内部资源的数据集，其中包含约 970M 对文本 - 图像和约 89M 对文本 - 视频。

2.1 Sora模型亮点一：直接在原始图片的大小上训练

过去：往往将视频或者图片压缩到固定大小（比如4秒钟、分辨率256*256）。

Sora：直接在原始素材规格上训练。

2.1 Sora模型亮点二：为视频训练素材生成详细字幕

方法： Re-captioning technique字幕自动生成。首先训练一个能生成详细描述的标注模型，然后用它为训练集中的视频生成文本说明。

技术来源：DALL E3中已经使用过，使用GPT将简短prompt转化为详细说明，这些说明会被输入到视频模型中。

优点：增强文本理解能力，可以提高文本的保真度和视频的整体质量，使得Sora能够生产准确遵循用户提升的高质量视频。

2.2 Sora应用一：图片生成视频 17

Sora除了可以支持文字生成视频，还可以支持图片或视频作为输入，生成视频。

2.2 Sora应用二&三：视频编辑、视频拼接

2.2 Sora应用四：图片生成，更高像素

2.3 Sora核心能力一&二：3D一致性&物体持久性

视频生成模型最大的挑战：长视频序列保持时间一致性。

源于规模效应，Sora生成的人物和场景在三维空间的移动十分自然。

有效模拟短期和长期依赖关系：物体被遮挡或暂离画面，也可以准确表示它们。

长时间序列外观一致性：能够在单个视频中生成同一角色的多个场景，保持外观一致性。

2.3 Sora核心能力三&四：世界交互&模拟数字世界

世界交互：模拟简单行为方式影响世界状态，如吃汉堡后留下咬痕。

模拟数字世界：如视频游戏。以“Minecraft” 为例，Sora能控制玩家角色，以高度逼真方式模拟游戏世界变化。

2.4 Sora模型的局限性

但是，Sora还存在不少局限：

虽然能模拟一些基础物理互动，比如玻璃的碎裂，但还不够精确；

其他相互作用，比如吃食物，并不总是能产生物体状态的正确变化；

长视频中存在逻辑不连贯，或者物体会无缘无故出现的现象。

三、视频生成模型对比

3.1 国内外厂商已相继推出AI视频生成算法及工具

3.2 Stable Video Diffusion：依靠大量高质量数据进行训练

StabilityAI使用了一个包含5.8亿个视频剪辑的巨大数据集，来训练 SVD模型。为了筛选高质量数据，研究人员首先检测每个视频中的不同镜头和转场，并且评估每个镜头中的运动信息，然后为每个镜头自动生成描述文字和每个镜头的美学效果等。

SVD的数据筛选具体方法如下：

级联切换检测：采用级联的切换检测方法识别视频中的场景转场。

运动信息提取：基于稠密光流估计每个视频片段的运动信息。

文本描述生成：为每个视频片段自动生成三种形式的文字描述。

质量评估：使用CLIP等方法评估每个片段的视觉质量、文本匹配度等。

过滤去噪：根据上述评估指标过滤掉质量较差的视频片段。

经过层层筛选，最后保留了一个约1.5亿视频片段的超高质量数据集，为后续的SVD模型训练奠定重要基础。

所以SVD模型能生成高质量视频、并且视频中运动连贯，能够高精

3.3 字节跳动： MagicVideo-V2视频生成模型

字节跳动提出了MagicVideo-V2视频生成模型，官方技术文档指出，该模型将文生图模型、视频运动生成器、参考图像embedding模块和帧插值模块集成到端到端视频生成管道中，MagicVideo-V2能够生成逼真度与流畅度都较高的高分辨率视频，并显著优于Runway、 Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等领先的文生视频模型。

根据字节跳动官方技术文档， MagicVideo-V2模型的T2I模块创建一个1024×1024的图像，用于封装所描述的场景。随后，I2V模块对该静止图像进行动画处理，生成600×600×32帧的序列图片。V2V模块将这些帧增强到1048×1048的分辨率，同时细化视频内容。最后，插值模块将序列扩展到94帧，得到1048×1048分辨率的视频，该视频具有高的分辨率与视频帧数。确保了视频的高质量与动作的运动丝滑性。

3.4 通过3D建模、微调量化等方法提高文生视频质量

3D Morphable模型：研究人员提出将3D morphable模型集成到多视图一致扩散方法中，提高了生成可控性和人形虚拟角色的质量。这种方法能准确地将面部表情和身体姿态控制纳入生成过程，是首个从单个未见过的人像中创建出完全3D一致、可动画且逼真的人形虚拟角色的扩散模型。

扩散模型的微调量化：研究人员在微调量化的扩散模型领域，通过定制三个模型（PEQA用于微调量化参数，Q-Diffusion用于后训练量化， DreamBooth用于个性化），建立了强大的基线模型。分析显示，基线模型在主体和提示保真度之间存在显著的权衡，实现了视频个性化的增强，而且保持了提示保真度和图像质量，在质量和数量上都显著优于基线。

SonicVisionLM：研究人员通过利用视觉语言模型来生成各种声音效果。该方法首先使用视觉语言模型识别视频中的事件，然后根据视频内容推荐可能的声音。这种方法将图像和音频的匹配任务转化为更易研究的图像到文本和文本到音频的匹配任务。该方法在将视频转换为音频方面超越了当前SOTA方法，提高了视频与音频的同步性，并改善了音频和视频元素之间的对齐。

3.5 未来：多模态大模型视频生成有望与3D建模模型相结合

除视频生成之外，OpenAI在2023年5月曾推出 Shap-E 3D建模模型。Shap-E 是一种在 3D 隐式函数空间上的潜扩散模型，能够直接生成隐式函数的参数提取纹理网格模型。训练 Shap-E 分为两个阶段：首先训练编码器，该编码器将 3D 资产确定性地映射到隐式函数的参数中；其次在编码器的输出上训练条件扩散模型。

该类模型的优势在于生成速度快，且生成效果较为稳定。当在配对的3D 和文本数据大型数据集上进行训练后，Shap-E 能够在几秒钟内生成复杂而多样的 3D 资产。我们认为目前 Sora模型当中存在的一些物体逻辑性问题在未来有望通过AIGC 3D建模的方法引入得到解决。

四、AIGC在视频领域的商业化现状与展望

4.1 Synthesia：

Synthesia创立于2017年，关注数字人技术研究和产品落地。公司早期以API方式为用户提供技术支持， 2020 年Synthesia 推出了自己的SaaS产品Synthesia STUDIO，旨在让用户可以像制作 PPT 一样制作视频。目前这款工具主要面向的企业客户，满足产品演示、使用说明、公司理念、内部培训等场景需求。

Synthesia STUDIO 的使用非常简单，用户只需要在 Synthesia 提供的模板中选择适合视频主题的模板和数字人形象（AI Avatar）、输入每一个画面对应的文案后，就可以一键生成一段视频由数字人作为 speaker 的视频，视频生成后，用户还可以在平台上对视频进行深度编辑，例如修改画面中的文字和对应格式、插入产品展示图片或视频动画等、增加视觉效果等。

Synthesia 预设了超过 60 种模版，涵盖培训、销售、学术、商业、 HR、创意内容等场景，同时，Synthesia 也提供上传并使用专门 logo、匹配品牌色系等个性化设置。Synthesia 目前可以提供超过 150 种数字形象（AI Avatar），用户还可以设定扬眉、点头等微表情和手势，数字人形象可以和超过 120 种语言进行匹配。 Synthesia 还支持用户基于创建自己的数字形象（AI Avatar）并采用自己的声音。

Synthesia目前分为个人、创作者和企业三个版本的产品。年费方案下个人用户的收费为22美元/月（合每年264美元），个人方案每月只支持 10 分钟的视频制作。创作者用户的收费为67美元/ 月（合每年804美元），创作者方案每月支持 30分钟的视频制作。针对企业用户，Synthesia 则根据公司需求设定定制化的收费方案，费用主要与使用者数量相关。

Synthesia对客户的价值在于大幅降低视频内容生产成本，使其能够充分利用视频提高内容传播效果。从生产成本角度看， Synthesia 平台操作简便，无需专业视频编辑技能，可以在原视频上修改、实时更新内容，减少重复工作，从 PPT 到创建微视频只需要约 3~4 个核心创造者，一周左右的时间就可以完成，比传统视频制作流程节省 50%~60% 的成本。从传播效果角度看， Synthesia 生成的视频相比仅提供文本或 PPT 更吸引受众，AI 数字人本身也具有吸睛效应。平台模板丰富多样，支持多语言版本，可以针对不同受众群体定制视频。

4.2 Runway ：Gen-2可基于文本、图片等多种输入生成高质量视频

Gen-2由Runway在2023年3月发布，可以通过文本、图片、文本+图片直接生成视频，同时支持风格化和渲染添加好莱坞式大片特效，仅需要几分钟即可完成所有操作，该平台于2023年6月正式公测。据Runway介绍，Gen-2采用的是扩散模型，生成的过程从完全由噪声构成的起始图像中逐渐消除噪声，以接近用户的文本提示。Gen-2的训练数据包括2.4亿张图片、640万个视频剪辑片段以及数亿个学习示例。

Gen-2在Gen-1的基础上添加了新功能，包括文生视频、图文生成视频等，此外在分辨率、内容和图型渲染等方面表现更佳。Gen-2以8种工作模式全面助力多模态：

模式1&2&3：文字转视频、文字+图片转视频、图片转视频。

模式4、风格：将任何图像或提示的样式传输到视频的每一帧。

模式5、故事板：将模型转换为完全风格化的动画渲染。

模式6、面具：隔离视频中的物体，使用文本提示对其进行修改。

模式7、渲染：输入图像或提示，将无纹理渲染转换为逼真的输出。

模式8、自定义：通过自定义模型来释放 Gen-2 的全部功能，以获得更高保

4.2 Runway：Gen-2可基于文本、图片等多种输入生成高质量视频

Runway目前提供基础版、标准版、专业版、无限版、企业版五个版本的产品。希望探索Runway的个人用户可免费试用基础版，可以生成3个视频项目，Gen-1 生成的视频长达4秒，Gen-2长达16秒，清晰度720P，提供3个视频编辑器。

最主流的订阅方式是标准版，年费方案下12美金/月（按月订购15美金/月），可以去除水印，Gen-1生成的视频长达15秒，Gen-2长达16秒，提供无限次的视频编辑项目和5个视频编辑器，清晰度为4K，并且可以训练自定义AI生成器。年费方案下专业版28美金/月，无限版76美金/月。企业版的订购需要联系Runway。

从内容生成单价看，Gen-1模型下每秒视频的生成价格为0.14美元（合$8.4/min），而Gen-2模型的价格为每秒0.05美元（合$3/min），而文本转语音的价格为每50 词0.01美元。

根据用户调研，Runway的结果优于现有的图像到图像和视频到视频的转换方法。比起Stable Diffusion 1.5 有73.5%用户更喜欢Runway，优于Text2Live 生成器 88.2%。

4.3 其它AI视频生成公司商业化进展

目前海外创业公司布局AI+视频赛道多集中在企业宣传、营销场景，定价差异不大。除Synthesia、Runway外，目前海外布局AIGC视频生成的厂商还有D-ID、Heygen、Elai等，这些厂商基于积累的虚拟人素材库和视频模板库，可根据客户的需求快速生成视频内容，应用场景主要集中在产品营销宣传、客户服务、内部培训等场景，视频生成价格大多约为每分钟2美元。

4.3 商业应用：AIGC在企业视频生成中具备应用前景

Sora具备1min高质量视频生成能力，AIGC在企业视频场景下有望快速打开应用空间。海外企业视频营销公司Vidyard调研结果显示，基于 2023年177.8万条企业视频，可以发现金融服务和高科技行业平均单企业生成视频数量位居前两位，分别达到934条和917条，有五个行业的企业用户年度生成视频数量超过500条，AI生成企业视频需求量非常可观。

从企业视频应用场景看，相当比例的企业将视频营销应用于产品Demo（47%）、名词解释（35%）、活动回放（33%）、操作方法介绍（31%）等场景，参考Synthesia、Runway等厂商现有的商业化方案，我们认为Sora以其更长时间和更高质量的视频生成能力，有望快速地切入这一市场。

调研显示接近60%的企业视频时长不足2分钟，AIGC技术已接近满足要求。Vidyard数据显示，2023年34%的企业视频市场在1分钟以内， 25%的视频时长在1-2分钟，目前Sora可以生成1min的高质量视频，2024年随着技术迭代有望满足企业营销视频市场超过50%的需求。

4.3 千亿级数字视频生成市场有望被AIGC覆盖

2025年全球数字视频内容市场规模有望超3000亿美元，未来有望受益视频营销场景拓展而实现市场持续增长。根据PR Newswire数据预测， 2025年全球数字视频市场内容规模有望达到3271.9亿美元，2021-2025年CAGR超过14%，保持持续增长态势。

全球AIGC文生视频市场有望保持快速增长。http://Market.us数据显示，2022年AIGC文生视频市场规模仅有2.57亿美元，预计到2032年AI文生视频内容市场可达到24.80亿美元，2022-2032年CAGR约为26.2%。我们认为AI大模型将推动优质视频生成成本大幅下降，进而刺激下游企业用户需求的显著增长，市场规模有望加速发展。

次浏览