[热门赛道] 大模型Sora震撼登场，AI生成视频的里程碑

交易家实盘认证 发表于 2024-2-23 15:10:21 | 显示全部楼层

一、事件
OpenAI 在 2024 年 2 月 16 日发布文生视频模型 Sora，突破了 AIGC 的高地，该模型完美继承 DALL·E 3 的画质和遵循指令能力，并利用了 GPT 扩写，具备超长生成时间（60s，Pika 1.0 为 3s）、单视频多角度镜头、理解物理世界三大突出优势。除文生视频外，该模型还能支持通过现有的静态图像生成视频，并能准确、细致地对图像内容进行动画处理；提取现有视频，对其进行扩展或填充缺失的帧。

二、里程碑
优势 1超长生成时间。Sora 支持 60s 视频生成，一镜到底，不仅主人物稳定，背景中的人物表现也十分稳定，可实现从大中景无缝切换到脸部特写。相比之下，Pika 1.0的视频生成时间为 3s（可通过 Add 4s 功能增加 4s），Sora支持时长远超目前市场上已有的文生视频模型。

优势 2单视频多角度镜头。Sora 生成的视频中，在有多角度镜头的情况下仍然能保证一致性，即使主体暂时离开视野也可保持不变。OpenAI 展示了如下提示词的生成的视频：一个美丽的剪影动画展示了一只狼对着月亮嚎叫，感到孤独，直到它找到狼群，该视频实现了多镜头无缝切换且保持了主体的一致。

优势 3理解物理世界。目前 Sora 已经能生成具有多个角色、包含特定运动的复杂场景，不仅能理解用户在提示中提出的要求，还了解这些物体在物理世界中的存在方式。我们看到 Sora 生成的视频与世界互动，例如，画家可以在画布上留下新的笔触，并随着时间的推移而持续存，一个人可以吃汉堡并留下咬痕。在汽车在山路上行驶的视频中，其汽车的阴影、树影等随镜头变化带来的光影变换也符合物理世界。我们认为 Sora 已具备理解物理世界的能力。

Sora 不仅能通过文字来生成视频，还支持图片生成视频、扩展生成的视频、视频编辑以及视频连接。1）图片生成视频：Sora 能够生成提供图像和提示作为输入的视频；2）扩展生成的视频：Sora 还能够在时间上向前或向后扩展视频，虽然视频的结局都是相同的，但起始视频并不相同；3）视频编辑：扩散模型启用了多种根据文本提示编辑图像和视频的方法，使 Sora 能够零镜头地改变输入视频的风格和环境；4）视频连接：Sora 可以在两个输入视频之间逐帧进行插值，从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。

三、前景
国泰君安称，Sora模型将推动AI多模态领域飞跃式发展，AI创作等相关领域将迎来深度变革，AI赋能范围进一步扩大，多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。
天风证券另一份研报提到，OpenAI新模型可生成60秒视频，AI产业的“Iphone”时刻来临。在下游AIGC核心生产力提升的驱动下，坚定看好上游AI算力硬件机会，坚定看好AI to B的公司，其具备较高壁垒，拥有足够的资金与研发能力，可以充分地吸收海外先进技术实现商业落地，下游应用场景清晰。
国盛证券指出，近期的AI行业新闻，在模型层面各家激战正酣，同时在ScalingLaw不断应验的事实下，此前对算力需求充分乐观的观点将持续被验证，AI算力有望继2023年后，继续成为新一年的热门投资方向。
东吴证券称，OpenAI发布首个视频生成模型Sora，最高可生成一分钟的高清视频，能生成具有多个角色、包含特定运动的复杂场景，表现出突破性的语义理解能力、复杂场景理解能力和一致性等。

四：独家精选个股