优势 3理解物理世界。目前 Sora 已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。我们看到 Sora 生成的视频与世界互动,例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存,一个人可以吃汉堡并留下咬痕。在汽车在山路上行驶的视频中,其汽车的阴影、树影等随镜头变化带来的光影变换也符合物理世界。我们认为 Sora 已具备理解物理世界的能力。
Sora 不仅能通过文字来生成视频,还支持图片生成视频、扩展生成的视频、视频编辑以及视频连接。1)图片生成视频:Sora 能够生成提供图像和提示作为输入的视频;2)扩展生成的视频:Sora 还能够在时间上向前或向后扩展视频,虽然视频的结局都是相同的,但起始视频并不相同;3)视频编辑:扩散模型启用了多种根据文本提示编辑图像和视频的方法,使 Sora 能够零镜头地改变输入视频的风格和环境;4)视频连接:Sora 可以在两个输入视频之间逐帧进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。
三、前景
国泰君安称,Sora模型将推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,多模态相关的训练及推理应用也将进一步提升对算力基础设施的相关需求。
天风证券另一份研报提到,OpenAI新模型可生成60秒视频,AI产业的“Iphone”时刻来临。在下游AIGC核心生产力提升的驱动下,坚定看好上游AI算力硬件机会,坚定看好AI to B的公司,其具备较高壁垒,拥有足够的资金与研发能力,可以充分地吸收海外先进技术实现商业落地,下游应用场景清晰。
国盛证券指出,近期的AI行业新闻,在模型层面各家激战正酣,同时在ScalingLaw不断应验的事实下,此前对算力需求充分乐观的观点将持续被验证,AI算力有望继2023年后,继续成为新一年的热门投资方向。
东吴证券称,OpenAI发布首个视频生成模型Sora,最高可生成一分钟的高清视频,能生成具有多个角色、包含特定运动的复杂场景,表现出突破性的语义理解能力、复杂场景理解能力和一致性等。