多元化AI开源模型丰富电影智能化创作生产手段

发布日期:2024-11-28         新闻来源:中国电影科技网      点击0



 Genmo开源100亿参数AI视频模型Mochi 1


 复旦与百度推出音频驱动视频生成开源项目Hallo2


 Stability AI开源图像生成模型Stable Diffusion 3.5


 阿里开源视觉语言模型Qwen2-VL


 开源3D AI模型3DTopia-XL可快速生成PBR数字资产


 多模态故事生成模型SEED-Story开源


                   

【点睛】


开源AI模型允许开发者自由访问和修改代码,促进了知识的共享和创新,并能够通过提供更丰富的数据集和更强大的计算能力,为模型的持续优化和性能提升创造条件。


近来,大语言模型(LLM)和图像、视频、3D等多模态生成式AI模型纷纷开源。一方面,开源AI模型的输入和输出模态更加多元,面向不同用户群体和应用场景,向更加细分的专业领域发展;另一方面,其规模和复杂性不断增长,数据处理效率和质量持续优化,推动模型性能快速提升。


开源模型的多元化高质量发展为电影智能化制作生产提供了丰富的技术手段。未来,随着开源社区不断壮大和技术持续进步,AI模型开源趋势将进一步深化,电影行业应持续关注该领域创新进展,结合自身需求实施推进模型定制化改造,推动智能科技向电影制作生产专业细分领域更加深入广泛应用。


01


Genmo开源100亿参数AI视频模型Mochi 1



AI视频生成公司Genmo推出并开源最新视频生成模型Mochi 1,该模型能够生成高质量、动作流畅的480p视频内容,在提示词遵循方面表现出色。


Mochi 1拥有100亿参数,是迄今为止最大的开源AI视频生成模型,采用创新的非对称扩散Transformer(AsymmDiT)架构,支持多模态输入。其核心特色在于引入视频AsymmVAE将视频压缩128倍,并采用多模态自注意力机制将文本和视觉信息处理整合至同一框架,通过轻量化用户提示处理和动态视觉生成,最大化利用计算资源,提升视觉细节和时间一致性。


1.gif


Mochi 1擅长模拟照片级真实感的画面,但处理动画内容时略显吃力,同时在处理复杂运动场景时,可能会出现轻微视觉扭曲。


Genmo公司计划在2024年底推出Mochi 1 HD版本,支持720p分辨率视频生成,并提供更精确的运动细节。


用户可在Hugging Face平台上免费获取完整的Mochi 1模型权重和代码。


02


复旦与百度推出音频驱动视频生成开源项目Hallo2


复旦大学与百度公司、南京大学联合推出音频驱动视频生成开源项目Hallo2,可通过输入一幅参考图像和一段音频,生成一个与音频同步的4K视频,生成时长最长可达数小时,还可在不同时间点加入可选的文字提示,以调整和细化视频中人物的表情。



Hallo2采用基于扩散的生成模型和离散码本预测(CodeBook),提高了音频与视觉输出之间的同步精度,通过创新的图像块丢弃、噪声增强和时间对齐等技术,解决了长时视频生成中的外观漂移和视觉不一致问题。


Hallo2从参考图像中提取外观信息,利用生成的帧生成后续视频帧。为避免因前一帧出错而导致错误积累,采用了图像块丢弃数据增强技术,即:保留前一帧时序运动特征,破坏前一帧的外观信息,确保模型主要依赖于参考图像的外观信息,保证角色看起来和参考图像一致、动作连贯。


为使输入的参考图像在输出视频时达到4K分辨率且保持一致性,Hallo2改进了VQGAN网络,将网络扩展到时间上对齐,确保生成视频在每一帧之间过渡自然顺滑,并将超分辨率(SR)与时间对齐相结合,在高分辨率增强模块内,高质量解码器能确保视频细节一致,外观和动作更加协调。



Hallo2目前已经在GitHub平台开源。


03


Stability AI开源图像生成模型Stable Diffusion 3.5


Stability AI推出Stable Diffusion 3.5,这一开放版本包括多个模型变体,包括SD 3.5 Large、SD 3.5 Large Turbo和SD 3.5 Medium。


SD 3.5 Large拥有高达80亿的参数量,能够快速生成百万像素级图像,满足专业创作需求;SD 3.5 Large Turbo作为3.5 Large的蒸馏版本,在保证高质量输出的前提下优化生成步骤,生成速度快,适用于需要快速迭代、频繁生成图像的场景;SD 3.5 Medium面向更广泛的用户群体,能够在标准的消费级硬件上流畅运行,生成0.25~200万像素的各种图像。


4.png


Stable Diffusion 3.5具备较高的可定制性,将Query-Key Normalization集成到Transformer块中,稳定了模型训练过程并简化了进一步的微调和开发,可通过微调满足特定创意需求,或基于自定义工作流程构建应用程序。


Stable Diffusion 3.5已在Hugging Face上托管,也可通过API、Replicate、ComfyUI、DeepInfra访问。


04


阿里开源视觉语言模型Qwen2-VL


阿里通义千问开源视觉语言模型Qwen2-VL,包括参数量分别为20亿(2B)、70亿(7B)和720亿(72B)的三款开放权重模型。


Qwen2-VL支持单图、多图、视频输入,能够理解不同分辨率和不同宽高比的图片和20分钟以上的长视频,支持多种语言,还可实时读取摄像头或电脑屏幕,进行文字形式的视频对话,作为智能体(Agent)与环境进行交互,根据任务目标自主操控手机等设备。


5.jpg


在复杂的大学水平问题解决、数学能力、文档和表格的理解、多语言文本图像的理解、通用场景问答、视频理解、视觉智能体能力等方面的评估中,72B版本在大部分指标上均达到最优,刷新了开源多模态模型的最好表现,在文档理解方面优势最为明显,仅在复杂的大学水平问题解决方面与GPT-4o还存在差距。


Qwen2-VL的三个版本中,2B和7B版本已可下载并免费商用(Apache 2.0),72B则通过API提供。目前开源代码已集成到Hugging Face Transformers、vLLM等第三方框架中。


05


开源3D AI模型3DTopia-XL可快速生成PBR数字资产


南洋理工大学S-Lab、北京大学、上海人工智能实验室和香港中文大学联合推出三维生成大模型3DTopia-XL,能够通过文字或图片直接生成具有物理渲染(PBR)材质的高质量3D数字资产。


3DTopia-XL采用全新三维表征PrimX,基于DiT生成架构,具有10亿规模参数,能够在5秒内生成具有物理材质属性的3D模型,生成结果支持更换不同环境光照图来渲染输出GLB格式的3D资产,可无缝导入主流图像引擎和工业设计软件中,服务下游应用。


6.gif


3DTopia-XL的核心技术在于,采用PrimX作为一种符号距离场(Signed Distance Field,SDF)的高效几何表征方式,将三维物体表征为若干个Primitive的集合。每个Primitive仅在形状边界邻域内对局部几何、纹理和材质进行联合建模,从而将一个三维资产的所有信息表示为若干个固定长度的token,完成了三维数据的高质量结构化。这一方法不仅大幅减少了表示三维物体所需的参数量,提高了参数利用效率,还便于DiT基模型的规模扩展。


3DTopia-XL已将推理代码、以图像为输入条件的预训练模型和技术报告分别公布在GitHub、Hugging Face和Arxiv,未来还将持续更新训练代码、其他模态作为输入的预训练模型与配套数据集。


06


多模态故事生成模型SEED-Story开源


交错图像-文本内容(Interleaved Image-text Content)创建可用于多模态故事生成,即以交错的方式生成叙述性文本和生动的图像,可用于长篇故事的可视化。这一领域的现存挑战在于,模型需要理解文本和图像之间复杂的相互作用,并能够生成长序列连贯、上下文相关的文本和视觉内容。


7.png


对此,香港科技大学、香港中文大学和腾讯的研究团队联合提出了一种利用多模态大语言模型(MLLM)生成扩展多模态故事的新方法SEED-Story,能够通过用户提供的初始图像和文本,生成包含丰富叙述文本和风格一致图像的长篇故事,并使得长篇故事能够始终产生高质量、一致的图像而不崩溃。


SEED-Story基于MLLM强大的理解能力,可预测文本标记(Text Token)和视觉标记(Visual Token),随后使用经过自适应的视觉去标记器(De-tokenizer)对其进行处理,生成具有一致性角色和风格的图像。研究团队进一步提出了多模态注意力下沉(Multimodal Attention Sink)机制,能够以高效的自回归方式生成最多25个序列的故事。


8.png


此外,该研究团队还提供了一个名为StoryStream的大规模高分辨率卡通数据集,包含三个子集:Curious George、Rabbids Invasion和The Land Before Time,每个子集提供丰富的关键帧图像和由大语言模型生成的对应故事文本,用于模型训练,并对多模态故事生成任务进行基准测试。


SEED-Story的数据集、模型权重、推理代码和指令微调代码可从Hugging Face下载。


(本期图片均来自互联网)


图片


编辑撰写丨张雪

校对丨夏天琳

审核王萃

终审刘达