视频生成可控性增强加速AIGC应用服务行业
发布日期:2024-10-30 新闻来源:中国电影科技网
国产AI视频生成模型Vidu主体参照功能增强生成一致性
AI视频生成模型Dream Machine 1.6新增摄影机运动控制功能
北航与爱诗科技联合发布灵活高效可控视频生成方法TrackGo
谷歌提出“生成图像动力学”模拟自然场景周期性动态
【点睛】
01
国产AI视频生成模型Vidu主体参照功能增强生成一致性
国产AI视频生成大模型Vidu近日新增主体参照(Subject Consistency)功能。用户上传任意主体的一张图片,Vidu即可锁定该主体形象,即使通过描述词任意切换场景,输出视频也能控制主体保持一致。
该功能并未将“主体”局限为人类,无论人物、动物、商品、动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。如主体为人物,还可选择保持面部一致,或保持人物整体形象一致。
Vidu摒弃了传统的分镜头画面生成步骤,通过上传主体图与输入场景描述词相结合的方式,直接生成视频素材,不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大想象力,直接控制模型生成高质量视频。
02
AI视频生成模型Dream Machine 1.6新增摄影机运动控制功能
Dream Machine是人工智能技术公司Luma AI推出的一款视频智能生成工具,可从文本或静态图像生成5秒/120fps视频。近期,Luma AI推出新版本Dream Machine 1.6,新增摄影机运动控制功能,以提升画面运镜的精细度。
Dream Machine 1.6新增12种摄影机运动控制功能,用户可在文本提示中输入特定指令,包括拉远(Pull Out)、左摇(Pan Left)、右摇(Pan Right)等,能够更直观地操纵视频视觉效果,从而生成更具电影感的画面。
Dream Machine 1.6在用户界面上也进行了相应改进。当用户在提示中输入“摄影机(Camera)”一词时,系统会自动弹出下拉菜单,列出所有可用的摄影机运动选项,并为每个动作提供一个小型3D动画演示,直观展示该动作在视频中的实际效果。
新功能对于特定短语的微调效果显著,增强了用户对生成画面的可控性。同时,新版本在摄影机运动的范围和强度上均有较大提升,生成视频的动态效果更加明显。
03
北航与爱诗科技联合发布灵活高效可控视频生成方法TrackGo
北京航空航天大学与爱诗科技联合提出AI视频生成方法TrackGo,用户能够利用自定义绘制的遮罩(Mask)与箭头(Arrow),灵活精确地操控视频内容。
▲第一列为给定初始帧,第二列为用户输入的遮罩与箭头,第三~六列为TrackGo生成的后续视频帧
为准确描述并控制目标运动,TrackGo提出点轨迹生成方法:在用户绘制的遮罩中选取控制点,依照箭头所指的明确方向,通过视频像素跟踪方法Co-Tracker得到点运动轨迹。
▲点轨迹生成方法技术路线
TrackGo使用Stable Video Diffusion作为基础架构,在生成模型的时间自注意力层中无缝嵌入轻量高效的适配器TrackAdapter。TrackAdapter从点运动轨迹中提取时间特征整合为运动条件,计算各帧注意力图并设置阈值将其转为注意力遮罩。注意力遮罩用于激活与指定对象相对应的运动区域,从而引导生成过程。
▲TrackGo模型算法框架
此外,TrackGo使用轻量级编码器提取时间特征,并引入注意力损失来加速模型收敛,大幅缩短了推理时间。
04
谷歌提出“生成图像动力学”模拟自然场景周期性动态
谷歌针对树叶摇摆、蜡烛摇晃和动物呼吸等自然微小震动,提出一种对图像空间场景运动生成式先验建模的方法。该方法由2个模块组成:运动预测模块和图像渲染模块。
▲左侧为给定图像,中部为频谱容积表达方式,右侧为输出视频沿给定图像中扫描线的“X轴位移-时间”切片
运动预测模块采用频谱容积(Spectral Volume)表达形式,频谱容积是从视频中提取的逐像素轨迹的时间傅里叶变换,对于图像每一行像素点,动态视频中的运动轨迹呈现为一条曲线,对该曲线进行离散傅里叶变换可得到不同频率成分的幅度和相位,少量的傅里叶系数即可近似表征像素轨迹。该模块选择潜在扩散模型(LDM)作为主干网络,并使用一种频率协调去噪(Frequency-Coordinated Denoising)策略生成傅里叶系数。
▲图像渲染模块技术路线
图像渲染模块采用基于深度图像的渲染技术生成未来帧。首先对输入图像编码生成多尺度特征图,根据每张特征图尺寸预测2D运动场(Motion Field),然后使用光流作为像素深度代表,以确定映射到其目的地位置的每个源像素的贡献权重。对运动场和权重应用Softmax Splatting以产生扭曲(Warp)特征,将扭曲特征注入到图像生成解码器的对应块中,即可渲染最终图像。
▲应用效果
该方法预测的模拟动力学效果适用于多种下游应用,例如将静态图像转换为无缝循环的视频、在视频生成过程中精细控制物体运动、实现用户与真实图像中物体的交互等。自然动态场景的模拟,不仅有望提升视频生成可控性、增强电影作品的真实感与沉浸感,还能开辟人机交互在电影领域的新维度,为观众与电影内容的交互方式提供创新思路。
(本期图片均来自互联网)
编辑撰写丨夏天琳 张雪
校对丨张雪
审核丨王萃
终审丨刘达