AIGC应用可控性增强


 国产AI视频生成模型Vidu主体参照功能增强生成一致性


 AI视频生成模型Dream Machine 1.6新增摄影机运动控制功能


AIGC技术可控性研究进展


 北航与爱诗科技联合发布灵活高效可控视频生成方法TrackGo


 谷歌提出“生成图像动力学”模拟自然场景周期性动态


                   

【点睛】


可控视频生成(Controllable Video Generation)聚焦视频生成中对生成主体、物体运动和场景转换的精准控制,确保生成内容在不同情境下保持较高的连贯性、稳定性和完整性。目前业内多采用文生图-图生视频技术路线,但遇到复杂场景时,仍存在主体不一致、运动轨迹不连贯、违反物理规律等问题,且由于视频制作过程中涉及众多场景和镜头,生成工作量巨大。


对此,现有视频生成工具已在画面主体一致性和运动控制方面实现一定应用;学术研究领域基于扩散模型,结合传统图像处理方法,对运动轨迹进行跟踪、表征和预测,进而实现复杂场景的精细控制。


生成可控性增强将全方位提升用户对生成内容的个性化定制和精准化控制,在多模态、跨场景以及复杂逻辑任务中减少错误与无用信息的产生,确保输出内容的准确性、可控性与相关性,使AIGC在影视制作领域切实可用,全面释放现代智能科技的巨大潜力。



01


国产AI视频生成模型Vidu主体参照功能增强生成一致性



国产AI视频生成大模型Vidu近日新增主体参照(Subject Consistency)功能。用户上传任意主体的一张图片,Vidu即可锁定该主体形象,即使通过描述词任意切换场景,输出视频也能控制主体保持一致。


该功能并未将“主体”局限为人类,无论人物、动物、商品、动漫角色、虚构主体,都能确保其在视频生成中的一致性和可控性。如主体为人物,还可选择保持面部一致,或保持人物整体形象一致。


1.jpg


Vidu摒弃了传统的分镜头画面生成步骤,通过上传主体图与输入场景描述词相结合的方式,直接生成视频素材,不仅大幅减少了工作量,还打破了分镜头画面对视频内容的限制,让创作者能够基于文本描述,发挥更大想象力,直接控制模型生成高质量视频。


02


AI视频生成模型Dream Machine 1.6新增摄影机运动控制功能


Dream Machine是人工智能技术公司Luma AI推出的一款视频智能生成工具,可从文本或静态图像生成5秒/120fps视频。近期,Luma AI推出新版本Dream Machine 1.6,新增摄影机运动控制功能,以提升画面运镜的精细度。


Dream Machine 1.6新增12种摄影机运动控制功能,用户可在文本提示中输入特定指令,包括拉远(Pull Out)、左摇(Pan Left)、右摇(Pan Right)等,能够更直观地操纵视频视觉效果,从而生成更具电影感的画面。


2.jpg


Dream Machine 1.6在用户界面上也进行了相应改进。当用户在提示中输入“摄影机(Camera)”一词时,系统会自动弹出下拉菜单,列出所有可用的摄影机运动选项,并为每个动作提供一个小型3D动画演示,直观展示该动作在视频中的实际效果。


新功能对于特定短语的微调效果显著,增强了用户对生成画面的可控性。同时,新版本在摄影机运动的范围和强度上均有较大提升,生成视频的动态效果更加明显。

03


北航与爱诗科技联合发布灵活高效可控视频生成方法TrackGo


北京航空航天大学与爱诗科技联合提出AI视频生成方法TrackGo,用户能够利用自定义绘制的遮罩(Mask)与箭头(Arrow),灵活精确地操控视频内容


3.jpg第一列为给定初始帧,第二列为用户输入的遮罩与箭头,第三~六列为TrackGo生成的后续视频帧


为准确描述并控制目标运动,TrackGo提出点轨迹生成方法:在用户绘制的遮罩中选取控制点,依照箭头所指的明确方向,通过视频像素跟踪方法Co-Tracker得到点运动轨迹。


4.jpg点轨迹生成方法技术路线


TrackGo使用Stable Video Diffusion作为基础架构,在生成模型的时间自注意力层中无缝嵌入轻量高效的适配器TrackAdapter。TrackAdapter从点运动轨迹中提取时间特征整合为运动条件,计算各帧注意力图并设置阈值将其转为注意力遮罩。注意力遮罩用于激活与指定对象相对应的运动区域,从而引导生成过程。


5.pngTrackGo模型算法框架


此外,TrackGo使用轻量级编码器提取时间特征,并引入注意力损失来加速模型收敛,大幅缩短了推理时间。


04


谷歌提出“生成图像动力学”模拟自然场景周期性动态


谷歌针对树叶摇摆、蜡烛摇晃和动物呼吸等自然微小震动,提出一种对图像空间场景运动生成式先验建模的方法。该方法由2个模块组成:运动预测模块和图像渲染模块。


6.jpg左侧为给定图像,中部为频谱容积表达方式,右侧为输出视频沿给定图像中扫描线的“X轴位移-时间”切片


运动预测模块采用频谱容积(Spectral Volume)表达形式,频谱容积是从视频中提取的逐像素轨迹的时间傅里叶变换,对于图像每一行像素点,动态视频中的运动轨迹呈现为一条曲线,对该曲线进行离散傅里叶变换可得到不同频率成分的幅度和相位,少量的傅里叶系数即可近似表征像素轨迹。该模块选择潜在扩散模型(LDM)作为主干网络,并使用一种频率协调去噪(Frequency-Coordinated Denoising)策略生成傅里叶系数。


7.jpg图像渲染模块技术路线


图像渲染模块采用基于深度图像的渲染技术生成未来帧。首先对输入图像编码生成多尺度特征图,根据每张特征图尺寸预测2D运动场(Motion Field),然后使用光流作为像素深度代表,以确定映射到其目的地位置的每个源像素的贡献权重。对运动场和权重应用Softmax Splatting以产生扭曲(Warp)特征,将扭曲特征注入到图像生成解码器的对应块中,即可渲染最终图像。


8.gif▲应用效果


该方法预测的模拟动力学效果适用于多种下游应用,例如将静态图像转换为无缝循环的视频、在视频生成过程中精细控制物体运动、实现用户与真实图像中物体的交互等。自然动态场景的模拟,不仅有望提升视频生成可控性、增强电影作品的真实感与沉浸感,还能开辟人机交互在电影领域的新维度,为观众与电影内容的交互方式提供创新思路。


(本期图片均来自互联网)


图片


编辑撰写丨夏天琳 张雪

校对丨张雪

审核王萃

终审刘达