集成多元AI模型的影视智能创作新路线
发布日期:2024-09-10 新闻来源:中国电影科技网
昆仑万维推出基于集成自研模型的AI短剧生成平台SkyReels AI视频生成编辑工具Clapper基于AI Agent创建视频 生成式AI系统Vlogger集成多元模型可实现5分钟时长视频生成 DreamFactory智能创作框架基于多智能体协作生成一致性视频 影视技术公司时光坐标探索实践AI短片创作及技术流程 SpaceTime Creative基于商业AI制作工具开展IP内容智能创作 【点睛】 01 昆仑万维推出基于集成自研模型的AI短剧生成平台SkyReels 我国昆仑万维近日推出的AI短剧平台SkyReels集剧本生成、角色定制、分镜设计、视频拍摄与数字合成于一体,能够生成时长180秒、1080P/60fps的视频。 SkyReels的剧本创作使用其自研大语言模型SkyScript,训练数据为亿级高质量短剧结构化数据,并针对海量精彩短剧的剧情节奏、情绪变化进行标注,能够生成符合当前流量需求的剧本。用户输入概念或故事创意,平台即可生成一份结构完整、情节丰富的剧本,也可直接上传剧本,由平台进行优化处理,提升其专业性和可读性。 ▲SkyScript剧本大模型技术原理图 在角色设计环节,用户输入相关要求,该平台即可生成角色图像。 在分镜环节,SkyReels使用自研图像生成模型StoryboardGen。该模型通过对大量真实世界中的专业分镜实例进行训练,基于多智能体框架,将分镜的不同元素(场景、镜头、角色、动作等)分配给多个智能体来处理,能够根据剧本直接生成分镜图像和对应文字描述,用户可通过修改文字调整分镜效果。 ▲StoryboardGen分镜大模型技术原理图 在视频生成环节,该平台将自研AI 3D引擎Sky3DGen与人物表演生成模型ActorShow通过图层融合等方式衔接,发挥各自优势。Sky3DGen负责生成具备精准物理规律模拟的背景,ActorShow则负责生成前景人物角色,其口型表情和肢体动作的可控性更强。 针对视频后期合成中存在的光照差异、风格差异等需求,昆仑万维训练了专用融合生成模型,保证图层融合后的视频呈现良好的一致性。 此外,平台能够根据视频内容生成并推荐适合的背景音乐和音效,用户可从中选择添加。 02 AI视频生成编辑工具Clapper基于AI Agent创建视频 近日,一位个人开发者在Github上发布了一款网页端AI视频生成和剪辑工具Clapper,集成各类生成式AI技术,内置一系列大模型,可实现语言、图像、视频、音频等多模态AI生成,用户可通过交互、迭代和直观的过程使用AI创建视频,而无需外部工具、电影制作或AI工程技能。
用户通过工具栏“助手”功能与大语言模型(LLM)对话,将想法传递给语言模型助手,然后在众多模型选项中选择生成图像、视频、语音、音效、音乐等内容的模型,并可输入文本、视频或zip压缩包作为参考,其后“助手”便可按照用户的要求和选择的AI工具完成生成工作。如需调整角色、位置、天气、时间段、风格等内容,用户通过输入文字、图片等要求和参考信息,AI Agent即可完成故事迭代,无需直接编辑视频和音频文件序列。
Clapper界面中的时间线与传统视频编辑工具中的时间线使用方式不同,其每一轨代表一个制作环节,即视频、故事板、场景、旁白、摄影机视角、音效、背景音乐等。
Clapper目前自带若干脚本案例,包括星球大战、夺宝奇兵等内容,可直接加载作为该工具的使用演示。
目前Clapper尚未开放使用,根据演示视频显示其在人物动作、镜头连贯、物理规律等方面仍存在不足。
03 生成式AI系统Vlogger集成多元模型可实现5分钟时长视频生成 来自上海交通大学、上海人工智能实验室、中国科学院等机构的研究团队提出生成式人工智能系统Vlogger,可生成分钟级视频博客(Vlog)。该系统调用外部大语言模型和静态图像生成模型,结合自研视频生成模型,完成生成任务。 用户提出故事情节要求后,该系统首先采用大语言模型GPT-4生成视频片段描述,经过4次迭代完成详细的脚本计划,并分配拍摄时长。其后,调用开源模型Stable Diffusion XL,结合用户输入的演员参考图设计角色形象,再由GPT-4分析确定各场景主角。 视频生成阶段,研究团队在Stable Diffusion基础上进行了空间和时间注意力的改进,提出视频生成模型ShowMaker,通过场景描述作为文本提示、角色形象作为视觉提示,并按照脚本环节的时间分配控制每个场景的视频时长,完成全部视频生成任务。 视频部分完成后,该系统使用Bark模型将场景文本描述转换为相应音频,并添加至相应视频片段。 ▲ShowMaker利用脚本描述和演员图像作为提示,生成视频片段并控制持续时间,使用文本转语音模型进行配音 根据研究团队公开的演示视频,生成视频时长超过5分钟,分辨率为320×512,角色和镜头运动幅度较大,但仍存在角色形象怪异、背景画面不准确、动作连贯性不强等问题。 04 DreamFactory智能创作框架基于多智能体协作生成一致性视频 针对AI生成视频多场景不一致问题,国内外高校团队联合提出DreamFactory框架。该框架基于大语言模型(LLM),使用多智能体协作方式模拟影视制作人员角色,实现视频智能创作,并引入关键帧迭代设计方法,以确保不同帧之间风格、角色和场景的一致性。 DreamFactory框架利用多个AI模型模拟构建一个影视公司,将CEO、电影导演、制片人、编剧、制片人、评论员等角色分配给智能体(Agent),并向其输入包含职位、任务、要求的角色定义提示。 DreamFactory将工作流程分为六个阶段:任务定义、风格决策、故事提示、脚本设计和关键帧设计。每个阶段的智能体会共享一个“阶段提示”,包含角色、任务、希望得出的结论、讨论形式等关键信息,智能体通过角色扮演、讨论、协作完成每个阶段的任务,包括故事脚本等文本内容、关键帧图像和基于关键帧生成的视频。 在生成视频时,模型需要保持长期一致的记忆,以确保模型生成的每一帧都能连贯地组成一致的视频,对此,DreamFactory采用了关键帧迭代设计方法。 由AI模型扮演的角色循环讨论后生成的第一个关键帧称为基础帧(Base Frame),由视觉大语言模型组成的“监工”对基础帧进行详细分析,提取风格、背景和角色特征等应该长期保留的信息,生成基础描述(Base Description)。在后续生成过程中,将其作为场景描述,通过参考前一帧的基本特征和该基础描述,确保在下一次迭代中掌握必要信息,从而绘制出具有相同风格、一致角色和统一背景的连续关键帧。 该论文同时提出了跨场景人脸距离评分和跨场景风格一致性评分指标,并公开了包含150多个经人工评分的多场景视频数据集。 05 影视技术公司时光坐标探索实践AI短片创作及技术流程 影视技术公司时光坐标持续开展AI短片创作探索,借助现有AI产品短时间内完成从故事创意到视频成片的整个过程,目前已完成23秒科幻短片和影片《八十光分》的AI概念片。其技术流程可分为文本、静态图像和动态视频三大部分。
在故事文本阶段,使用国产大语言模型Kimi生成故事文字,并把故事转换为Midjourney能够理解的提示词(Prompt)。
在分镜图像阶段,将上一阶段生成的提示词输入Midjourney生成分镜画面,这一过程需根据分镜对景别、视角、前后镜头连贯、故事整体氛围等要求,通过修改提示词调整生成图像。
▲生成分镜画面
在动态视频阶段,将分镜图像输入至视频生成工具,完成所有视频片段的生成。这一阶段可根据视频画面具体需求选择AI工具,例如,Runway具备摄影机控制和运动笔刷功能,可控制画面中的变化范围,适合烟雾、火焰等流体运动,而Dreamina在人物手指运动方面效果更好,但针对生成画质不理想的问题要配合Topaz Video AI等画面增强工具来改善。
▲生成动态视频
最后使用视频剪辑工具将视频片段处理组合,并选择AI工具添加背景音乐和旁白。
06 SpaceTime Creative基于商业AI制作工具开展IP内容智能创作
我国SpaceTime Creative团队通过利用现有商业智能制作工具,开展IP形象和内容创作,生成作品已上线国内外视频平台。
该团队首先利用ChatGPT智能设计世界、人物、剧情大纲,由专业编剧人员补充细节并调整剧情走向。在分镜阶段,使用Midjourney将上一阶段的文本生成分镜图像,实现每个场景的可视化。其后,使用快手可灵模型将分镜图像转化为动态视频,使用Eleven Labs工具生成画外音,以及Udio和Suno工具生成音乐。最后,使用传统视频剪辑工具将所有视频片段剪辑成片。
该团队的智能创作作品为动画剧集,讲述一位生活在公元3001年的火星小男孩历险记,目前在国内外视频平台已上线官方宣传片和第一季第一集,分辨率均为1080p,最长时长2分50秒。
(本期图片均来自互联网)
编辑撰写丨张雪 校对丨王健 夏天琳 审核丨王萃 终审丨刘达