中国电影科技网

智能科学技术积极服务和有力支撑电影产业转型升级

发布日期：2022-02-18 新闻来源：中国电影科技网点击0次

CES2022展示轻量级VR头显设备MeganeX

MIT开源虚拟角色智能生成工具

百度文心跨模态生成模型实现智能图文双向生成

【点睛】

近年来电影内容与摄制手段的虚拟化、智能化趋势持续深入，以深度学习为代表的智能科学技术的发展与应用进一步加速和优化了这一进程，在优化摄制流程和提高摄制效率的同时也提升了电影虚拟角色的生成质量，显著提升了电影制作虚实融合的质量和水平，进而增强影片的逼真度与沉浸感。

随着电影行业云化和智能化进程的持续深入，新一代信息通信技术和智能科学技术将在构建完善新型电影制作生产与发行播映技术体系中发挥愈来愈重要的作用，从而为电影产业由传统视听产业向高新技术产业转型升级提供有力支撑。

CES2022展示轻量级VR头显设备MeganeX

松下旗下科技公司Shiftall近日在国际消费电子产品展览会（CES2022）上展出了一款兼容SteamVR的6自由度VR头戴显示设备MeganeX。

▲MeganeX

该设备一改VR头显的笨重造型，创新设计为轻巧的眼镜造型，重量仅为250g。

MeganeX将扬声器内置于折叠支架内，配备1.3英寸Micro OLED显示屏，单眼分辨率为2560*2560，刷新率为120Hz，支持10比特/HDR。除此以外，MeganeX还提供瞳孔间距和屈光度调节选项，近视或远视使用者无需配戴眼镜即可使用MeganeX。

MeganeX的Micro OLED屏幕采用一家专门从事穿戴式产品解决方案公司Kopin的专利背板架构设计和ColorMax优化双叠层OLED结构，以输出与滤光片带通相匹配的光谱，实现高色彩覆盖率（>100%sRGB），配合超高电流效率，可支持高亮度（>1000尼特）显示。该设备具备高色彩保真度、高亮度和高对比度（>10000:1）以及30比特色彩控制等特点，可实现影视级别的HDR VR体验。

▲《狮子王》主创团队使用VR眼镜进入虚拟环境

VR设备在虚拟摄制流程中，经常被用于虚拟勘景以及实时拍摄预览。2019年上映的新版《狮子王》即借助VR头显设备在虚拟实景中拍摄完成，主创团队通过VR眼镜进入一个充满数字化场景与动物的360度的虚拟环境，使用虚拟工具完成拍摄。相比于其他VR头显设备，MeganeX在色彩范围、亮度、对比度方面均有提升，在满足娱乐的同时也迎合了电影虚拟摄制和播映的需求。

MIT开源虚拟角色智能生成工具

近日，麻省理工学院媒体实验室（MIT Media Lab）开源发布了一个虚拟角色生成工具，该工具结合面部、手势、语音和动作领域的人工智能模型，可用于创建各种视频和音频输出。

该工具融合了当前生成式AI模型，包括声音控制动画角色模型VOCA、面部表情生成模型FLAME、语言驱动面部动画模型Speech-Driven Facial Animation和动作生成模型First Order Motion Model，可通过输入的文本、音频和视频智能生成数字角色，并基于真实人物或拟人形象为生成的角色添加面部表情、声音和动作。

▲为角色面部生成表情

由“视频生成视频”时，用户可输入一段模板视频和一张目标角色面部的图片，该工具将使用First Order Motion Model生成具有真实感的视频。

其后，用户可输入一段音频，该工具使用VOCA模型自动实现唇音同步，然后使用FLAME生成面部动画，并可人工调整生成角色的表情和动作。

除了通过输入音频文件来为生成的视频添加声音外，还可通过输入文本的方式生成声音，再将声音匹配至视频中。

该虚拟角色生成工具还使用了可追踪的可读水印标记其输出结果，用于区分生成内容与真实视频内容，防止恶意使用。

尽管目前算法处于持续研发阶段，但也为艺术家和电影制作人带来新的希望。当前已有许多影片通过CGI（Computer-Generated Image，计算机生成图像）让已故演员复活或改变演员的年龄样貌，但随着神经面部交换技术的深入发展，大型电影制作有望从人工和时间密集型CGI转向算法制作。

百度文心跨模态生成模型实现智能图文双向生成

近日，百度的跨模态生成模型ERNIE-ViLG在百度文心官网开放体验入口。

文心ERNIE-ViLG参数规模达100亿，是目前为止全球最大规模中文跨模态生成模型，该模型首次通过自回归算法将图像生成和文本生成统一建模，增强模型的跨模态语义对齐能力，显著提升图文生成效果。

▲文心ERNIE-ViLG古诗词生成图像

在“文字-图像”生成方面，文心ERNIE-ViLG可根据用户输入的文本自动创作图像，既能创作单个物体，也能创作包含多个物体的复杂场景，还能理解古诗词，根据不同图画风格进行调整，并根据文字提示对图片进行补全。

在“图像-文字”生成方面，文心ERNIE-ViLG能够理解画面，用简洁的语言描述画面的内容，还能够根据图片中的场景回答相关的问题。

▲文心ERNIE-ViLG图像生成文字

跨模态生成是指将一种模态（文本、图像、语音）转换成另一种模态，同时保持模态之间的语义一致性，近年来基于生成对抗网络（GAN）的方法在人脸、风景等受限领域的“文本-图像”生成任务上已取得了一定进展，文心ERNIE-ViLG模型进一步提出统一的跨模态双向生成模型，通过自回归生成模式对图像生成和文本生成任务进行统一建模，更好地捕捉模态间的语义对齐关系，从而同时提升图文双向生成任务的效果。

文本与图像间的智能化生成在电影行业具有多种应用场景。“文本-图像”可应用于预演阶段，将影片设计的文字内容快速转换为图像，制作高质量分镜，从而为工作人员提供更为直观的感受；“图像-文本”可用于数字图像资产的管理与复用。

（本期图片均来自网络）

上一篇：新一代游戏引擎：实现影视制作无缝虚实融合
下一篇：电影摄制技术自主创新成果成功应用于新春盛事