通用AI大模型应加快实施定制数据训练优化以精准服务行业

发布日期:2023-06-20         新闻来源:中国电影科技网      点击0

 谷歌发布大模型PaLM 2可显著提升多语言处理、推理和编程能力


 英伟达将于SIGGRAPH 2023发布多项生成式AI相关图形学成果


 在线AI纹理生成工具WithPoly可高效生成自定义高质量纹理


                   

【点睛】


近年来,生成式人工智能大模型通用性持续增强、多模态和高质量发展演进趋势明显,更加注重细节品质和处理性能的提升,与影视行业高品质视听需求高度契合,为影视作品的创作生产提供了全新解决方案。


可以预见,随着智能科学技术持续发展演进,通用生成式人工智能大模型通过对影视行业大规模数据集实施定制训练优化,必将成为支撑服务影视产业智能化升级的重要新型基础设施。


01


谷歌发布大模型PaLM 2可显著提升多语言处理、推理和编程能力



在近日举行的谷歌年度开发者大会Google I/O 2023上,谷歌发布了其最新大语言模型(LLM)PaLM 2预览版。


谷歌于2022年4月首次推出基于Transformer的PaLM大模型,并于2023年3月推出适用于PaLM的API,用户可通过输入简单的自然语言提示生成文本、图像、代码、视频、音频等;针对PaLM 2,谷歌使用了大量数学和科学以及多语言数据集进行训练,使模型在多语言处理、推理和编程能力上有了显著提升。


1691486918471639.jpg


在此之前,大型预训练语言模型通常使用以英语文本为主的数据集,而谷歌设计了一个更多语言和多样化的预训练混合模型,扩展到数百种语言和领域(如编程语言、数学和并行多语言文档),更大的模型可以处理更多不同的非英语数据集,同时也不会降低英语语言理解性能,还应用了去重技术减少存储负担。


在多语言处理方面,PaLM 2提高了理解、生成和翻译细微差异化文本的能力,能够应对成语、诗歌和谜语等高难度文本处理问题,并且通过了高级别的语言能力考试。


在推理能力方面,由于PaLM 2在包含科学论文和数学表达式的网页上进行了训练并进行模拟推理,因此具备了在逻辑、常识推理和数学方面的改进能力。


1691486936276467.jpg

▲PaLM 2支持多种编程语言


在编程能力方面,PaLM 2支持20多种编程语言。它基于大量公开可用的源代码数据集进行预训练,擅长处理Python和JavaScript等流行编程语言,也可实现Prolog、Fortran和Verilog等小众语言的编程。


同时,支持多模态的PaLM 2还可以理解和生成音视频内容,包括曲调、编码器、字幕、媒体类型和剪辑。


根据模型大小不同,PaLM 2分化出Gecko、Otter、Bison和Unicorn四种类型。Gecko是PaLM 2中体积最小的模型,可在移动设备上运行,速度快,即使离线状态也可进行交互应用。Otter是中等大小模型,适合多种任务,包括自然语言处理、机器翻译和代码生成。Bison是稍大的模型,可处理更复杂任务,例如生成逼真的图像和视频。Unicorn尺寸最大,处理任务的复杂度最高,可编写各类创意文本,如诗歌、代码、脚本、音乐作品、电子邮件、信件等。


1691486955773959.jpg

▲PaLM 2四种规模模型


根据基准测试,对于具有思维链prompt或自洽性的MATH、GSM8K和MGSM基准评估,PaLM 2的部分测试结果(例如数学问题)优于GPT-4。



02


英伟达将于SIGGRAPH 2023发布多项生成式AI相关图形学成果



英伟达(NVIDIA)将于2023年8月6日~10日举办的计算机图形学领域学术会议SIGGRAPH 2023上发布18篇关于生成式AI和神经网络图形学论文,包括将文本转化为个性化图像的生成式人工智能模型、将静止图像转换为3D物体的渲染工具、使用人工智能模拟超写实复杂3D元素的神经物理模型,以及神经纹理压缩算法大幅提高实时图形渲染质量,应用方向涉及艺术、建筑、平面设计、游戏开发和电影领域。


自定义文本-图像转换模型


英伟达与特拉维夫大学将于SIGGRAPH大会上共同发表论文,介绍高度紧凑的模型Perfusion,提升生成式AI模型输出结果的细节水平。该模型支持用户仅需少量概念图像就可将多个个性化元素组合至AI生成的视觉图像中。


1691486977692227.png

▲将多个元素组合至AI生成图像中


3D角色与动作创作


英伟达与加州大学圣地亚哥分校的研究人员联合提出可根据一张2D肖像画生成并渲染逼真3D头像的模型,能够在用户终端通过普通网络摄像头或智能手机摄像头,实时创建3D虚拟形象,生成写实化或风格化的3D远程形象。


英伟达与斯坦福大学联合创建的AI系统可从现实世界网球比赛2D视频录像中学习各种网球技能,并将这些动作应用于3D角色,而无需使用专业动捕设备采集数据。


运用神经物理学实现逼真模拟


英伟达提出了一种利用神经物理学实现实时高清模拟数万根头发的算法,可训练神经网络预测相应对象在现实世界中的运动轨迹。


该方法对GPU进行优化,性能大幅优于目前基于CPU的求解器,可将模拟时间从数天缩短至数小时,同时还能提高实时头发模拟质量,实现符合物理学精确度的交互式头发形态。


1691487011649671.gif

▲实时头发模拟


神经纹理压缩算法为实时图形渲染带来电影级精细度


随着游戏画面逼真度的提升,物体纹理日渐精细,随之而来的是数据量的激增,实时图像渲染对于存储和内存的压力与日俱增。


为此,英伟达开发出全新神经纹理压缩算法(Neural Texture Compression, NTC),该算法将纹理视作具有三个维度的张量进行处理,并对多个通道、纹理混合贴图一起进行压缩,允许按需实时解压缩和随机访问,最终获得的压缩质量优于JPEG XL或AVIF格式。


相比于传统块压缩(Block Compression, BC)算法,纹理贴图分辨率由1024×1024提升至4096×4096,同时内存消耗减少30%,可大幅提高3D渲染场景的真实性。


1691487044209039.jpg

▲压缩效果对比,传统算法(中)NTC算法(右)


03 


在线AI纹理生成工具WithPoly可高效生成自定义高质量纹理



在影视CG制作中,纹理制作可通过专用软件绘制,或在素材网站中寻找合适纹理再加以修改,通常较为耗时,而在线AI纹理生成工具WithPoly则可利用人工智能技术在几秒钟内生成无缝平铺纹理。


1691487072760165.png


WithPoly可生成1080p/2K/4K/8K分辨率和32位PBR贴图,支持自定义颜色、法线、位移、环境光遮挡、粗糙度和金属度。用户可使用文本或图像格式的简单提示,生成任何风格或质感的自定义纹理。同时网站已有数千个AI生成纹理,可供下载。


登录网站后,用户在输入框里输入提示词,可通过Search按钮在已有纹理库里搜索,也可通过Generate Shift按钮快速实现AI纹理生成。


1691487098237291.png

▲设置纹理分辨率和材质


在功能设置栏中,选择生成纹理的分辨率,其中4K和8K需收费。材质类型可选择普通、有机、遮罩、光泽度、织物、打磨等,部分类型也需付费使用。


网站还设有多项预览调整功能,在渲染选项、照明选项中能够调整纹理的平铺次数、光照效果等。


(本期图片均来自互联网)




编辑撰写丨张雪

校对丨王薇娜 王健

审核王萃

终审刘达