谷歌发布原生多模态AI大模型Gemini


 全新视觉提示AI模型T-Rex实现以图识图


 “白盒”Transformer架构CRATE可提升AI模型可解释性


                   

【点睛】


在实际应用中,人工智能(AI)很难作为单一技术来实现生产效能的全方位提升,往往需要具备技术融合能力和创新升级能力。


目前AI大模型正朝以下方向发展演进:一是模型能力的提升,不断挑战多模态、多领域融合问题;二是模型轻量化发展,下沉至移动终端深度服务C端用户;三是在提高模型可解释性和信任度方面不断努力,使AI架构更符合人类逻辑思维,有助于模型优化与拓展。


通过在这些方向的持续探索完善,将有力推动人工智能在诸多行业和领域的发展与应用。


01


谷歌发布原生多模态AI大模型Gemini



近日,谷歌公司宣布推出一种名为Gemini的人工智能大模型。据悉,该模型拥有万亿参数,训练使用算力是GPT-4的5倍,首次在MMLU(大规模多任务语言理解)测评上超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果),几乎全方位超越GPT-4。


Gemini针对不同应用创建了3个版本,分别是基础版Nano、中档版Pro和最高版Ultra。


1705306301138644.gif

▲Gemini三个版本


Nano可在使用特殊芯片的移动终端设备上运行,无需使用云端服务器,可将生成AI引入安卓手机。Nano分为两类:一类拥有18亿参数,适用普通性能手机;另一类适用于高性能手机,拥有32.5亿个参数。Gemini Pro是用于跨范围任务的可扩展模型。Ultra用于高度复杂任务,其安全测试工作仍在进行中,计划将于2024年推出。


目前,大多数模型都通过训练单独模块,然后将其拼接在一起来完成多模态任务,不足之处在于无法在多模态空间进行深层复杂推理。而Gemini最大亮点之一就是原生多模态大模型,具有处理不同形式数据的能力,可以泛化并理解、操作和组合不同类型的信息,包括文本、代码、音频、图像和视频。基于其原生多模态的优势,谷歌已在研究如何将Gemini与机器人技术相结合,与世界进行物理交互。


1705306319407812.gif

▲Gemini根据视频输入生成代码


谷歌使用自主设计的Tensor Processing Unit(TPU)v4和v5e,在针对AI优化的基础设施上大规模训练了Gemini 1.0,在TPU上,Gemini的运行速度明显快于早期较小和功能较弱的模型。


为提高安全性,谷歌构建了专用安全分类器来识别、标记和筛选涉及暴力或负面内容,与过滤器结合使用。此外,谷歌正在持续解决AI大模型的现存挑战,如事实性、依据性、归属性等问题。


目前Gemini Pro和Gemini Nano已分别在聊天机器人Bard和智能手机Pixel 8 Pro上集成,未来还将陆续在谷歌搜索、广告、Chrome和Duet AI中提供服务。从2023年12月13日起,开发者和企业客户可通过谷歌AI Studio中的Gemini API或谷歌Cloud Vertex AI访问Gemini Pro。


02


全新视觉提示AI模型T-Rex实现以图识图


在2023 IDEA大会上,IDEA研究院展示了其基于视觉提示的目标检测新体验,并发布了基于全新视觉提示模型T-Rex的实验:交互式物体检测及计数系统(Interactive Visual Prompt,iVP),利用视觉示例指定检测目标,克服罕见、复杂物体难以用文字充分表达的问题,以提高提示效率。



有别于只支持文字提示的AI模型,T-Rex模型着重打造强交互的视觉提示功能。使用iVP,用户可在图片上标记感兴趣对象,向模型提供视觉示例,模型随即检测出目标图片中与之相似的所有实例。这一过程中,该模型提供边界框等直观视觉反馈,能够帮助用户高效评估检测结果。


T-Rex开箱即用,无需重新训练或微调,其不受预定义类别限制,即可检测模型在训练阶段从未见过的物体。该模型不仅可应用于包括计数在内的所有检测类任务,还能为智能交互标注场景提供新的解决方案。


1705306350587218.png

▲三种进阶模式


基于对实际使用需求的洞察,团队将T-Rex设计成可接受多个视觉提示的模型,且具备跨图提示能力。除了最基本的单轮提示模式,目前模型还支持三种进阶模式:多轮正例模式,适用于视觉提示不够精准造成漏检的场景;“正例+负例”模式,适用于视觉提示带有二义性造成误检的场景;跨图模式,适用于通过单张参考图提示检测他图的场景。


03


“白盒”Transformer架构CRATE可提升AI模型可解释性


来自加州大学伯克利分校、香港大学等机构的研究人员近日提出了一种“白盒”Transformer架构CRATE,旨在提高模型的可解释性,同时保持优秀的性能表现。


Transformer等传统的AI模型通常被视为“黑盒”,因为其内部工作机制复杂且难以解释。CRATE(Coding RAte reduction TransformEr)是一种白盒(数学上可解释的)Transformer架构,提供了更为清晰的内部逻辑和工作原理。


CRATE通过数学方法来优化信息表达,类似于我们在日常生活中压缩文件以节省空间的做法。CRATE的核心在于如何处理和转换数据,它将输入的数据(如图像或文本)编码成一系列代表信息的“令牌”(tokens),然后通过一系列优化步骤,将这些令牌转换成更加高效、更有意义的形式。


▲CRATE架构的其中一层


研究团队提出了一个理论,即所有AI模型的核心机制都是数据的压缩和优化,通过将数据从高维度分布压缩到低维结构分布,实现有效表征。在具体实施上,CRATE构建了一个深层网络,每一层网络都执行一个特定算法的步骤,专注于降低“稀疏率”,即简化和精炼信息的表示方式。这种方法使数据表征更加紧凑和高效,同时也使模型的每一个决策都更加清晰和可解释。


CRATE不仅在标准的机器学习任务上表现出色,而且在可解释性方面也有显著优势。更重要的是,这种架构允许研究人员和开发者更好地理解和控制AI模型的行为,从而在优化提升AI模型时采取针对性措施。


(本期图片均来自互联网)




编辑撰写丨张雪

校对丨王薇娜

审核王萃

终审刘达