[新闻] GPT-4V最强对手来了,Google多模态Gemini

楼主: purplvampire (阿修雷)   2023-12-07 20:39:15
1.媒体来源:
iThome
2.记者署名:
文/王宏仁 | 2023-12-06发表
3.完整新闻标题:
GPT-4V最强对手来了,Google多模态Gemini模型登场,手机不连网也能从录音档摘要会议
纪录
4.完整新闻内文:
Google正式推出了原生多模态的大型语言模型Gemini,可以同时支援文字、图片和声音的
输入。在32项AI测试中,有30项的评分超越了OpenAI的GPT-4V。Google执行长Sundar
Pichai强调,Gemini是Google有史以来最强大也是最通用的模型。Gemini预计推出三种版
本,包括了模型最大的Ultra版、通用性最广的Pro版,以及可以在手机装置上运作的Nano
版。
Google展示了一段让人惊讶的实测影片,来呈现Gemini多模态的回答能力,让Gemini一边
看着(输入)影片来解读影片中画面的内容。例如Gemini可以一边解读影片中,展示人员
用手即时画图过程,每一个动作所对应的意义,这是只鸭子,现在在水上游泳,有蓝色外
观。当展示人员拿出实体玩具鸭子按压发生声音时,AI甚至打趣的说,真的拿出了呱呱叫
的鸭子,AI还能纠正展示人员对于“鸭子”中文发音的重音位置错误。 AI能分辨人手势
代表的意义,也能分辨不同物体的异同,例如都是食物,或都是圆体。看影片还能推理出
哪个杯子藏了硬币,仿佛就像人边看影片边解说的行为。
https://youtu.be/UIZAiXYceBI
Gemini可以同时分辨和理解文字、图片和声音,也可以用来分辨和解释几种热门开发语言
,包括Python、Java、C++和Go语言,可以理解跨开发语言来推论复噪声息。Google也用
了Gemini打造了新版的程式码生成系统AlphaCode 2,比2年前的第一代改进很多,可以解
决两倍的问题。
Gemini使用了Google自行开发的芯片TPU训练而成,而且使中了v4和v5e版TPU。Google同
时宣布了新版TPU v5p,可用来加速Gemini模型的开发,供企业用来客制化训练自己的LLM
模型。TPU v5p单一丛集可支援到8,960颗TPU,和TPU v4相比,能够提供2倍FLOPS的算力
,内存频宽也提高了3倍。
Google目前先在Bard中使用一个微调过的Gemini Pro版本,可提供推理和计画的回答能力
。目前先释出英语版,可再全球170个国家和地区使用,预计近期会支援更多语言。
Gemini另一个新特色是推出了一款可以在手机上执行的Nano版Gemini模型,Google表示,
甚至不需要连上网络,单靠手机上的TPU芯片也能运作,目前先支援Pixel系列手机,
Pixel 8 Pro手机会是第一款。不需要连上网络,也能在手机上用Gemini来整理会议录音
档的开会摘要内容。Nano版Gemini另外也会先用来强化Gboard的自动语音回复输入能力,
将率先支援WhatsApp的输入,明年计画支援更多App。
Google透露,目前Gemini Nano只能支援TPU芯片,未来希望能进一步跨大支援到其他手机
上的AI芯片,来扩大可支援的手机类型,但Google没有透露时间表。
Bard从今天(12/6)已经开始使用Gemini Pro来提供回答,而Google预计从12月13日开始
,在GCP Vertex AI或Google AI Studio上,开放企业透过APi存取Gemini Pro模型。
Google目前正在进行Ultra版的信任和安全测试,包括采取外部红队演练,与使用RLHF进
行模型优化。目前将挑选特定企业用户或开发者进行Ultra版试用,预计明年初可以正式
推出Ultra版,也会同步推出采用Ultra版的Bard进阶版。不过,Google没有透露Ultra版
更明确的释出时间。
虽然Nano版可以离线在手机上执行,目前,企业只能透过API存取云端Gemini模型来使用
,Google没有透露,是否未来会提供落地在企业内部部署执行的Gemini版本。
5.完整新闻连结 (或短网址)不可用YAHOO、LINE、MSN等转载媒体:
https://www.ithome.com.tw/news/160193
6.备注:
天网又更近了,不过台湾似乎还没更新

Links booklink

Contact Us: admin [ a t ] ucptt.com