Meta又开源AI模型,算盘打的是“AI元宇宙”!ImageBind如何带来多感官体验?
https://www.bnext.com.tw/article/75211
当各大科技公司在AI人工智能的战场上各显身手,试图占据AI市场的一席之地时,有个看
似沉寂许久的科技巨头,看似把未来押在虚拟世界“元宇宙”而错失了先机,却正在迎头
赶上,不断推出、甚至开源自家的AI研究成果──那就是Meta。
Meta于5月9日宣布了一个新的开源AI研究项目,名为“ImageBind”,且不只可以生成文
字、或是图片,还可以串联起文本、听觉、视觉数据、3D深度资讯、温度、动作数据。这
可能将是虚拟世界“元宇宙”计画的一大步,也代表未来AI的走向,将会是创造身历其境
的多感官体验。
虽然这还在研究阶段,Meta近期也还称不上高调,但也不断公开自家的研究项目,与相较
之下越来越神秘的OpenAI和Google形成强烈对比。
人工智能“多模型”型态,将是生成式AI的趋势?
早先广为人知的生成式AI如Midjourney、Stable Diffusion和DALL-E,都是在训练阶段时
就已经把文字和图片“连接”在一起的系统,在训练时,这些模型就会以文字叙述来寻找
视觉资料中的模式。目前其他生成声音或是短片的生成式AI也是如此。
但Meta表示ImageBind模型连结的不只文字和图片,还包括了温度(红外线影像)、3D深
度距离、还有用惯性测量装置(inertial measuring unit,IMU,可在手机或智慧手表中
追踪萤幕转向等活动)所取得的动作数据。
这个模型将预期的成果是: 模拟人的感知 ,用有限的数据来生成复杂的场景。如果未来
能够搭配虚拟实境设备使用,ImageBind不仅可以生成感官效果,还可以在使用者所在的
站台或座椅环境生成动作或效果。例如:输入“长途旅行”,ImageBind可能就可以让你
置身于摇晃的甲板,让你听到海浪声,并给你阵阵凉爽的海风。
Meta也在官方部落格指出,未来其他感觉数据也会添加到模型当中,例如触觉、嗅觉和大
脑fMRI信号等。文章中也指出,这个研究让AI生成模型“更接近人类在许多不同形式的资
讯当中,同步、整体且直接的学习。”
不过,这都还只是研究项目,目前都没有实际的应用成果或消费者心得。不过,继去年9
月Meta低调推出短片生成AI模型后,这个研究项目在未来,也可能会是Meta元宇宙大梦的
重要里程碑。
Meta早就是AI老手?大方开源AI研究,能抢先订下标准?
尽管低调,人工智能在Meta早就已经是旗下Facebook或Instagram贴文与短影音的幕后关
键。用户在Instagram上看到的所有内容中,就约有40%是由AI推荐的,而Instagram和
Facebook两个一起算的话,比率则是20%。在业务方面,Meta的主要业务──销售广告,
也是AI来操盘的。
Meta在AI领域的最大优势之一,就是旗下的研究部门,许多专家认为,Meta团队的竞争力
并不输Google和OpenAI等同行。
虽然Facebook和Instagram大量使用AI,但Meta的应用程式都不允许人们创建新内容,如
文本或影像。外媒《Vox》指出,可能跟Meta长期被控“散播仇恨言论、错误讯息”的骂
名有关,Meta还不想仓促建立一个会产生更多有害或是不正确内容的工具。
其实,Meta已经尝试过了,他们去年11月所发布、以学术论文进行训练的实验性AI工具“
Galactica”吐出了不符合事实的种族主义讯息,在三天内就被撤下了。
Meta同时也面临硬件设备难以执行人工智能系统的问题。去年9月,Meta内部发布的一份
备忘录表示,该公司“在AI开发方面,工具、工作流程和制程方面存在重大差距”,并且
需要“在这方面进行大量投资”。
不过,Meta的人工智能研究部门仍定期发布公开的AI研究论文(不包括社群媒体算法的
AI)。其他AI公司,如Google和OpenAI因竞争而不那么愿意公开研究成果。
Meta执行长马克.祖克柏就曾表示, 公开研究成果可以让Meta率先制定AI产品开发的行
业标准,并让外部开发者更好地融入Meta的生态系统 。今年2月,Meta的研究部门与研究
人员就开放LLaMA的大型语言模型给AI社群索取使用权限。
LLaMA的能力目前落后于OpenAI最新的GPT4模型以及Google的Bard,但开放资源仍然代表
著AI研究社区不须强大的电脑,就可以修改底层程式码。但这也有专家认为,过于自由的
开放可能会遭到恶意使用。
====
用AI来做虚拟实境的感觉模拟是很不错。
看来野心不小,各种感觉都想加进去。
真让它成功了,以后搞虚拟实境游戏就要用它的技术了。
但问题还是一样,这些资讯要怎进入使用者的脑中?
现在可没这种脑机连接技术,也不知道那时才会有。