当前位置:首页 > 排行 >内容

OpenAI推出新版GPT-4o,《her》时代渐行渐近

时间:2024-05-14 14:02 来源:证券之星 阅读量:9886   

OpenAI的首席执行官Sam Altman曾经分享过他最喜欢的科幻电影《her》mdash;男主人公爱上了一个通过对话操作的AI虚拟助理。而现在,电影情节似乎有望成为现实。

北京时间周二凌晨一点,OpenAI在发布会上推出最新的多模态大模型GPT-4o。这款全能的大模型具备能够处理文本、音频和图像的能力。与前几代模型相比,它增加了语音功能,且运行速度更快。

感觉就像电影里的人工智能。发布会结束后,Sam Altman在社交媒体X上发文称,对我来说,与电脑对话从来都不是一件很自然的事,而现在却很自然。

全能大模型

OpenAI的首席技术官Mira Murati解释道:当三种不同的模型协同工作时,就会在体验中引入大量延迟,从而破坏体验的沉浸感。但是如果有一个模型,能在音频、文本和视觉之间进行原生推理,就能减少所有的延迟,能与 ChatGPT 进行像我们现在的交互。

OpenAI介绍称,GPT-4o响应音频输入的平均时间在320毫米,最短可达232毫秒,这与人类在谈话中的响应时间相似。现在用户可以与ChatGPT进行更像真人的实时对话,不需要机械性的一问一答,可以随时打断它的回复,提出新的要求,如转变话题、要求ChatGPT改变语音语调等。但是在演示过程中,ChatGPT回复的音频仍然不时发生卡顿。

GPT-4o的视觉功能也得到了升级。新模型能够实时读懂手机镜头画面或屏幕信息。在演示时,不仅能够帮助解答手写的代数方程,还能迅速地对一段Python代码及图表进行分析。

让许多用户感到惊奇的是,GPT-4o甚至展现出了能够识别人类情绪的能力。在演示中,一名研究员要求AI模型读取其面部表情并判断他的情绪。ChatGPT的语音助手回复称他看起来快乐、开朗,笑容灿烂,甚至还有点兴奋。当被称赞有用且令人惊叹时,ChatGPT还能用像人类的方式回答道:哦,别说了,你让我脸红了。

OpenAI的竞争对手

GPT-4o一经推出,OpenAI的竞争对手似乎坐不住了。谷歌很快在社交媒体X平台上发布了一段预览Gemini大模型功能的视频。在视频中,这一AI模型能够通过摄像头来描述画面中发生的情况,并实时提供语音反馈,就像OpenAI最新展示的那样。谷歌将在北京时间周三凌晨一点举办年度I/O开发者大会,预计会展示一系列AI相关的产品。

去年12月,谷歌发布了Gemini 1.0版本,称其具有多模态交互能力。在视频演示中,Gemini能够实时感知人类动作,并直接做出语音回应。但随后视频被曝出经过剪辑,谷歌也承认为了演示效果,减少了延迟并缩短了Gemini的输出时间。

不少人还将OpenAI的GPT-4o与苹果的AI助理Siri进行对比。据彭博社此前报道,苹果即将与OpenAI达成协议,正在敲定在下一代iPhone操作系统iOS18中应用ChatGPT功能的具体条款。苹果将在6月举办WWDC全球开发者大会,预计会在活动上宣布一系列人工智能功能。

何人、何时能用上GPT-4o

OpenAI将于今日起推出GPT-4o 的文本和图像功能,并强调ChatGPT的免费用户也能够使用。在此之前,免费用户仅拥有GPT-3.5的使用权限,GPT-4模型面向的是付费用户。

据OpenAI介绍,付费用户会获得高达5倍的消息容量限制。当免费用户用完限定的信息数量后,ChatGPT会自动切换到GPT-3.5。

目前GPT-4o的API中还未包括语音功能。OpenAI对滥用风险表示了担忧,计划将在未来几周内向付费用户提供新的音频功能。

GPT-4o的多语言能力也得到了升级。它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,但在非英语文本上的性能显著提高。同时API的速度也更快,成本降低了50%。

ChatGPT的更新还包括新的用户界面和适用于macOS的桌面版ChatGPT。用户可以使用快捷键向ChatGPT提问,并直接在应用程序中通过屏幕截图进行讨论。

Mira Murati表示,我们知道这些模型越来越复杂,但我们希望交互体验变得更自然、更简单,让你完全不用关注用户界面,而只关注与GPT的协作。

声明:免责声明:此文内容为本网站转载企业宣传资讯,仅代表作者个人观点,与本网无关。仅供读者参考,并请自行核实相关内容。