找回密码
 立即注册
查看: 383|回复: 2

3分钟速览OpenAI春季发布会:GPT-4o炸裂登场!听说读写丝滑如真人

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2024-5-14 09:26:08 | 显示全部楼层 |阅读模式
北京时间周二(5月14日)凌晨,美国人工智能研究公司OpenAI在线上举办了“春季更新”活动。
整体来看,活动主要分为两大部分:推出新旗舰模型“GPT-4o”,以及在ChatGPT中免费提供更多功能。

GPT-4o登场
OpenAI在活动中发布了新旗舰模型“GPT-4o”,“可以实时对音频、视觉和文本进行推理。”据介绍,新模型使ChatGPT能够处理50种不同的语言,同时提高了速度和质量。
GPT-4o的“o”代表“omni”。该词意为“全能”,源自拉丁语“omnis”。在英语中“omni”常被用作词根,用来表示“全部”或“所有”的概念。



新闻稿称,GPT-4o是迈向更自然人机交互的一步,它可以接受文本、音频和图像三者组合作为输入,并生成文本、音频和图像的任意组合输出,“与现有模型相比,GPT-4o在图像和音频理解方面尤其出色。”

在GPT-4o之前,用户使用语音模式与ChatGPT对话时,GPT-3.5的平均延迟为2.8秒,GPT-4为5.4秒,音频在输入时还会由于处理方式丢失大量信息,让GPT-4无法直接观察音调、说话的人和背景噪音,也无法输出笑声、歌唱声和表达情感。

与之相比,GPT-4o可以在232毫秒内对音频输入做出反应,与人类在对话中的反应时间相近。在录播视频中,两位高管做出了演示:机器人能够从急促的喘气声中理解“紧张”的含义,并且指导他进行深呼吸,还可以根据用户要求变换语调。



图像输入方面,演示视频显示,OpenAI高管启动摄像头要求实时完成一个一元方程题,ChatGPT轻松完成了任务;另外,高管还展示了ChatGPT桌面版对代码和电脑桌面(一张气温图表)进行实时解读的能力。

OpenAI新闻稿称,“我们跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,因此我们仍然只是浅尝辄止地探索该模型的功能及其局限性。”



性能方面,根据传统基准测试,GPT-4o在文本、推理和编码等方面实现了与GPT-4 Turbo级别相当的性能,同时在多语言、音频和视觉功能方面的表现分数也创下了新高。

更多工具免费解锁
OpenAI表示,“我们开始向ChatGPT Plus和Team用户推出GPT-4o,并且很快就会向企业用户推出。我们今天还开始推出ChatGPT Free,但有使用限额。 Plus用户的消息限额将比免费用户高出5倍,团队和企业用户的限额会再高一些。”

新闻稿称,即使是ChatGPT Free(免费)用户也可以有机会体验GPT-4o,但当达到限额时,ChatGPT将自动切换到GPT-3.5。

另外,OpenAI还推出适用于macOS的ChatGPT桌面应用程序,通过简单的键盘快捷键(Option + Space)可以立即向ChatGPT提问,还可以直接在应用程序中截取屏幕截图与机器人进行讨论。

在直播活动尾声时,OpenAI首席技术官Mira Murati说道,“感谢杰出的OpenAI团队,也感谢Jensen(黄仁勋)和英伟达团队为我们带来了最先进的GPU,使今天的演示成为可能。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
 楼主| 发表于 2024-5-14 09:27:45 | 显示全部楼层
OpenAI的新品终于官宣,是一个“全能助手”。

北京时间5月14日凌晨,OpenAI发布最新多模态大模型 GPT-4o(o代表omini,全能),支持文本、音频和图像的任意组合输入,并生成文本、音频和图像的任意组合输出。文本、推理和编码智能方面性能达到了GPT-4 Turbo水平,同时在多语言、音频和视觉能力方面也达到新高。据介绍,GPT-4o的速度比GPT-4 Turbo快2倍,速率限制提高5倍,最高可达每分钟1000万token,而价格则便宜了一半。

OpenAI首席技术官米拉·穆拉蒂(Muri Murati)在发布会上表示:“通过语音、文本和视觉进行推理非常重要,因为我们正在研究与机器交互的未来。”

官网显示,GPT-4o的文本和图像功能将在ChatGPT更新后提供给所有用户,Plus用户的消息数量使用上限是免费版的5倍(使用上限后会切换回GPT-3.5版本)。而新版语音模式将在未来几周向Plus用户推出,同时也将会在API(应用接口)中向小范围推出对GPT-4o的新音频和视频功能的支持。


在发布会现场演示中,GPT-4o可以像人工智能助手一样,实现用户与ChatGPT的实时交互,不再是一问一答,也不需要其他按键操作。

比如,用户可以说“Hi,ChatGPT”并提出问题,也可以在ChatGPT回答时打断它,它还可以识别用户声音中展现的情感,甚至实时根据用户的需求来使用不同情感风格的声音。

据介绍,GPT-4o的音频输入平均反应时间为0.32秒,与人类对话中的反应时间相似。

OpenAI表示,在GPT-4o之前,使用语音模式与ChatGPT对话的平均延迟时间为2.8秒(GPT-3.5)和5.4秒(GPT-4)。此前的语音模式由三个独立模型组成:一个简单模型将音频转为文本,GPT-4接收文本并输出文本,第三个简单模型将文本转回音频。这个过程也让主要的智能源GPT-4丢失了很多信息,比如不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。而GPT-4o通过在文本、视觉和音频方面训练了一个端到端新模型,所有输入和输出都由同一个神经网络处理。

不过,OpenAI也坦言,由于GPT-4o是公司首个结合了所有前述模式的模型,因此在探索模型功能及其局限性方面仍处于起步阶段,GPT-4o也开始扩大红队(测试)的访问权限。

此外,GPT-4o还提高了ChatGPT的视觉能力。在现场演示中,通过手机实时拍摄的视频或电脑桌面屏幕上的截图,ChatGPT可以快速回答相关问题,帮助解决计算、编程等问题。

演示中还出现了一段小插曲。因为“幻觉”问题,ChatGPT在还没打开摄像头看到画面时就表示理解了,在演示者提示后,她说“哎呀,我太兴奋了”,随后实时指导完成了一道数学题。

同时,OpenAI还在X(推特)上实时搜集到网友的反馈,进行了ChatGPT的情绪分析演示。通过演示者的实时摄像头画面,对表情中的开心、兴奋等情绪做出了分析。

GPT-4o的英语和代码文本性能与GPT-4 Turbo相当,在非英语语言文本方面也有显著提高,能支持50种语言。发布会上,穆拉蒂演示了让全新ChatGPT充当只会意大利语与只会英语的两人的翻译,实现了跨语种交流的无缝衔接。


发布会上,ChatGPT还发布了电脑桌面版和新UI界面。根据官方公告,目前仅适用于macOS,Windows版将在今年晚些时候推出。

“我们知道这些模型越来越复杂,但我们希望交互体验变得更加自然、轻松,并且让你根本不关注用户界面,而是专注于与GPT(交互)。”穆拉蒂表示。

OpenAI CEO山姆·奥特曼(Sam Altman)也表示:“对我来说,与电脑交谈从来没有真正自然过,而现在却很自然……我真的看到了一个令人兴奋的未来,我们可以用电脑做比以往更多的事情。”

“AI达到人类级别的响应时间和表现力是一个很大的改变,给人的感觉就像电影中的人工智能,而它的真实性仍然让我感到有些惊讶。”他表示,“最初的ChatGPT展示了语言界面的雏形,而这款新模型给人的感觉却截然不同,它快速、智能、有趣、自然而且乐于助人。”

奥特曼还发文“her”,或许也表达了他对GPT-4o的评价以及对未来的畅想(在电影《Her》中,人工智能助手Samantha主动给男主人公打了电话,告知他一些事情)。


奥特曼表示,OpenAI的一项重要使命就是免费(或以优惠价格)向人们提供功能强大的人工智能工具,“我感到非常自豪的是,我们在ChatGPT中免费提供了世界上最好的模型,并且没有广告或类似的东西”。

他表示:“我们是一家企业,会找到很多可以收费的东西,这将帮助我们为数十亿人提供免费、出色的人工智能服务(希望如此)。”

此前,据外媒报道,苹果公司已接近与OpenAI达成协议,今年将后者的部分技术引入iPhone,提供由ChatGPT支持的“聊天机器人”作为iOS 18中人工智能功能的一部分。

不过,苹果同时还与谷歌就授权Gemini聊天机器人进行了谈判。而谷歌将在OpenAI此次春季更新发布会之后一天举行I/O开发者大会,谷歌在大会的官方博文中曾提到“Gemini 时代”,预计将会发布Gemini大模型的最新动态。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

该用户从未签到

0

主题

103

回帖

130

积分

无名之辈

积分
130
发表于 2024-5-15 07:05:32 | 显示全部楼层
谢谢分享信息
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-19 22:46 , Processed in 0.077759 second(s), 3 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表