
GPT-4o发布,多模态升级:文本、视频、音频!
OpenAI 刚刚发布了:
- 桌面 App、新网页 UI
- GPT-4o 模型(“o”代表“omni”)
- 多模态:文本、视频、音频
- 端到端实现,可实时语音、视频对话
- 速度更快(2x)
- 免费用户可用,付费用户有更多配额(高达 5 倍)
- API 将有 5 倍于 GPT-4 Turbo 的 Rate Limit
SmallAI已接入GPT-4o模型(无限制),并且正在为此模型进行优化开发中,让SmallAI用户能够体验到同款OpenAI的体验。
GPT-4o
GPT-4o模型相对比于之前的模型提升了文本、语音和视觉的功能,速度提升50%、可上传视频、音频进行AI对话,重回巅峰榜一!
GPT-4o与GPT4-Turbo模型对比
https://help.openai.com/en/articles/7102672-how-can-i-access-gpt-4-gpt-4-turbo-and-gpt-4o
目前已订阅ChatGPT Plus的部分用户已进行灰度订阅
GPT-4-o目前具有128k的上下文窗口、并且知识库截止日期为 2023年10月。
关于速率限制,截至 2024年5月13日,Plus 用户将能够在GPT-40 上每 3小时最多发送 80 条消息,在GPT-4 上每 3小时最多发送 40 条消息。
官方宣称可能会减少高峰时段的限制,以使 GPT-4 和 GPT-40 可供最广泛的人使用。
当然,使用SmallAI是没有此限制的~
多模态全新升级
GPT-4o 是第一个将文本、音频和图像输入整合的模型,可以生成文本、音频和图像的任意组合输出。
与之前版本相比,GPT-4o 通过单一模型端到端训练,处理所有输入和输出。
这避免了信息丢失,使模型能直接处理语调、多个说话者或背景噪音等,并能输出笑声、唱歌或表达情感。
模型评估
根据传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉功能上设置了新的高水位线。
文本评价
GPT-4o 在 0-shot COT MMLU(常识问题)上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的(在新窗口中打开)图书馆。此外,在传统的5-shot no-CoT MMLU上,GPT-4o创下了87.2%的新高分。
音频性能
GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能,特别是对于资源匮乏的语言。
音频翻译
音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平,并且在 MLS 基准测试中优于 Whisper-v3。
视觉理解评估
GPT-4o 在视觉感知基准上实现了最先进的性能。
总的来说,这次的更新是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。
它可以在短至 232 毫秒的时间内响应音频输入,平均为 320 毫秒,与人类的响应时间相似(在新窗口中打开)在一次谈话中。
它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,在非英语文本上的性能显着提高,同时 API 的速度也更快了。
与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。
想要体验这次的更新模型,并且无需等待ChatGPT官方的灰度测试,可直接访问我们SmallAI平台。
后续会给大家带来有关更多GPT-4o的各种测试文章。