OpenAI 刚刚发布了：

- 桌面 App、新网页 UI

SmallAI已接入GPT-4o模型（无限制），并且正在为此模型进行优化开发中，让SmallAI用户能够体验到同款OpenAI的体验。

GPT-4o模型相对比于之前的模型提升了文本、语音和视觉的功能，速度提升50%、可上传视频、音频进行AI对话，重回巅峰榜一！

目前已订阅ChatGPT Plus的部分用户已进行灰度订阅

GPT-4-o目前具有128k的上下文窗口、并且知识库截止日期为 2023年10月。

关于速率限制，截至 2024年5月13日，Plus 用户将能够在GPT-40 上每 3小时最多发送 80 条消息，在GPT-4 上每 3小时最多发送 40 条消息。

官方宣称可能会减少高峰时段的限制，以使 GPT-4 和 GPT-40 可供最广泛的人使用。

当然，使用SmallAI是没有此限制的~

GPT-4o 是第一个将文本、音频和图像输入整合的模型，可以生成文本、音频和图像的任意组合输出。

与之前版本相比，GPT-4o 通过单一模型端到端训练，处理所有输入和输出。

这避免了信息丢失，使模型能直接处理语调、多个说话者或背景噪音等，并能输出笑声、唱歌或表达情感。

根据传统基准测试，GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能，同时在多语言、音频和视觉功能上设置了新的高水位线。

GPT-4o 在 0-shot COT MMLU（常识问题）上创下了 88.7% 的新高分。所有这些评估都是通过我们新的简单评估收集的（在新窗口中打开）图书馆。此外，在传统的5-shot no-CoT MMLU上，GPT-4o创下了87.2%的新高分。

GPT-4o 比 Whisper-v3 显着提高了所有语言的语音识别性能，特别是对于资源匮乏的语言。

音频翻译性能 - GPT-4o 在语音翻译方面树立了新的最先进水平，并且在 MLS 基准测试中优于 Whisper-v3。

GPT-4o 在视觉感知基准上实现了最先进的性能。

总的来说，这次的更新是迈向更自然的人机交互的一步——它接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。

它可以在短至 232 毫秒的时间内响应音频输入，平均为 320 毫秒，与人类的响应时间相似（在新窗口中打开）在一次谈话中。

它在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配，在非英语文本上的性能显着提高，同时 API 的速度也更快了。

与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色。

想要体验这次的更新模型，并且无需等待ChatGPT官方的灰度测试，可直接访问我们SmallAI平台。

后续会给大家带来有关更多GPT-4o的各种测试文章。