OpenAI发布GPT-4o：可免费开放使用语音对话媲美真人

daixiaodai 游戏资讯 2024-05-15 18

GPT-4o的“O”代表“omni”。这个词的意思是“全方位”，来源于拉丁语“omnis”。在英语中，“omni”常用作词根，表达“所有”或“全部”的概念。

GPT-4o可以实时推断音频、视觉和文本，可以处理50多种不同的语言，速度和质量都有很大提高。

此前，GPT-3.5语音对话的平均延迟为2.8秒，GPT-4为5.4秒。音频输入的时候，因为处理方式的原因，丢失了很多信息，笑声、歌声、情感表达都无法识别。

GPT-4o可以在232毫秒内响应音频输入，甚至可以随意打断，类似于人类在对话中的反应时间，彻底颠覆了以往的“语音助手”。

GPT-4o在现场充当实时翻译，也相当流畅，意大利语和英语可以即时翻译。

最重要的是，GPT-4o还可以接受文字、音频、图像的组合作为输入，生成文字、音频、图像的任意组合进行输出，使得人机交互更加自然、全面。

GPT-4o的能力将向免费用户开放，但数量有限。免费用户数量达到后，会自动跳回GPT-3.5。

GPT-4o还会向GPT开发者开放相应的API，价格是GPT-4-turbo的一半，但速度是GPT-4-turbo的两倍，速率限制更是高出5倍。

官员称GPT-4o将在未来几周内开放。

此外，OpenAI还推出了桌面版的ChatGPT，但目前只有MacOS版本，Windows版本将在稍后亮相。

OpenAI发布GPT-4o：可免费开放使用 语音对话媲美真人