GPT-4o的“O”代表“omni”。这个词的意思是“全方位”,来源于拉丁语“omnis”。在英语中,“omni”常用作词根,表达“所有”或“全部”的概念。
GPT-4o可以实时推断音频、视觉和文本,可以处理50多种不同的语言,速度和质量都有很大提高。
此前,GPT-3.5语音对话的平均延迟为2.8秒,GPT-4为5.4秒。音频输入的时候,因为处理方式的原因,丢失了很多信息,笑声、歌声、情感表达都无法识别。
GPT-4o可以在232毫秒内响应音频输入,甚至可以随意打断,类似于人类在对话中的反应时间,彻底颠覆了以往的“语音助手”。
GPT-4o在现场充当实时翻译,也相当流畅,意大利语和英语可以即时翻译。
最重要的是,GPT-4o还可以接受文字、音频、图像的组合作为输入,生成文字、音频、图像的任意组合进行输出,使得人机交互更加自然、全面。
GPT-4o的能力将向免费用户开放,但数量有限。免费用户数量达到后,会自动跳回GPT-3.5。
GPT-4o还会向GPT开发者开放相应的API,价格是GPT-4-turbo的一半,但速度是GPT-4-turbo的两倍,速率限制更是高出5倍。
官员称GPT-4o将在未来几周内开放。
此外,OpenAI还推出了桌面版的ChatGPT,但目前只有MacOS版本,Windows版本将在稍后亮相。