OpenAI新模型GPT-4o发布：语音、视觉能力大幅提升，免费用户也能用！

wd123_cn • 2025年3月21日下午6:41 • 新闻资讯 • 阅读 8

OpenAI今日正式发布了其最新旗舰模型GPT-4o（读作“GPT-Four-Oh”），这是一个在语音、视觉和文本理解方面都实现了重大突破的全新模型。最令人惊喜的是，OpenAI将向所有用户，包括免费用户，开放GPT-4o的部分功能，这意味着更广泛的群体将能体验到先进AI技术的魅力。

GPT-4o：全能型选手

与之前的模型相比，GPT-4o的最大亮点在于其原生多模态能力。它能够无缝地处理文本、语音和图像输入，并生成相应的文本、语音和图像输出。这意味着GPT-4o不再需要像以往的模型那样，将语音或图像先转换为文本再进行处理，从而大大提升了处理效率和响应速度。

OpenAI首席技术官Mira Murati在发布会上表示，GPT-4o“在推理能力、速度和成本效益方面都得到了显著提升”。她强调，GPT-4o的设计理念是让用户能够通过更自然的方式与AI互动，就像与真人交谈一样。用户可以随时打断GPT-4o的语音回复，或者要求它以不同的语气、不同的情感来表达。这种交互方式的变革，预示着人机交互将进入一个全新的时代。

语音能力：更自然、更流畅

GPT-4o在语音方面的提升尤为显著。它能够实时响应用户的语音请求，延迟大幅降低，几乎与真人对话无异。此外，GPT-4o还能够识别语音中的情绪，并根据情绪调整自己的回应方式。例如，当你表达开心时，GPT-4o可能会用更加欢快的语气回应你；当你表达悲伤时，它可能会用更加安慰的语气回应你。

在发布会的演示中，OpenAI展示了GPT-4o强大的语音交互能力。它可以实时翻译两种不同的语言，并能够根据用户的指令，以不同的风格唱歌。更令人印象深刻的是，GPT-4o能够根据用户的语音指令，即时调整语气和风格，展现出极高的灵活性和智能性。

视觉能力：更敏锐、更强大

除了语音能力的提升，GPT-4o在视觉方面也得到了显著增强。它可以更准确地识别图像中的物体、场景和人物，并能够根据图像内容进行更深入的分析和推理。例如，用户可以上传一张照片，让GPT-4o描述照片中的内容，或者询问照片中的物体是什么。GPT-4o甚至可以根据照片内容提供建议，例如，如果照片中是食物，它可以提供菜谱或营养建议。

OpenAI在发布会上演示了GPT-4o的视觉能力，例如，它能够通过摄像头观察到画在纸上的简单图形，并给出相应的指令来帮助用户解决数学问题。这种视觉辅助能力，将为教育、医疗等领域带来新的可能性。

免费用户也能用！

OpenAI决定向所有用户开放GPT-4o的部分功能，这无疑是一项重大的举措。这意味着即使没有付费订阅ChatGPT Plus，用户也能体验到GPT-4o的强大能力。免费用户将可以访问GPT-4o的文本、语音和图像功能，虽然可能会受到一些使用限制，例如，访问次数可能会受到限制。

OpenAI表示，付费订阅ChatGPT Plus的用户将享有更高的访问权限，包括更快的响应速度、更高的使用上限以及优先使用新功能的资格。OpenAI还计划为开发者提供GPT-4o的API接口，以便开发者能够在其应用程序中集成GPT-4o的功能。

安全与伦理

OpenAI在发布GPT-4o的同时，也强调了其在安全和伦理方面的承诺。OpenAI表示，已经采取了一系列措施来防止GPT-4o被用于恶意目的，例如，防止其生成虚假信息、煽动仇恨言论或进行网络欺诈。OpenAI还表示，将继续与各方合作，共同制定AI伦理规范，确保AI技术能够被负责任地使用。

未来展望

GPT-4o的发布，标志着AI技术进入了一个新的阶段。它不仅在语音、视觉和文本理解方面取得了重大突破，更重要的是，它让更多的人能够体验到先进AI技术的魅力。随着GPT-4o的广泛应用，我们有理由相信，AI将在各个领域发挥越来越重要的作用，为人类带来更多的便利和福祉。 OpenAI将持续改进GPT-4o，并推出更多创新功能，未来值得期待。