OpenAI 更新了 Codex,使其具备计算机和内存控制功能。

  • Codex 与计算机集成:它可以控制桌面应用程序、查看屏幕,并使用自己的光标,而不会中断用户操作。
  • 该代理使用新内存,重用对话,并自动执行长期任务,多个代理并行工作。
  • 它包含一个集成浏览器、使用 gpt-image-1.5 进行图像生成,并增强了对开发人员工作流程的支持。
  • 该更新首先在 macOS 上推出;由于数据监管规定,欧洲和英国的部分功能将延迟推出。

利用计算机控制更新法典

OpenAI 在整合方面又迈出了一步 人工智能与日常计算机使用 通过对桌面代码助手 Codex 进行彻底改造,这款工具此前主要以编程辅助功能而闻名,如今已发展成为能够处理应用程序、记住用户偏好并几乎无缝地管理项目的助手。

通过此次更新,由萨姆·奥特曼领导的这家公司距离其创建……的计划又近了一步。 一款桌面“超级应用”,整合了 ChatGPT、Codex 和您的 Atlas 浏览器。此举旨在简化用户体验,将资源集中在一个工作空间中,并与 Anthropic 等竞争对手展开竞争,尤其是在软件开发环境和高级自动化领域。

Codex 像其他用户一样学会了使用电脑。

最显著的变化之一是 Codex 现在可以 在后台控制计算机该代理能够看到屏幕上的内容,移动自己的光标,点击,输入文本,并对已安装应用程序中发生的事情做出反应,而不会中断用户使用鼠标或键盘的操作。

此功能允许多个 Codex 代理协同工作。 同时在同一团队中这包括在用户进行日常活动的同时执行测试、更改配置或执行重复性任务。这为自动化以往需要持续监督的工作流程打开了大门,例如每次代码更改后测试应用程序或重复界面操作。

OpenAI 提出此功能是助手与用户交互的一种方式。 没有 API 的工具 或者直接集成,这在许多桌面程序中很常见。Codex 通过“查看”屏幕和控制光标,可以像人类用户一样与这些应用程序进行交互,尽管目前这种交互方式受到控制,并且特别注重安全性。

据该公司称,计算机使用最初可在以下情况下进行: macOS 通过 Codex 桌面应用程序已关联至 ChatGPT 帐户。Windows 版本将在性能测试完成且功能适配 Microsoft 环境后稍后推出。

就欧洲和英国而言,OpenAI 已确认: 计算机控制、高级自定义、上下文建议和内存 这些功能稍后才会启用。原因是需要根据数据保护法规调整这些功能,而欧盟和英国市场对这些法规的要求尤为严格。

带有内存和应用程序控制功能的 Codex

集成浏览器,可直接在网页上操作

此次更新也通过以下方式加强了 Codex 与网络的关系: 应用程序内置浏览器代理不再只是接收通用的文本指令,而是可以直接接收针对页面特定元素的命令。

例如,在前端开发中,用户可以 选择一个 Web 组件并描述其更改。 用户想要执行某些操作(例如更改某个模块的颜色、文本大小或布局),Codex 能够理解该特定视觉上下文中的指令。这样就避免了编写冗长的提示信息来解释需要修改网站的哪个部分。

这个嵌入式浏览器也支持 Codex。 分析内容、收集信息并将其用作背景信息 对于其他任务,例如编写代码文档、审查产品规格或比较技术文档,所有操作都在同一个环境中完成,无需在多个操作系统窗口之间切换。

使用 gpt-image-1.5 生成和编辑图像

新版《法典》的另一支柱是模型的整合 gpt-image-1.5 用于创建和修改图像 代理程序可以直接在桌面应用程序中,根据文本或将指令与屏幕截图和代码片段结合起来,生成图表、示意图、模型或视觉草图。

这项功能直接面向在以下领域工作的团队: 产品设计、用户界面或视频游戏原型例如,开发人员可以截取半成品界面的屏幕截图,要求 Codex 建议菜单重新设计或新的配色方案,并获得符合该上下文的生成图像,而无需更改工具。

由于所有内容都集中在 Codex 中,特工可以 将编码和设计任务串联起来:编写功能逻辑,更新相应的前端,并生成可视化模型以向团队展示,而无需离开工作流程或打开外部图形编辑应用程序。

记忆、上下文和长期任务自动化

除了计算机控制和图像生成之外,OpenAI 在此版本中的最大赌注是为 Codex 配备一个 持久记忆和更广泛的上下文管理该工具可以重用以前的对话,保存重要信息,并在需要时检索这些信息以继续项目。

内存功能目前以预览版形式发布,允许 Codex 记住个人偏好、频繁更正或难以收集的数据这包括团队的典型技术栈、文件夹的组织方式、最常用的报告格式,以及 GitHub 上通常用于某些类型问题的标签等所有内容。

有了这些积累的背景信息,智能体可以 主动提出任务这可以用来建议用户继续未完成的项目、推荐待处理的重构,或者通知用户长期未完成的拉取请求。一些公司已经在使用它来跟踪 Slack、Gmail 或 Notion 中的对话,并在特定事件发生时做出反应。

Codex 也可以 为未来工作做好规划,并重新独立自主地开展工作。 完成长期任务。例如,它可以管理数天或数周的代码审查队列,自动处理评论并更新文档,而无需开发人员持续监控。

超过 90 个插件和改进的开发者支持

为了完成这一改变,OpenAI 已经添加了近 新增 90 个 Codex 插件这些功能包括与 Microsoft Suite、GitLab Issues、Databricks 的 Neon、Render 和 Superpowers 的集成,以及对 MCP(模型上下文协议)服务器的支持。其目标是为代理提供更多上下文信息源和更强大的操作能力。

多亏了这些插件,Codex 可以 从不同服务机构收集信息并采取行动 在同一个工作空间中,您可以查看 GitLab 中的问题、查询 Databricks 环境中的数据、更新 Office 文档或与部署服务进行交互,而无需强迫用户在平台之间切换。

纯粹从技术层面来看,此次更新增强了 典型的开发者工作流程现在,Codex 可以帮助您查看拉取请求、同时管理多个终端标签页、通过 SSH 连接到远程开发环境,以及打开带有丰富预览的文件,无论是 PDF、电子表格、演示文稿还是其他格式的文档。

所有这些都集中在一个统一的体验中,根据 OpenAI 的说法,这可以加快进展速度。 在软件生命周期的所有阶段从编写初始代码到测试、部署、记录和维护,人工智能代理在同一个桌面环境中持续协作。

可用性、对开发者的关注以及欧洲的形势

新版 Codex 已开始部署。 适用于 macOS 的桌面应用程序 对于使用 ChatGPT 帐户登录的用户,并非所有功能都需要同一种订阅类型,某些高级功能可能取决于购买的套餐,这与其他 OpenAI 工具的情况相同。

Codex 主任 Thibault Sottiaux 解释说,这次更新 它尤其面向开发人员。虽然最终目标是将其推广到更广泛的用户群体,但目前的设想是,技术团队将率先利用这些新的代理和自动化工作流程,并随着时间的推移,将该模型应用于办公任务、文档管理或个人效率提升等领域。

OpenAI强调,计算能力和内存的使用是通过以下方式实现的: 安全和监管合规方法这一点在欧盟和英国尤为重要。因此,高级定制功能、情境建议、持久内存和直接操作系统控制等功能在这些市场还需要一段时间才能普及。

总之,该公司坚称,Codex 的这一演变为……打开了大门。 专注于智能自动化的桌面超级应用程序人工智能代理不仅能帮助编写代码,还能协调任务、适应用户的工作方式,并确保复杂项目长时间稳定运行。对于欧洲的软件开发人员来说,信息很明确:新功能即将到来,但需要进行必要的调整以符合现有的监管框架。