摘要: OpenAI于5月8日正式推出Codex Chrome扩展程序,凭借后台异步执行、代码级实时操控及登录态共享三大杀手锏,彻底颠覆了传统浏览器自动化工具的体验。曾以独立浏览器应用形态颇受关注的Comet,在面对这款“不占屏、不限速、更懂推理”的跨界选手时,迎来了降维打击。这不仅是两款工具的较量,更是传统RPA录屏回放与AI实时生成代码两种技术路线的对决。
AI时代的残酷在于,淘汰你的往往不是同行,而是从另一个维度飞来的黑天鹅。
就在今天,无数打工人用来对付反人类表单的浏览器自动化工具Comet,遭遇了史上最强的跨界狙击——OpenAI正式为Codex App推出了Chrome浏览器扩展。
原本,Comet凭借其独立浏览器应用的形态,在GCP复杂填报、iOS发版等繁琐流程中占有一席之地。但它有两个致命痛点:一是慢,二是贵(20美金的订阅往往撑不到10次就见底)。更要命的是,传统的浏览器自动化工具都有个通病:AI一开工,你的浏览器就废了。你只能像个监工一样盯着它点鼠标,或者干脆走开等它干完。
而Codex的这次更新,直接把这些痛点按在地上摩擦。它不仅仅是功能上“杀”死了Comet,更是从底层逻辑上重塑了浏览器自动化的玩法。
Codex Chrome扩展最让人拍案叫绝的设计,是彻底摒弃了“霸屏”模式。
它巧妙地使用了Chrome的Tab Group(标签组)功能来隔离工作区。这意味着什么?意味着Codex在后台默默跑任务时,你可以继续用当前的浏览器查资料、摸鱼、写代码,两者互不干扰。多个任务甚至可以跨标签页同时在后台并行运转,AI干AI的,你干你的。
相比之下,Comet这类工具一旦启动,浏览器就成了它的舞台,用户只能被剥夺控制权。而Codex这种异步后台Agent的定位,才是一个真正合格的“数字员工”——你交办任务,它自己闷头执行,不需要你全程陪同。
如果说后台运行是体验上的胜出,那么底层操控逻辑则是技术上的碾压。
以前我们用的很多RPA工具,本质上是“录制-回放”逻辑,一旦网页DOM结构稍微变一下,脚本就原地报错。而Codex配合目前的GPT-5.5模型,走的完全是另一条路:现场生成代码,现场执行。
它不再是傻乎乎地模仿你的点击轨迹,而是像真正的程序员一样,通过写代码来控制浏览器。这种基于超强模型的实时推理能力,让Codex对页面结构的变化拥有极强的容错率和适应性。当某个任务同时需要浏览器操作和本地插件时,Codex还能自行判断每一步该调用什么工具,实现按需组合。
很多涉及到公司内部的审批流、后台数据录入,最大的拦路虎就是“登录态”。
传统工具要么让你反复输密码,要么把账号托管给第三方,安全隐患极大。而Codex Chrome扩展实现了完美的“身份共享”。因为它以插件形式运行在你自己的Chrome里,直接调用本地的Cookie和登录状态。无需二次验证,它就能在你的“真实工作环境”里穿梭,既顺畅又安全。
从实际演示来看,这种能力的上限极高:
此次Chrome扩展的发布,也被业界视作OpenAI补齐与Anthropic竞争的最后一块拼图。
Anthropic此前也推出了“Claude in Chrome”,思路有相似之处,都盯上了用户的登录态浏览器。但两者的产品哲学截然不同:Claude更倾向于“副驾驶”模式,辅助你完成当前正在做的事;而Codex则坚定地走向“独立员工”模式,更适合丢给它一个长链路任务让它异步执行。
伴随着这款插件的上线,Codex的周活用户已经突破400万,较年初暴增8倍。OpenAI显然不满足于让Codex只做一个代码生成器,它正在把触角延伸到开发者和职场人的每一个高频工作流中。
想要体验这个“Comet杀手”非常简单:
@chrome
不过目前还有两点小遗憾:一是该扩展仅能在Codex桌面端调用,还不支持CLI命令行,对重度终端用户不太友好;二是由于合规原因,欧盟和英国地区暂不可用,需等待后续支持。
但无论如何,当AI Agent真正无缝潜入我们的浏览器,且不再剥夺我们的控制权时,传统的自动化工具确实到了该退场的时候。Comet下个月的续费,可以省下了。
文章来源: