
OpenAI周四发布GPT-5.3-Codex。该公司称,这是迄今为止能力强的编程代理。值得注意的是,此次发布的时间点被安排在Anthropic出其旗舰模型升版Claude Opus 4.6的同时刻。媒体称,两大模型同步亮相阜新橡塑胶,被业内观察人士视为“AI编程大战”的枪——这是场围绕企业软件开发市场展开的风险争夺战。
OpenAI席执行官Sam Altman在模型发布几分钟后就在X上写道:
“我非常喜欢用这个模型来开发,它带来的进步感受,远远过基准测试所显示的幅度。”
“看着我们用5.3-Codex来开发5.3-Codex,从而把发布速度提升到这么快,真的令人震撼,这毫疑问预示着未来的发展向。”
媒体表示,模型本身参与了自身的构建,被视为AI发展中的个重要里程碑。根据OpenAI的公告,Codex团队使用GPT-5.3-Codex的早期版本来调试自身的训练过程、管理部署基础设施,并诊断测试结果和评估情况。OpenAI将其称为“我们个在自身创建过程中发挥关键作用的模型”。
GPT-5.3-Codex多项基准成绩先Claude达到两位数OpenAI表示,新模型在多项行业基准测试中实现了显著提升。GPT-5.3-Codex在SWE-Bench Pro上取得了57的成绩。SWE-Bench Pro是项为严格的真实世界软件工程评测,涵盖四种编程语言,考察抗数据污染、具有工业相关的挑战。
该模型在Terminal-Bench 2.0上得分77.3,这基准主要衡量编程代理所需的终端操作能力;在OSWorld上得分64,该测试要求模型在可视化桌面环境中完成生产力任务,是项强调“代理式”计机使用能力的评估。
其中,Terminal-Bench 2.0的结果尤为引人注目。根据周三公布的能数据,GPT-5.3-Codex的得分为77.3,而GPT-5.2-Codex为64.0,基础版GPT-5.2模型为62.2。也就是说,仅代升,成绩就提升了13个百分点。位X平台用户指出,这成绩“碾压”了Anthropic的Opus 4.6,后者据称在同基准上的得分为65.4。
OpenAI还表示,新模型是在率大幅提升的情况下实现上述成绩的:在完成同等任务时,所需token数量不到上代模型的半,同时单个token的理速度提升过25。
OpenAI在公告中称:
“值得注意的是,GPT-5.3-Codex在使用的token数量上低于任何此前模型,这让用户能够做多事情。”
从编程助手到编程操作者相比基准测试的提升,重要的是OpenAI对GPT-5.3-Codex的定位。该公司明确表示:
“Codex正从个只能编写和审查代码的代理,进化为个几乎可以完成开发者和业人士在电脑上所做任何事情的代理。”
这能力扩展涵盖了调试、部署、监控、撰写产品需求文档、编辑文案、开展用户研究、制作演示文稿,以及在电子表格应用中分析数据等。该模型在GDPVal评估中表现突出。GDPVal是OpenAI于2025年发布的项评估,用于衡量模型在44种职业中、对定义明确的知识型工作任务的完成能力。
分析认为,这扩展信号表明,OpenAI的目标不仅是开发者工具市场,还包括广泛的企业生产力软件域。该市场的既有玩包括Microsoft、Salesforce和ServiceNow,这些公司都在加速将AI代理嵌入自身平台。
OpenAI个“能力”网络安全模型向通用计能力的转变,也带来了新的安全考量。OpenAI表示,GPT-5.3-Codex是其个在“准备度框架”下,被归类为在网络安全相关任务上具备“能力”的模型,同时也是个被直接训练用于识别软件漏洞的模型。
OpenAI表示:“尽管我们尚未发现它可以端到端自动化网络攻击的确凿证据阜新橡塑胶,但我们采取了审慎策略,部署了迄今为止的网络安全护体系。”相关措施包括双用途安全训练、自动化监控、对能力实行可信访问机制,以及结威胁情报的执行管线。
Altman也在X上强调了这进展:
“这是我们个在准备度框架中,网络安全能力达到‘’别的模型。我们正在试点可信访问框架,并承诺投入1000万美元的API额度,用于加速网络御。”
此外,OpenAI还在扩大其安全研究代理Aardvark的私有测试,并与开源维护者作,为广泛使用的项目提供费的代码库扫描。OpenAI以Next.js为例,称名安全研究人员上周就曾使用Codex发现并披露了相关漏洞。
同日同时发布新模型,OpenAI与Anthropic的竞争白热化不过,该公司网络安全面的宣布,很快被OpenAI与Anthropic之间的对抗所掩盖。媒体表示,若脱离背景,很难理解周四这发布时间点的意义。
Anthropic是以AI安全为核心的初创公司,泡沫板橡塑板专用胶成立于2021年,由多名前OpenAI研究人员创办,其中包括Dario Amodei和Daniela Amodei。
两公司都将重大产品发布安排在当天美西时间上午10点。Anthropic发布了Claude Opus 4.6,并将其描述为“聪明的模型”,称其“规划谨慎、能长时间持续执行代理式任务、在大型代码库中运行可靠,并且能够发现并纠正自身错误”。
而这正面交锋的背后,是周不断升的紧张关系。Anthropic宣布,将在碗期间播出广告,嘲讽OpenAI近期开始在ChatGPT费用户中测试广告的决定。
Altman随后作出罕见的直接回应,在篇长篇X帖中称这些广告“好笑”,但“明显不诚实”。
Altman写道:阜新橡塑胶
“我们显然永远不会像Anthropic广告中描绘的那样投放广告。我们并不愚蠢,也知道用户不会接受那种做法。”
“我想这倒是很符Anthropic贯的‘双重话术’风格,用个具有误的广告,去批评根本不存在的、理论上的误广告,但碗广告并不是我预期会看到这种事情的地。”
他进步将Anthropic形容为“威权式公司”,称其“想要控制人们如何使用AI”。
Altman写道:
“Anthropic向富人提供昂贵的产品。使用ChatGPT费版的德州人数量,比美国使用Claude的总人数还要多,所以我们面临的是不同形态的问题。”
企业AI支出远预期,OpenAI市场份额面临Anthropic与谷歌挤压公开的口水战背后,是场其严肃的商业竞争。这对抗发生在企业AI应用爆发式增长的大背景下,双都在争夺个迅速扩张的市场。
奥力斯 PVC管道管件粘结胶价格 联系人:王经理 手机:18231788377(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区/p>
根据Andreessen Horowitz本周发布的调查数据,企业在大语言模型上的支出,已经大幅过此前即便相当乐观的预测。2025年,企业平均在LLM上的支出达到700万美元,较2024年实际支出的250万美元出180,也比企业在年前对2025年的预测出56。预计到2026年,单个企业的支出将达到1160万美元,再增长65。
a16z的数据还揭示了市场格局的变化。OpenAI仍然占据企业AI支出中大的份额,但这份额正在缩小——从2024年的62,下降至预计2026年的53。同期,Anthropic的份额从14上升至预计18,Google也呈现出类似的增长趋势。
在企业使用模式上,情况加微妙。虽然OpenAI在总体使用量上先,但在接受调查的OpenAI客户中,只有46在生产环境中使用其强模型;而Anthropic和Google这比例分别为75和76。如果将测试环境也计在内,89的Anthropic客户正在测试或使用其强模型,这比例在主要厂商中。
在软件开发这双编程代理的核心应用场景中,a16z调查显示,OpenAI的市场份额约为35,而Anthropic则占据了剩余市场中相当可观、且持续增长的部分。
OpenAI承诺未来数周出多Codex展望未来,OpenAI表示,GPT-5.3-Codex已立即向付费ChatGPT用户开放,覆盖所有Codex使用场景,包括桌面应用、命令行接口、IDE扩展和网页端,API接口预计随后出。
该模型还加入了项新的交互:用户可以在“务实型”和“友好型”两种格之间进行选择。Altman表示,用户对这点有着强烈偏好。在实质的层面上,模型在执行任务过程中会频繁提供进度新,允许用户实时互动、提问、讨论思路,并在不丢失上下文的情况下引解决案。
OpenAI表示:
“你不再需要等待终结果,而是可以实时互动。GPT-5.3-Codex会讲清楚它正在做什么,响应反馈,并从头到尾让你保持知情。”公司承诺,未来几周还将出多能力。Altman直言:“我相信Codex会赢。”
他在回应Anthropic时,用句颇具哲学意味的话为这场竞争定调:
“这个时代阜新橡塑胶,属于建设者,而不属于那些想要控制他们的人。”
风险提示及责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符其特定状况。据此投资,责任自负。 相关词条:玻璃棉毡 塑料挤出机 预应力钢绞线 铁皮保温 万能胶生产厂家