Skip to content

模型上下文协议(OpenAI陨落)

欢迎来到以DeepSeek以代表的AI世界,我是doc-war.com的青樵,一个技术主义者。

知行合一,用DeepSeek写DeepSeek教程。

参考提问

  • 既然MCP协议(模型上下文协议)对OpenAI的ChatGPT的王者地位构成了巨大的挑战,OpenAI可能怎么应对?
  • 2025年3月11日,OpenAI推出了全新的开发者工具和API,其中包括了Agents SDK。能否详细说明主要解决了什么之前解决不了的问题。

一、OpenAI的危机纪元

Anthropic公司借助夫子留下来的惊神阵《将夜》,裹挟生态能量,画出了一道贯穿东西的“人字符”。借助模型上下文协议(MCP),Anthropic公司站在生态高度,对OpenAI的王座构成了巨大的潜在挑战。

随着社区对MCP协议的热情,这种挑战必然越来越明显。

  • 我们能看到
  • 一些脱离一线的大佬们也开始看到了
  • OpenAI自己也能看到

他会怎么应对呢?

  • 是全盘无耻照抄,通过标准不兼容,来重现当年微软IE浏览器凭借垄断优势击败网景的故事?

  • 还是切换竞争维度,去投资更贴近用户价值的Agent操作系统?

2天前,一直好奇的OpenAI的反击措施终于落了子,他发布了面向Agent开发的新接口和工具。

image-20250313155118756

二、OpenAI反操作

经过文档分析,初步判断,这是一种在架构设计上,对MCP协议的反向设计

Anthropic的MCP是为Agent产品开发者服务的,而OpenAI的Agents SDK是为Agent业务开发者服务的。

image-20250313235746061

虽然我不认为,这套操作能真正将MCP协议斩落马下,但必须称赞,国外的顶级创业者,至少没有去干全盘复制蛮力绞杀的活,这可能也不太符合他们的创业价值观。

传统架构

我们来重新审视下Agent应用的架构。LLM扮演了内核角色,Agent扮演了控制角色。控制层由开发者设计和管理,LLM不会自己去决定该做什么。

image-20250313154540308

LLM API

所以,传统的LLM接口,你必须手动调用API,每次提供完整的上下文,并解析返回结果。例如,你想让AI帮你检查邮件内容是否包含关键字,你需要手动编写逻辑:

js
var response = openai.ChatCompletion.create(
    model="gpt-4",
    messages=[{"role": "user", "content": "这封邮件里是否包含‘付款’这个关键词?"}]
)

然后你再解析返回的内容,决定下一步操作。

这种通讯关系是以Agent为中心的

mermaid
graph 
Agent客户端-->LLM

新架构

OpenAI的新方案是以AI为中心

mermaid
graph 
LLM-->Agent客户端

接口变成了这种风格,不是对话业务,而是任务任务

js
//只是模拟≠实际api
agent.run_task("email检查", {
    "email": "zhao@mandaren.com",
    "successbackAction": "来自公司的所有客服邮件都自动处理了哦,没有异常",
    "fallbackAction": "有客户联系不上,请求人工处理!"
})

显然,你需要配置一个属于你、但由OpenAI维护的AI代理,它可以自动读取你的邮件,判断是否需要提醒你,并采取行动,比如自动分类、回复或标记重要信息,而不是每次都需要人工对话来输入指令。

调度层下移

本质上,是Agent控制角色的生态位,丧失了独立性。

本来扮演应用级别的客户端形态的Agent,以逻辑形态移入了ChatGPT平台内部。甚至用户的操作入口,也直接用ChatGPT家的。

image-20250313162633272

二、演化方向

但注意啊,从以Agent为中心以LLM为中心,是颠覆性,还是破坏性,值得分方向探讨。

上下文黑箱

当LLM不是专注于大脑的职责,而是越过推理角色,泛化管理到Agent层的设计逻辑。外围即便允许开发者实现一个Agent客户端,也只是纯壳,因为上下文的数据被黑箱维护在ChatGPT平台内部。

  • 如果你是一个Agent操作系统,基础能力下沉是没有问题的。
  • 但如果只是做一个自动化平台,绝对是不符合架构原则的,这种性质相当于古代的集权统治,因为我是皇帝,所以率土之滨,莫非王土。

所以,未来的演化趋势有二:

  • OpenAI真的计划走业务路线,书写微信公众号当年的神话。 (不看好,必败于MCP协议)

  • OpenAI只是虚晃一枪,其终极目的是研发Agent操作系统。 (这才是未来!)

1、公众号路线

如果走微信公众号的定位路线。

架构图

更完整的架构关系图应该是这样

image-20250313163139460

核心优势

ChatGPT的操作也具有极大的过渡价值,尤其是小微公司和个人用户:

  • 成本:门槛进一步降低了,你不需要去关心通用的壳开发、运维、底层MCP服务的选择、边界适配,如果你愿意使用OpenAI的Agent客户端来充当用户入口,那么你只需要配置Agent的业务逻辑,可能实现三行代码接入ChatGPT。(这是当年微信输出的核心价值)
  • 政策:今天,中国的创业者如果需要在自己的App中接入ChatGPT、Claude等国外模型的话,是要备案审查的,所以大伙只能死命的围绕DeepSeek转悠。由于客户端、服务器、账户信息都由OpenAI接管,Client-server通讯相当于业务上的内网通讯。你可以完美绕过各审查国的应用备案等等一系列的流程,因为这玩意是以逻辑形态存在的。

不得不说,OpenAI找到了一条很宽广的路。

但对于OpenAI公司 pk Anthropic公司的宿命之战,我们依然不看好。我们心目中的OpenAI应该符合Open这个词,去深度探索技术的极限,而不是上浮求索业务的极限。

这样的云平台,可能符合社会现状和相当多的业务用户需要,但最大的问题,不符合开发者生态的产品自由度需要。当上下文成了LLM黑箱维护,外围的很多努力将失去意义,比如OpenCtx倡导的上下文共享,完全无从谈起呀。微信的确曾经造就了高达3000万的公众号账号,但当价值弱化之后,整个生态也迅速塌方。

如果沿着这个方向走下去,OpenAI将变得大而不强,反而印证了当年Dario Amodei不满过早商业化出走创立Anthropic的正确性。

2、Agent操作系统

希望OpenAI选择的是第二条路,继续曾经的初心,那么谁输谁赢尚未可知。

架构区别在哪呢:

  • 上不能管理agent逻辑
  • 下当与LLM无关

image-20250313193512334