Skip to content

Token和上下文窗口

欢迎来到以DeepSeek以代表的AI世界,我是doc-war.com的青樵,一个技术主义者。

知行合一,继续用DeepSeek写DeepSeek教程。

推荐提问

  • 请详细介绍下RAG(Retrieval-Augmented Generation,检索增强生成)
  • 请详细解读下TAGflow这个平台,并阐述其最大的挑战

一、Token

在RAG概念篇,我们提到了RAGflow这类方案的宿命诅咒。

——比如一本1000页的图书,你需要切成5000个碎片粒度来存储,怎么切本身就是对人的巨大要求,更何况工作量。基于第一性原理,最佳的解决方案是:用AI来实现RAG,最终反过来解决AI的问题

那问题来了,你作为DeepSeek的产品经理,如果你要支持把一本一千页的图书整本吞噬,你是不是首先得向工程师团队要求能容纳巨量的模型处理基元。

如果一次对话的大厅只能容纳100人,你没法开1万人的大会。

也就是人们常说的token——或者你也可以粗暴理解成关键词吧。

二、军备竞赛局面

上下文窗口大小,是AI竞赛的其中一个观察面。

image-20250313130341272

各家大模型产品在不断地对上下文窗口持续加码。以下是AI罗列的各家成长史。

ChatGPT(OpenAI)

  • GPT-3(2020):4K tokens
  • GPT-4(2023):8K tokens
  • GPT-4-turbo(2023年11月):128K tokens

Claude(Anthropic)

  • Claude 1(2023):100K tokens
  • Claude 2(2023年7月):100K tokens
  • Claude 3(2024年3月):200K tokens (20万)

DeepSeek

  • DeepSeek R1128K tokens
  • DeepSeek V3128K tokens

Grok(xAI,Elon Musk)

  • Grok-1(2023年11月):8K tokens
  • Grok-1.5(2024年3月):128K tokens
  • Grok-3 : **1M(100万)tokens **

Gemini(Google DeepMind)

  • Gemini 1.0(2023年12月):32K tokens
  • Gemini 1.5(2024年2月):1M(100万)tokens

显然,在这个维度上,最差的是DeepSeek,而走在最前头的是Google公司,最新的Gemini 2.0 Flash Thinking已经达到了2M tokens (200万)

三、MCP的挑战

可以预计,未来的上下文窗口,tokens容量可能高达千万。

在这种背景下,主打模型上下文协议的MCP,尽管客户端只需要维护少量和增量部分的上下文,是否也可能在某些场景下遭遇天然的性能瓶颈之问。以及标准设计中对全量模式、增量模式等不同场景的适配问题。

而OpenCtx这样的跨模型共享协议,是否过于理想了?