Token和上下文窗口
欢迎来到以DeepSeek以代表的AI世界,我是doc-war.com的青樵,一个技术主义者。
知行合一,继续用DeepSeek写DeepSeek教程。
推荐提问
- 请详细介绍下RAG(Retrieval-Augmented Generation,检索增强生成)
- 请详细解读下TAGflow这个平台,并阐述其最大的挑战
一、Token
在RAG概念篇,我们提到了RAGflow这类方案的宿命诅咒。
——比如一本1000页的图书,你需要切成5000个碎片粒度来存储,怎么切本身就是对人的巨大要求,更何况工作量。基于第一性原理,最佳的解决方案是:用AI来实现RAG,最终反过来解决AI的问题。
那问题来了,你作为DeepSeek的产品经理,如果你要支持把一本一千页的图书整本吞噬,你是不是首先得向工程师团队要求能容纳巨量的模型处理基元。
如果一次对话的大厅只能容纳100人,你没法开1万人的大会。
也就是人们常说的token——或者你也可以粗暴理解成关键词吧。
二、军备竞赛局面
上下文窗口大小,是AI竞赛的其中一个观察面。
各家大模型产品在不断地对上下文窗口持续加码。以下是AI罗列的各家成长史。
ChatGPT(OpenAI)
- GPT-3(2020):4K tokens
- GPT-4(2023):8K tokens
- GPT-4-turbo(2023年11月):128K tokens
Claude(Anthropic)
- Claude 1(2023):100K tokens
- Claude 2(2023年7月):100K tokens
- Claude 3(2024年3月):200K tokens (20万)
DeepSeek
- DeepSeek R1:128K tokens
- DeepSeek V3:128K tokens
Grok(xAI,Elon Musk)
- Grok-1(2023年11月):8K tokens
- Grok-1.5(2024年3月):128K tokens
- Grok-3 : **1M(100万)tokens **
Gemini(Google DeepMind)
- Gemini 1.0(2023年12月):32K tokens
- Gemini 1.5(2024年2月):1M(100万)tokens
显然,在这个维度上,最差的是DeepSeek,而走在最前头的是Google公司,最新的Gemini 2.0 Flash Thinking已经达到了2M tokens (200万)
三、MCP的挑战
可以预计,未来的上下文窗口,tokens容量可能高达千万。
在这种背景下,主打模型上下文协议的MCP,尽管客户端只需要维护少量和增量部分的上下文,是否也可能在某些场景下遭遇天然的性能瓶颈之问。以及标准设计中对全量模式、增量模式等不同场景的适配问题。
而OpenCtx这样的跨模型共享协议,是否过于理想了?