LLM-大模型
欢迎来到以DeepSeek以代表的AI世界,我是doc-war.com的越石父,一个技术主义者。
知行合一,继续用DeepSeek写DeepSeek教程。
推荐提问
- ChatGPT、DeepSeek这样的产品,为什么被叫大模型,是什么逻辑讲究?
一、概念
接下来直接看解读。
LLM简称大模型,全称是Large Language Model(大自然语言模型)。
二、自然语言模型
指专门用于理解、生成或操作自然语言的人工智能模型。其核心任务是让计算机像人类一样处理语言。它用人类的方式交流——你问它问题,它用你能理解的话回答,而非机械的输出代码或数学公式。
三、大模型
参数量巨大!
大语言模型的参数通常在十亿(Billion)到万亿(Trillion)级别。例如:
- GPT-3:1750亿参数
- GPT-4:推测约1.8万亿参数
- DeepSeek:671亿参数
未来参数规模会进一步扩大。
意义:参数越多,模型能捕捉的语言规律越复杂,处理任务的泛化能力越强。所以,“大模型”的命名直指其核心特征——规模驱动能力。因此,他几乎没有可能向传统技术世界那样摆脱算力影响,效率能提升,但终究不会小。
而在ChatGPT之前之前,以前的小模型一般才百万、千万级别参数。大多数企业使用微调后的中小模型解决具体问题(如客服分类),价值场景局限。但没办法,训练和部署、推理大模型需要巨额算力,中小企业难以承担,所以这是一个巨头游戏。