Skip to content

LLM-大模型

欢迎来到以DeepSeek以代表的AI世界,我是doc-war.com的越石父,一个技术主义者。

知行合一,继续用DeepSeek写DeepSeek教程。

推荐提问

  • ChatGPT、DeepSeek这样的产品,为什么被叫大模型,是什么逻辑讲究?

一、概念

接下来直接看解读。

LLM简称大模型,全称是Large Language Model(大自然语言模型)

二、自然语言模型

指专门用于理解、生成或操作自然语言的人工智能模型。其核心任务是让计算机像人类一样处理语言。它用人类的方式交流——你问它问题,它用你能理解的话回答,而非机械的输出代码或数学公式。

三、大模型

参数量巨大!

大语言模型的参数通常在十亿(Billion)到万亿(Trillion)级别。例如:

  • GPT-3:1750亿参数
  • GPT-4:推测约1.8万亿参数
  • DeepSeek:671亿参数

未来参数规模会进一步扩大。

意义:参数越多,模型能捕捉的语言规律越复杂,处理任务的泛化能力越强。所以,“大模型”的命名直指其核心特征——规模驱动能力。因此,他几乎没有可能向传统技术世界那样摆脱算力影响,效率能提升,但终究不会小。

而在ChatGPT之前之前,以前的小模型一般才百万、千万级别参数。大多数企业使用微调后的中小模型解决具体问题(如客服分类),价值场景局限。但没办法,训练和部署、推理大模型需要巨额算力,中小企业难以承担,所以这是一个巨头游戏。