LLM 使用一种被称为无监督学习的方法来理解语言。这个过程要向机器学习模型提供大规模的数据集,其中包含数百亿个单词和短语,供模型学习和模仿。这种无监督的预训练学习阶段是开发 LLM(如 GPT-3(Generative Pre-trained Transformer)和 BERT(Bidirectional Encoder Representations from Transformers)的基本步骤。
换言之,即使没有明确的人类指令,计算机也能从数据中提取信息,建立联系并“学习”语言。这称为
AI 推理
。模型通过学习语言中单词如何组合在一起的模式来理解语法和结构,之后,它就可以根据概率预测句子应采用的结构。最终就能形成一个能够捕捉单词和句子之间复杂关系的模型。
LMM 需要大量资源
由于 LLM 会不断计算来找到不同语言元素之间的联系,因此需要大量计算资源。它们获取计算能力的一大来源是图形处理单元(GPU)。GPU 是一种专门用于处理复杂并行处理任务的硬件,非常适合需要大量计算的机器学习和深度学习模型,如 LLM。
如果您资源有限,可以利用
LoRA 和 QLoRA
这两种高效节能的微调技术,它们可以帮助用户优化时间安排并合理利用计算资源。
LLM 和 Transformer
GPU 也有助于加速 Transformer 的训练和运行,Transformer 是一种专门为大多数 LLM 所实施的 NLP 任务设计的软件架构。Transformer 是流行的 LLM
基础模型
(如 ChatGPT 和 BERT)的基本构建块。
Transformer 架构通过有效捕捉数据序列中元素(如句子中的单词)之间的上下文关系和依赖关系,增强机器学习模型的能力。它通过使用自注意力机制(也称为参数)来实现这一点,使模型能够权衡序列中不同元素的重要性,从而加强其理解和性能。参数定义边界,而边界对于理解
深度学习
算法必须处理的大量数据至关重要。
Transformer 架构涉及数百万或数十亿个参数,这些参数使它能够捕捉复杂的语言模式和细微差别。事实上,“大语言模型”中的“大”字指的就是运行 LLM 所需的大量参数。
LLM 和深度学习
引导 LLM 无监督学习过程的 Transformer 和参数都是一个更宽泛的结构(称为“深度学习”)的组成部分。深度学习是用来训练计算机以模拟人脑的算法来处理数据的人工智能技术。深度学习技术也称为深度神经学习或深度神经网络,旨在让计算机通过观察来学习、模仿人类获取知识的方式。
人脑中有很多相互连接的神经元,当大脑处理信息(或数据)时,这些神经元就负责传递信息。神经元之间通过电信号和化学物质相互作用,并在大脑的不同区域之间传递信息。
人工神经网络(ANN)是模仿这种生物学现象而构成的,是深度学习所依托的底层架构,然而,ANN 使用的是人工神经元而不是生物神经元,这些人工神经元是由称为节点的软件模块构成的。这些节点使用数学计算(而不是大脑中的化学信号),在模型内进行通信和传递信息。
了解大型语言模型(LLM)的运作方式