神经网络是一种信息处理方式,可以模仿生物神经系统,如人类大脑中的连接。AI 便是如此在看似不相关的信息集之间建立联系。神经网络概念与深度学习密切相关。
深度学习模型如何使用神经网络概念来连接数据点?我们从人类大脑的工作方式说起。人类大脑中有很多相互连接的神经元,当大脑处理传入的数据时,这些神经元就会负责传递信息。神经元之间通过电信号和化学物质相互作用,并在大脑的不同区域之间传递信息。
人工神经网络(ANN)使用的是人工神经元而不是生物神经元,这些人工神经元是由称为节点的软件模块构成的。这些节点使用数值计算(而不是大脑中的化学信号)来进行通信和传递信息。模拟神经网络(SNN)通过聚类数据点进行预测的方式来处理数据。
不同的神经网络技术适用于不同类型的数据。递归神经网络(RNN)是一种使用顺序数据的模型,例如通过按顺序学习词语来处理语言。
Transformer 是一种基于 RNN 理念而打造的特定的神经网络架构,能够更快地处理语言。Transformer 能够学习句子中不同词语的关系,与按顺序摄取各个词语的 RNN 相比,这个过程的效率更高。
大型语言模型(LLM)
是一种通过将 Transformers 应用于大量广义数据集来进行训练的深度学习模型。LLM 可为许多流行的 AI 聊天和文本工具提供支持。
另外,一种称为扩散模型的深度学习技术已证明非常适合图像生成。扩散模型能够学习将自然图像转化为模糊视觉噪声的过程。然后,图像生成工具将这个过程颠倒过来,从随机噪声模式开始,对其进行细调,直到它变得如同真实照片一般。
深度学习模型可以用参数来描述。如果有一个简单的信用评估模型,该模型使用了来自贷款申请表格的 10 个输入特征进行训练,那么这个模型将有 10 个参数。相比之下,一个 LLM 可具有数十亿个参数。OpenAI 的 Generative Pre-trained Transformer 4(GPT-4)是为 ChatGPT 提供支持的基础模型之一,
据说
它具有 1 万亿个参数。