大型语言模型是如何工作的

大型语言模型是如何工作的

Barry Lv6

我希望它是这样向我解释的,生成性人工智能背后的技术!

GPT (生成预训练变换器)BERT (双向编码器表示变换器) 是可以生成类似人类文本的大型语言模型 (LLMs)。

这就是为什么审视影响这一切的工作至关重要,即 变换器,这项革命性技术改变了我们与人工智能互动的方式。如果你还没有阅读,赶快去阅读。👈🏻

今天,我们将理解:

  1. 什么是 LLM?
  2. 它是如何工作的?
  3. 它的商业应用。

那么,让我们从第一点开始,

什么是大型语言模型?

好吧,LLM 是另一种被称为 基础模型 的实例。

基础模型是庞大的神经网络架构,经过大量未标记和自我监督数据的预训练,这意味着模型通过数据中的模式学习,以产生可泛化和适应的输出。

大型语言模型是专门应用于文本及类似文本(如文章、诗歌、代码等)的基础模型实例。

现在,LLM 在大量文本数据集上进行训练,例如书籍、文章和一堆公开可用的来源。顾名思义,“大型”即指其大小为数十GB(参数),并且在巨量文本数据上进行训练(我们这里讨论的确实可能是PB级的数据)。

一个PB有多少GB?

好吧,大约是100万。

为了让你更好地理解,一个大小为1GB的文本文件大约可以存储1.78亿个标记。是的,这确实是很多文本。更不用说,LLM在参数数量方面也是最大的模型之一。

什么是参数?

权重和偏差的值,这些值在模型学习的过程中通过反向传播独立变化。参数越多,模型的复杂性就越高。

GPT-3 (这里的3表示这是第三代) 是一种自回归语言模型,生成的文本看起来像是人类写的。例如,它在实际的45TB数据语料库上进行了预训练,并使用了1750亿个ML参数

有趣吧!

好了,现在来谈谈关于,

它们是如何工作的?

我们可以这样理解 LLM 等于三个部分,即 LLM 的组成部分:数据、架构和训练

现在我们已经讨论了训练这些模型所需的大量文本数据。

至于架构,对于 GPT-3:这是一个 仅解码器的变换器,由 96 个注意力块组成,每个块包含 96 个注意力头(掩蔽多重自注意力)和用于处理数据序列(如句子或代码行)的前馈神经网络层。

变换器旨在通过考虑句子中每个单词与其他单词的关系来理解每个单词的上下文视角。

这使得模型能够建立对句子结构的全面理解,并捕捉单词在其中的上下文含义。

然后,这种架构在大量数据上进行训练。在训练过程中,模型学习预测句子中的下一个单词。

您可以参考我之前的文章,了解 自注意力网络 以理解 LLM 背后的直觉。

例如,

苹果是……

它以随机猜测开始,也许是“苹果是紫色的”。

但随着每次迭代,模型调整其权重和偏差,以减少其预测与实际结果之间的差异,逐渐改善其单词预测,直到它能够可靠地生成连贯的句子。

忘记“紫色”,学习它是“红色”。

此外,模型可以根据您的任务在更小和更具体的数据集上进行微调,以生成更具体和准确的结果。

微调 使通用语言模型能够根据用例和训练数据集在任何特定任务上成为专家。

好的,让我们理解一下,

这些内容如何与第3点,即商业应用相结合?

通常,对于客户服务应用,企业可以使用LLMs创建聊天机器人,以处理客户的24*7查询,从而使人工客服能够关注更复杂的问题。

注意:为了提高客户满意度,聊天机器人应以类似人类的互动语气进行回应,针对他们独特的需求,而不是以机械的语气。

另一个好的领域就是内容创作,可以利用LLMs生成社交媒体帖子、视频或短片等的脚本和标题,从中获益。

此外,LLMs还通过生成和审查代码,甚至进行头脑风暴,促进软件开发和数据分析等技术的发展。

如今,随着LLMs的不断发展,我们可以在内容审核、信息检索等更具创新性的应用中发现它们。

这就是为什么全世界对LLMs如此疯狂的原因。

在你离开之前……如果你喜欢这次深入探讨, 关注我,以便不错过未来的更新。

拍手50次并分享你的想法,如果你想看到特定内容或希望被倾听。 👇

就这些了。我们很快再聊! 🙋🏻‍♀️

Nikita Prasad

以简单英语表达 🚀

感谢您成为以简单英语表达社区的一部分!在您离开之前:

  • 标题: 大型语言模型是如何工作的
  • 作者: Barry
  • 创建于 : 2024-07-19 03:14:47
  • 更新于 : 2024-08-31 06:59:45
  • 链接: https://wx.role.fun/2024/07/19/11dd95fd21d44c4fa5ecc3d788343e6a/
  • 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。