-
潘禺:理解DeepSeek的中国式创新,要先回顾深度学习的历史
注意力机制与Transformer的诞生
如果说CNN和RNN各司其职,那么2017年的Transformer则是一场彻底的革命。由Vaswani等人提出的Transformer,用“自注意力机制”取代了传统的RNN结构,实现了序列数据的并行处理。
什么是注意力机制?2014年,Bahdanau等人提出了注意力机制(Attention Mechanism),用于机器翻译任务。
这一机制的提出针对的是传统序列到序列(seq2seq)模型的不足,特别是在长序列输入的情况下,模型在生成翻译时往往难以有效捕捉到输入序列的关键信息。前面所说的RNN及其变体LSTM都可以被归类为传统的seq2seq模型。
在传统的seq2seq模型中,通常使用编码器-解码器结构,其中编码器将整个输入序列压缩成一个固定长度的上下文向量,这个向量随后被解码器用于生成输出序列。然而,编码器将所有信息映射到一个固定长度的向量,导致对长序列的信息压缩不足,使得模型在处理长文本时丧失了重要的上下文信息。此外,固定长度的上下文向量限制了模型的表达能力,导致性能下降。
Dzmitry Bahdanau
Bahdanau等人的注意力机制允许模型在解码时,根据当前生成的词动态地关注输入序列中的不同部分,这样就可以有效地捕捉到与输出相关的输入信息,而不是依赖于一个固定的上下文向量,从而提升了性能。注意力机制使得模型更容易捕捉长距离依赖关系,因为模型在每个时间步都可以选择关注距离较远的输入部分。
注意力机制的核心思想是为输入序列的每个元素分配一个权重,这些权重表示在生成输出时各元素的重要性。通过这种方式,模型可以在许多输入中判断出哪些是最相关的。
注意力机制的设计理念直接影响了后来的Transformer架构,使得Transformer能够利用注意力机制进行高效的序列处理。
2017年,Ashish Vaswani等人提出了Transformer模型,这一模型在自然语言处理(NLP)领域取得了革命性的进展。Transformer的提出,标志着从循环神经网络(RNN)到基于注意力机制的新一代序列处理架构的转变。其论文《Attention is All You Need》不仅明确了Transformer的结构和功能,还展现了如何利用注意力机制来取代传统的RNN结构。
Ashish Vaswani
在Transformer出现之前,自然语言处理中广泛使用的架构是基于RNN(如LSTM和GRU)的方法。RNN使用序列方式处理信息,这意味着模型一次只处理一个单词或一个时间步。这种方式效率较低,并且难以捕捉长距离词汇之间的关系。这就像在看一本书时,每次只能看一页,而无法快速把上下文全部整合起来。
尽管RNN能够有效处理序列数据,具有递归性质的网络结构在长序列任务时却存在一些问题。由于RNN的时间步依赖性,训练时必须依次处理输入序列,造成并行化处理的困难。此外,在从一个固定长度的上下文向量中提取信息时,RNN会损失许多关键信息。最后,尽管LSTM部分解决了梯度消失问题,但对于长距离依赖的捕捉仍然有限,特别在处理非常长的文本时表现不佳。
LSTM通过递归的方式处理序列数据,使用隐藏状态和细胞状态来捕捉时间上的依赖关系。它的每个输出都依赖于前一个时间步的状态。
Transformer使用自注意力机制并行处理输入序列,允许所有位置的输入在同一时间步内相互联系。该机制支持模型对所有输入位置的动态关注。
Transformer模型通过完全依赖自注意力机制解决了上述问题。Attention机制是Transformer的核心。它允许模型在处理单词时,根据上下文的其他单词的相关性动态调整关注点。具体来说,Attention可以回答这样一个问题:“在生成这个单词时,哪些其他单词我需要特别关注?”
Transformer就像是一个高效的团队,每位专家在开会时可以直接和其他所有专家讨论,快速解决问题,而不需要逐层传递消息。
每位专家就是输入序列中的一个词,例如,你有一句话:“The cat sat on the mat”。每个词可以看作一个专家,每位专家都关心自己和其他词的关系。自注意力机制使得模型能够根据输入的每个位置动态地关注其他位置的信息。在生成每个输出时,模型会计算与所有输入位置的相关性,从而选择性地聚焦在相关信息上。
通过并行计算多个自注意力机制,Transformer能够在不同的子空间中学习信息。就像每位专家可以从多个角度分析问题。例如,一个头关注语法结构,另一个头关注语义关联,最终结合所有角度得出更完整的结论。这种多角度思考就是多头注意力(Multi-Head Attention)。
每位专家会根据问题的重要性计算一个“交流表”,这个表告诉他们应该重点关注哪些同事。例如,“on”可能需要重点听取“sat”和“mat”的信息,而不需要过多关注“the”。如果说交流表就是Attention,那么同时讨论就是并行处理,所有专家可以同时查看“交流表”,并综合其他人的意见,更新自己的理解。这种并行讨论比传统的逐个传递信息(如 RNN)更快。为了避免开会讨论变得混乱,每次更新专家意见时,都要保留原始信息,并对数据进行标准化处理。
理解了多头注意力(Multi-Head Attention),就能理解被称道的中国大模型创业公司DeepSeek,在模型架构上进行的深度创新是什么。DeepSeek推出了一种新的多头潜在注意力(MLA)机制,与传统的多头注意力(MHA)架构相比,其显存占用了过去最常用的MHA架构的5%-13%。
在MHA中,输入被映射为查询(Query)、键(Key)和值(Value),然后通过计算这些向量之间的相似性来生成注意力权重,最终通过加权求和获得输出。这种机制的优点在于能够捕捉输入数据中的局部和全局信息,但其缺点在于对显存和计算资源的需求较高。
而MLA架构引入了一个潜在化的概念,意味着它在处理输入信息时会利用一些更高效的计算方式以减少资源占用。在这个架构中,有效的对输入进行一定的预处理,从而在生成查询、键和值时减少了相关的数据量。MLA架构还在分配注意力时采用了一种更灵活的方式,使得在处理不同输入时,系统能够更加智能地选择关注的特征,而不是一味地产生多个头部的注意力。这种动态选择能力不仅可以优化计算资源的使用,同时也提升了模型的性能。
此外,通过对输入信息进行选择性地压缩和简化,MLA能够显著减少需要存储和计算的维度,也就是减少了参数的数量,使得模型能够在保留信息的前提下大幅降低对显存的需求。
没有终点的深度学习探险
以自注意力机制为核心思想的Transformer,在深度学习历史上有着革命性的地位。
Transformer模型相较于传统RNN具有显著的优势,因为Transformer模型不再依赖于时间序列的递归结构,而是使用矩阵运算实现自注意力,高效的并行计算可以在训练时大幅提高计算效率。通过自注意力机制,Transformer可以直接关注输入序列的任意部分,从而显著增强了模型对长距离依赖关系的建模能力。
从上述介绍中不难理解,Transformer架构天然适合处理语言任务。Transformer的提出迅速改变了NLP领域的格局,催生了一系列新型模型。GPT(Generative Pre-trained Transformer)就是一系列基于Transformer架构的生成式预训练模型,专门用于自然语言处理(NLP)任务。
GPT具体使用Transformer中的解码器部分。其主要由多层自注意力机制和前馈神经网络组成,强调的是生成能力,适用于文本生成、对话系统和其他自然语言生成任务。GPT的输入是上下文文本,输出则是生成的下一个Token(单词或字符),通过逐步生成文本来实现完整的文本。
GPT采用了预训练的方式,使用大量未标记文本进行训练,以捕捉语言的基本特性和结构。这一过程使得模型能够理解语言特征,对计算机生成语言能力的提升至关重要。在特定任务上,GPT通常会在预训练之后进行微调,使之在特定NLP任务(如文本分类、问答、对话生成等)中表现更好。微调依赖于特定任务的标记数据,确保模型能够适应新的应用场景。
从感知机到Transformer,深度学习的每一步都在不断突破技术极限。如今,得益于GPU的进步和大规模数据集(如ImageNet)的支持,深度学习已经从实验室走向现实世界。尽管我们已经看到了深度学习的巨大潜力,但它的未来依然充满挑战与可能。或许,下一个改变世界的创新,就在这条探险之路上等待着被发现。
本文系观察者网独家稿件,文章内容纯属作者个人观点,不代表平台观点,未经授权,不得转载,否则将追究法律责任。关注观察者网微信guanchacn,每日阅读趣味文章。
标签 心智观察所- 原标题:理解DeepSeek的中国式创新,要先回顾深度学习的历史 本文仅代表作者个人观点。
- 责任编辑: 李昊 
-
探索宇宙线起源之谜再添“观天”利器
2025-01-21 20:09 天文 -
最大载重1.9吨,国产大型无人机首次实现量产交付
2025-01-20 22:12 中国精造 -
我国成功发射云遥一号37~40星等5颗卫星
2025-01-20 21:59 航空航天 -
新跨越!中国“人造太阳”创造“亿度千秒”世界纪录
2025-01-20 21:26 能源战略 -
“画地为牢,作茧自缚”,这八个字将在美国身上应验
2025-01-20 08:24 心智观察所 -
英伟达,只是时代的偶然?
2025-01-16 09:36 人工智能 -
全球唯一!中国率先将美国学者设想变为现实
2025-01-16 09:28 科技前沿 -
全国首例!跨市自动驾驶公交来了
2025-01-14 19:49 -
我国建立世界第一套微波亮温度国家计量基准
2025-01-13 15:38 科技前沿 -
2025开年大戏:马斯克扬言奋不顾身一战的背后
2025-01-09 08:13 心智观察所 -
国内首次!这一技术应用于管道研究,测试完成
2025-01-06 17:40 科技前沿 -
公众对低空经济的认知度仍不高,如何解决?
2025-01-06 08:42 心智观察所 -
我国脑机接口技术实现汉语实时编解码重大突破
2025-01-06 07:57 科技前沿 -
研制成功!我国这一关键技术实现重大突破
2024-12-30 14:59 中国精造 -
华为:悬赏300万元
2024-12-30 10:08 华为 -
我国新一代智能高铁有望2027年落地
2024-12-30 09:02 高铁世纪 -
“量子”狼不再吓崩比特币
2024-12-30 08:24 心智观察所 -
又添一大国利器!“探索三号”正式入列
2024-12-29 10:44 中国精造 -
我国首次实现!又一重大突破
2024-12-28 21:08 航空航天 -
嫦娥五号月球样品向公众开放!
2024-12-28 16:12 航空航天
相关推荐 -
比较见真章,美国车主心态崩了:怎么中国啥啥都有… 评论 48特朗普称“克里米亚归俄罗斯”,泽连斯基回应 评论 247NASA资助的高校借到月壤,美国尴尬不? 评论 172“美方高估了自己,以为中国很急…” 评论 151“美企库存只够用60天,要是中国还不批准…” 评论 177最新闻 Hot