avatar
文章
15
标签
8
分类
0
首页
归档
标签
分类
音乐
电影
留言板
友链
关于
Relativity suis's Blog
首页
归档
标签
分类
音乐
电影
留言板
友链
关于

Relativity suis's Blog

emnlp2024论文研读-参数高效稀疏化
发表于2025-01-14
EMNLP2024 论文研读 - 参数高效稀疏化论文:Parameter-Efficient Sparsity Crafting from Dense to Mixture-of-Experts for Instruction Tuning on General Tasks 摘要 Large language models (LLMs) have demon-strated considerable proficiency in general natural language processing(NLP) tasks. Instruc-tion tuning, a successful paradigm, enhances the ability of LLMs to follow natural language instructions and exhibit robust generalization across general tasks. However, these models often encounter performance limitations...
学习 Transformer 的初始化、参数化与标准化
发表于2025-01-09
尝试学习苏神的文章:https://kexue.fm/archives/8620 并做一些记录: 采样分布🤔模型的初始化是随机采样的,一般情况下我们都是从指定均值 $\mu$ 和方差 $\sigma^2$ 的随机分布中进行采样来初始化,其中常用的随机分布有三个:正态分布,均匀分布,截尾正态分布(Truncated Normal)。 其中正态分布通常记为 $\mathcal{N}(\mu, \sigma^2)$;区间 $[a,b]$ 上的均匀分布一般记为 $U[a,b]$,其均值为 $\frac{a+b}{2}$,方差为 $\frac{(b-a)^2}{12}$,所以如果指定 $u$ 和 $\sigma^2$ 的话,对应的均匀分布为 $U[\mu-\sqrt{3}\sigma,\mu+\sqrt{3}\sigma]$。 一般来说正态分布的采样结果更多样化一些,但理论上他是无界的,如果采样到绝对值过大的结果可能不利于优化;而均匀分布是有界的,但是采样结果更单一。结合两者优点即可得到 截尾正态分布,他从 $\mathcal{N}(\mu, \sigma^2)$...
LoRA 及其论文研读
发表于2025-01-08
参考链接: https://martinlwx.github.io/zh-cn/lora-finetuning/ https://github.com/huggingface/peft 论文链接: https://arxiv.org/abs/2106.09685 论文研读:LoRA: Low-Rank Adaptation of Large Language ModelsAbstract An important paradigm of natural language processing consists of large-scale pretraining on general domain data and adaptation to particular tasks or domains. As we pretrain larger models, full fine-tuning, which retrains all model parameters, becomes less feasible. Using GPT-3 175B as an example –...
MoE 论文研读
发表于2025-01-08
前两篇基础且经典的 MoE 工作可见: Adaptive Mixtures of Local Experts 论文研读 | Relativity suis’s Blog Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文研读 | Relativity suis’s Blog GShard: Scaling Giant Models with Conditional Computation and Automatic ShardingModelSparse scaling of the Transformer architecture首先简单回顾 Transformer 结构: Transformer 编码器层由两个连续的层组成,即自注意力层和逐位置前馈层。解码器在此基础上增加了第三个交叉注意力层,该层会对编码器的输出进行关注。 作者通过条件计算对 Transformer...
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文研读
发表于2025-01-07
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文研读论文链接:https://arxiv.org/abs/1701.06538 参考链接:https://zhuanlan.zhihu.com/p/542465517 Abstract The capacity of a neural network to absorb information is limited by its number of parameters. Conditional computation, where parts of the network are active on a per-example basis, has been proposed in theory as a way of dramatically increas-ing model capacity without a proportional increase in computation. In...
Adaptive Mixtures of Local Experts 论文研读
发表于2025-01-07
Adaptive Mixtures of Local Experts 论文研读论文链接:https://people.engr.tamu.edu/rgutier/web_courses/cpsc636_s10/jacobs1991moe.pdf 参考链接:https://zhuanlan.zhihu.com/p/423447025 Abstract We present a new supervised learning procedure for systems composed of many separate networks, each of which learns to handle a subset of the complete set of training cases. The new procedure can be viewed either as a modular version of a multilayer supervised network, or as an associative version of competitive...
RoPE
发表于2025-01-06
Rotary Position Embedding(RoPE) 是一种用于Transformer模型的位置信息编码方法,其核心思想是通过旋转操作将位置信息嵌入到查询(Query)和键(Key)向量中。这种方法不仅保留了相对位置信息的表达能力,还能与自注意力机制无缝集成,提升模型处理长序列的能力。本文将详细介绍RoPE的旋转机制,结合数学公式深入解析其工作原理。 1. 背景:位置编码在Transformer中的作用Transformer模型依赖自注意力机制来捕捉序列中元素之间的依赖关系。然而,自注意力机制本身不具备处理序列顺序的能力,因此需要通过位置编码来向模型提供位置信息。传统的位置编码方法,如绝对位置编码和相对位置编码,分别通过添加或修改嵌入向量来引入位置信息。RoPE则通过旋转操作,将位置信息直接嵌入到查询和键向量的几何结构中。 2. Rotary Position...
RMSNorm
发表于2025-01-05
RMSNorm——with the help of o1 mini RMSNorm(Root Mean Square Normalization) 是一种归一化技术,主要用于深度神经网络中以稳定训练过程和加速收敛。它是对标准归一化方法(如Layer Normalization和Batch Normalization)的改进和变体。本文将详细介绍RMSNorm的定义、工作原理、与其他归一化方法的区别及其优缺点。 1. 归一化技术概述在深度学习中,归一化技术用于调整神经网络中各层的激活值,以解决训练过程中的梯度消失或爆炸问题,加速收敛,并提高模型的泛化能力。常见的归一化方法包括: Batch Normalization (BatchNorm) Layer Normalization (LayerNorm) Instance Normalization Group Normalization RMSNorm 2. 什么是RMSNorm?RMSNorm 是由 Brock et al. 在其论文中提出的一种归一化方法,旨在简化 LayerNorm...
Understanding from seq2seq to attention
发表于2025-01-04
笔记部分内容与图片来自书《深度学习进阶:自然语言处理》——斋藤康毅(好书!😭) 相关论文:https://arxiv.org/abs/1409.0473v7 作者认为基本的编码器-解码器模型的一个潜在问题是,神经网络需要能够将源句子的所有必要信息压缩到一个固定长度的向量中,这可能会使神经网络难以处理长句,尤其是那些比训练语料库中的句子更长的句子。 为了应对这个问题,作者提出了一种扩展的编码器-解码器模型,该模型学习了如何联合对齐和翻译,每次建议的模型生成一个翻译单词时,它都会在源句子中搜索一组位置,其中包含最相关的信息,然后,该模型根据与这些源位置相关联的上下文向量以及所有先前生成的目标词来预测目标词。 解码器在生成每个目标语言词汇时都会计算一个软注意力分布,用于决定哪些源语言词汇应该被关注,这个软注意力分布是通过一个基于RNN隐藏状态( $h$ )和上下文向量(笔记中记作 $c$...
Understanding from attention to self-attention
发表于2025-01-04
前情提要🤓:在NLP领域早期引入注意力机制的是论文Neural Machine Translation by Jointly Learning to Align and Translate,通过引入对齐这一思想,将软注意力(通过应用注意力权重)机制添加到解码器中,使文本翻译能够更好地在源语言和目标语言上对齐,从而提高翻译性能。 传统注意力机制首先对于这个 Seq2Seq 模型,其编码器解码器都基于RNN,将注意力添加在解码器时,它接受 $t$ 时间步的RNN的隐藏层输出 $h_t$ 和所有编码器的隐藏层向量 $hs$ 使用目前最经常说的 $QKV$ 模式来说,$t$ 时间步的RNN的隐藏层输出 $h_t$ 就可以看做一个查询向量 $q$,它要去查询编码器向量中哪个向量与自己的相关性最高,那么 $q$ 要查询的对象就是 $hs$($K$) 通过计算得到注意力权重 $\alphan$ 后,再将 $hs$ 与 $\alpha_n$ 加权求和最终得到上下文向量 $c_t$(此时并没有用到 $V$,在键值对注意力中将 $(k{1…n},v{1…n})$...
12
avatar
Relativity suis
文章
15
标签
8
分类
0
Github
公告
Blog 积极更新中!
最新文章
emnlp2024论文研读-参数高效稀疏化2025-01-14
学习 Transformer 的初始化、参数化与标准化2025-01-09
LoRA 及其论文研读2025-01-08
MoE 论文研读2025-01-08
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文研读2025-01-07
标签
prompt Transformer MoE music emnlp2024 attention Language Model LLM
归档
  • 一月 2025 12
  • 十二月 2024 3
网站信息
文章数目 :
15
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2025 By Relativity suis
框架 Hexo|主题 Butterfly
"Suis is all you need"