avatar
文章
15
标签
8
分类
0
首页
归档
标签
分类
音乐
电影
留言板
友链
关于
Relativity suis's Blog
首页
归档
标签
分类
音乐
电影
留言板
友链
关于

Relativity suis's Blog

KV cache
发表于2025-01-03
KV cache参考链接: https://zhuanlan.zhihu.com/p/662498827 https://www.zte.com.cn/content/dam/zte-site/res-www-zte-com-cn/mediares/magazine/publication/com_cn/article/202402/12.pdf https://mett29.github.io/posts/kv-cache/ https://r4j4n.github.io/blogs/posts/kv/ 摘要KV cache 是 Transformer 标配的推理加速功能,只能用于 Decoder 架构的模型,由于其自回归的特性,推理时前面已经生成的字符不需要与后面的字符产生 attention(从而使得前面已经计算的 K 和 V 可以缓存起来);模型每次推理时只会预测输出一个 token,执行多次后完成全部输出,(由于模型的自回归性质,模型的输出也会作为后续生成的输入)而相邻前后两次输入只相差一个 token,这就导致出现了大量计算的重复(输入序列线性变换时)。而 KV...
COSTAR
发表于2025-01-03
Learning Prompt Pt.2参考链接:https://www.jiqizhixin.com/articles/2024-05-14-4 Learning Prompt Pt.1:Learning Prompt | Relativity suis’s Blog 使用 CO-STAR 框架来搭建 prompt 的结构清晰明确的 Prompt 内容和结构化的 Prompt 框架对 LLM 生成更高质量内容具有重要作用,而这次要说的就是结构化框架的问题,CO-STAR框架,其工作方式为: (C) 上下文(Context):提供与任务有关的背景信息。这有助于 LLM 理解正在讨论的具体场景,从而确保其响应是相关的。 (O) 目标(Objective):定义你希望 LLM 执行的任务。明晰目标有助于 LLM 将自己响应重点放在完成具体任务上。 (S) 风格(Style):指定你希望 LLM 使用的写作风格。这可能是一位具体名人的写作风格,也可以是某种职业专家(比如商业分析师或 CEO)的风格。这能引导 LLM 使用符合你需求的方式和词语给出响应。 (T)...
Learning Prompt
发表于2024-12-31
Learning Prompt🥰参考链接:https://datawhalechina.github.io/llm-cookbook/ 提示原则设计高效 Prompt 的两个关键原则:编写清晰、具体的指令和让模型思考 编写清晰、具体的指令🤓在使用 LLM 解决较为复杂的问题时,我们通常需要 清晰而具体 地表达我们的需求,我们需要把意图、背景等讲得很明确,最好不要有歧义或者有缺漏。 面对提示词(Prompt)中可能的部分信息缺失的情况,LLM 可能会自己假设一些情况或者忽略 / 简化一些情况,导致其输出并不能满足我们的期望 因此,在提供 Prompt 的时候,我们也要以足够详细和容易理解的方式,把需求与上下文说清楚。所以也并不是说 Prompt 就必须非常短小简洁;事实上,在许多情况下,更长、更复杂的 Prompt 反而会让 LLM 更容易抓住关键点,给出符合预期的回复,原因在于,复杂的 Prompt 提供了更丰富的上下文和细节,让模型可以更准确地把握所需的操作和响应方式。 使用分隔符清晰化输入的不同部分分隔符就像是 Prompt...
Yorushika
发表于2024-12-31
年度歌单! suis is all you need🥰
Language Model Overview
发表于2024-12-28
关于 Language Model 的综述报告1. 语言模型语言模型(Language Model, LM)是用于建模自然语言的概率模型,简单来说,其任务就是评估一个给定的词序列(即一个句子)在真实世界中出现的概率,或者说,对于任意的词序列,这个模型能够计算出这个序列是一句话的概率。 给定一个词表 $V$,LM 应当能计算出任意单词序列 $w_1, w_2, …, w_n$ 是一句话的概率 p(w_1, w_2, ..., w_n)而该公式也可以写成 \begin{align} p(w_1, w_2, ..., w_n) &= p(w_1) \cdot p(w_2|w_1) \cdot p(w_3|w_1,w_2) ... p(w_n|w_2,...,w_{n-1}) \\ &= p(w_1) \prod_{i=2}^{n} p(w_i|w_1, ..., w_{i-1}) \end{align}如果模型能够有效地计算每一个 p(w_i|w_1, ...,...
12
avatar
Relativity suis
文章
15
标签
8
分类
0
Github
公告
Blog 积极更新中!
最新文章
emnlp2024论文研读-参数高效稀疏化2025-01-14
学习 Transformer 的初始化、参数化与标准化2025-01-09
LoRA 及其论文研读2025-01-08
MoE 论文研读2025-01-08
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer 论文研读2025-01-07
标签
prompt Transformer MoE music emnlp2024 attention Language Model LLM
归档
  • 一月 2025 12
  • 十二月 2024 3
网站信息
文章数目 :
15
本站访客数 :
本站总浏览量 :
最后更新时间 :
©2019 - 2025 By Relativity suis
框架 Hexo|主题 Butterfly
"Suis is all you need"