文章
86
标签
50
分类
26
首页
归档
分类
书籍
Model The World
论文阅读五十六:DeepSeek-R1:通过强化学习激发LLMs的推理能力
搜索
首页
归档
分类
书籍
论文阅读五十六:DeepSeek-R1:通过强化学习激发LLMs的推理能力
发表于
2025-01-23
|
更新于
2025-01-23
|
浏览量:
文章作者:
Serge Wang
文章链接:
https://sergewang.github.io/2025/01/23/%E8%AE%BA%E6%96%87%E9%98%85%E8%AF%BB%E4%BA%94%E5%8D%81%E5%85%AD%EF%BC%9ADeepSeek-R1-%E9%80%9A%E8%BF%87%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E6%BF%80%E5%8F%91LLMs%E7%9A%84%E6%8E%A8%E7%90%86%E8%83%BD%E5%8A%9B/
版权声明:
本博客所有文章除特别声明外,均采用
CC BY-NC-SA 4.0
许可协议。转载请注明来源
Model The World
!
上一篇
量子信息处理中数学工具的基本概念和相互关系
在量子信息处理中,一系列核心的数学概念和工具构成了理解和分析量子系统行为的基础。这些工具不仅描述了量子态本身,还刻画了量子态如何被测量、如何通过量子信道传输,以及如何量化信息和可区分性。 以下是量子信息处理中一些基本的数学工具及其相互关系: 算子和范数 (Operators and Norms) 算子函数 (Operator Functions):量子信息论中的许多概念都依赖于对算子执行函数操作。例如,如果 XXX 是一个具有特征分解 X=∑k=1dλk∣ψk⟩⟨ψk∣X = \sum_{k=1}^d \lambda_k |\psi_k\rangle\langle\psi_k|X=∑k=1dλk∣ψk⟩⟨ψk∣ 的算子,那么 XαX^\alphaXα 的定义取决于 α\alphaα 的值。 对于整数 α∈N\alpha \in \mathbb{N}α∈N, XαX^\alphaXα 的定义为 ∑k=1dλkα∣ψk⟩⟨ψk∣\sum_{k=1}^d \lambda_k^\alpha...
下一篇
论文阅读五十五:Transformer2:自适应LLMs
摘要 自适应大型语言模型(LLM)旨在解决传统微调方法带来的挑战,这些方法通常计算密集,处理各种任务的能力是静态的。我们介绍了Transformer2,这是一种新颖的自适应框架,通过选择性地仅调整LLM权重矩阵的奇异分量,实时调整LLM以适应看不见的任务。在推理过程中,Transformer2采用了两步机制:首先,调度系统识别任务属性,然后使用强化学习训练的特定于任务的“专家”向量被动态混合,以获得传入提示的目标行为。我们的方法优于LoRA等无处不在的方法,参数更少,效率更高。Transformer2展示了不同LLM架构和模式的多功能性,包括视觉语言任务。Transformer2代表了一次重大的飞跃,它提供了一种可扩展、高效的解决方案,用于增强LLM的适应性和特定任务的性能,为真正动态、自组织的人工智能系统铺平了道路。代码在 https://github.com/SakanaAI/self-adaptive-llms
Serge Wang
Where there are problems, there is life.
文章
86
标签
50
分类
26
Follow Me
公告
Welcome to my Blog
最新文章
熵
2025-06-20
量子态和信道的可区分性、纠缠和信息量量化
2025-06-20
量子信道的描述和分类及其对量子信息的影响
2025-06-20
量子信息处理中数学工具的基本概念和相互关系
2025-06-20
论文阅读五十六:DeepSeek-R1:通过强化学习激发LLMs的推理能力
2025-01-23
繁
搜索
数据加载中