分类: LLM | Model The World

分类 - LLM

2024

论文阅读二十二：有限数据微调语言模型实用指南

2024-11-16

论文阅读二十二：有限数据微调语言模型实用指南

论文阅读二十：优化缩放LLM测试时间计算比缩放模型参数更有效

2024-11-14

论文阅读二十：优化缩放LLM测试时间计算比缩放模型参数更有效

论文阅读十九：思维LLMS：思维生成的一般指导

2024-11-14

论文阅读十九：思维LLMS：思维生成的一般指导

论文阅读十六：SiT：利用可扩展的插值Transformers探索基于流和扩散的生成模型

2024-11-12

论文阅读十六：SiT：利用可扩展的插值Transformers探索基于流和扩散的生成模型

论文阅读十五：随机自回归视觉生成

2024-11-11

论文阅读十五：随机自回归视觉生成

论文阅读十四：TOKENFORMER：用标记化模型参数重新思考Transformer缩放

2024-11-11

论文阅读十四：TOKENFORMER：用标记化模型参数重新思考Transformer缩放

论文阅读十三：混合Transformer：一种用于多模态基础模型的稀疏可扩展架构

2024-11-10

论文阅读十三：混合Transformer：一种用于多模态基础模型的稀疏可扩展架构

论文阅读十二：LLM2CLIP：强大的语言模型解锁更丰富的视觉表现

2024-11-10

论文阅读十二：LLM2CLIP：强大的语言模型解锁更丰富的视觉表现

论文阅读十一：穿针引线：LLMs能否穿过近百万规模的干草堆？

2024-11-10

论文阅读十一：穿针引线：LLMs能否穿过近百万规模的干草堆？

论文阅读十：BitNet a4.8：1位LLM的4位激活

2024-11-10

论文阅读十：BitNet a4.8：1位LLM的4位激活

数据加载中