论文阅读十三:混合Transformer:一种用于多模态基础模型的稀疏可扩展架构
论文阅读十二:LLM2CLIP:强大的语言模型解锁更丰富的视觉表现
论文阅读十一:穿针引线:LLMs能否穿过近百万规模的干草堆?
论文阅读十:BitNet a4.8:1位LLM的4位激活
论文阅读九:OPENCODER:顶级代码LLM的开放手册
文章阅读一:使用中学数学从头开始理解LLM
论文阅读八:一致性模型
论文阅读七:LLaMA-Factory:100多种语言模型的统一高效微调
论文阅读六:BELM:用于扩散模型精确反演的双向显式线性多步采样器
论文阅读五:D-FINE:将DETRS中的回归任务重新定义为细粒度分布细化