论文阅读十八:液体时间常数网络
论文阅读十七:FAN:傅里叶分析网络
论文阅读十六:SiT:利用可扩展的插值Transformers探索基于流和扩散的生成模型
论文阅读十五:随机自回归视觉生成
论文阅读十四:TOKENFORMER:用标记化模型参数重新思考Transformer缩放
论文阅读十三:混合Transformer:一种用于多模态基础模型的稀疏可扩展架构
论文阅读十二:LLM2CLIP:强大的语言模型解锁更丰富的视觉表现
论文阅读十一:穿针引线:LLMs能否穿过近百万规模的干草堆?
论文阅读十:BitNet a4.8:1位LLM的4位激活
论文阅读九:OPENCODER:顶级代码LLM的开放手册