摘要

LLMs彻底改变了人工智能领域,并已成为许多任务的事实工具。目前建立的LLM技术是在token级别处理输入并生成输出。这与人类在多个抽象层次上操作形成鲜明对比,远远超出了单个单词的范围,以分析信息并生成创造性内容。在本文中,我们提出了一种尝试,即一种在显式的高级语义表示上运行的架构,我们称之为“概念”。概念与语言和情态无关,代表流中更高层次的想法或行为。因此,我们构建了一个“大概念模型”。在这项研究中,作为可行性的证明,我们假设一个概念对应于一个句子,并使用现有的句子嵌入空间SONAR,它在文本和语音模式中支持多达200种语言。

训练大概念模型以在嵌入空间中执行自回归句子预测。我们探索了多种方法,即MSE回归、基于扩散的生成变体以及在量化SONAR空间中运行的模型。这些探索是使用1.6B参数模型和1.3T标记顺序的训练数据进行的。然后,我们将一个架构扩展到7B个参数的模型大小和约2.7T标记的训练数据。我们对几个生成任务进行了实验评估,即摘要和摘要扩展的新任务。最后,我们证明了我们的模型对许多语言表现出令人印象深刻的零样本泛化性能,优于相同大小的现有LLMs。我们模型的训练代码是免费提供的。 代码