综述九:LLM
提示(Prompts)
Large Lanuage Models Can Self-Improve in Long-context Reasoning (24/10)
论文地址
核心思想:大型语言模型(LLM)在处理长上下文方面取得了实质性进展,但在长上下文推理方面仍存在困难。现有的方法通常涉及使用合成数据对LLM进行微调,这取决于人类专家的注释或GPT-4等高级模型,从而限制了进一步的进步。为了解决这个问题,研究了LLM在长上下文推理中自我改进的潜力,并提出了专门为此目的设计的SEALONG方法。这种方法很简单:对每个问题的多个输出进行采样,用最小贝叶斯风险对其进行评分,然后根据这些输出进行监督微调或偏好优化。在几个领先的LLM上进行的广泛实验证明了SEALONG的有效性,Llama-3.1-8B-Instruct的绝对提高了4.2分。此外,与依赖于人类专家或高级模型生成的数据的先前方法相比,SEALONG实现了更优的性能。我们预计,这项工作将为长期情景下的自我提升技术开辟新的途径,这对LLM的持续发展至关重要。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Model The World!