ICLR 2025口服

日期:2025-04-26 浏览:

本文的第一作者Gu Yuxian(https://t1101675.github.io/)是Tsinghua University计算机科学系的四年级医生。她在黄·米莉(Huang Minlie)教授的领导下学习,她的研究方向是语言模型推理的良好培训和方法。他在会议和期刊上发表了近20篇论文,例如ACL,EMNLP,ICLR等,以及许多次口头报告。他提到了2,600多名Google Scholar,并赢得了Apple Scholar的2025学者学者。本文在他在Microsoft Research Asia实习期间完成了他的工作。近年来,大型语言模型(LLM)在自然语言理解,代码和一般推理等活动方面取得了重大发展,并逐渐成为人工Katalinuhan一般的基本基础。但是,训练此类模型所需的计算和数据源成本以压力较高的速度增长。面对更疲倦的质量的双重挑战Y语料库和不断增长的培训预算,如何使用更少的资源获得更好的学习已成为开发当前语言模型的主要问题。为了应对这一挑战,Tsinghua大学,北京大学和微软研究所共同提出了一种新的范式,用于选择基于PMP的PMP前数据选择(PDS)数据。该方法是第一次将数据选择作为最佳控制问题,并根据经典的Pontriakin最大原理(PMP)扣除一组所需的理论条件,从而提供了对“哪些数据更值得研究”在训练阶段中的清晰度描述。根据理论,研究团队设计了一个PDS算法框架,该框架可以很好地与大型成员一起运行,并系统地证明了许多模型量表和工作环境。实验结果表明,PD可以在不更改模型培训框架的情况下实现多达2次训练的加速。在许多下带AM任务,PDS明显优于现有数据选择技术,并且具有很大的大型模型培训能力;在数据限制下,PD可以将培训数据减少约1.8倍,并提高数据使用效率。 PD不仅对实际结果具有巨大的好处,而且更重要的是,它建立了基于控制论的数据的理论框架,该框架为了解预训练动态并改善模型的含义和控制提供了新的观点。目前,该结果已被ICLR 2025的顶级机器学习会议正式接受,并被选为口头报告(口头,前1.8%)。纸张标题:通过最佳控制对语言模型进行选择数据:https://openreview.net/forum?id=dhal5fy8ws开源代码:https://github.com/microsoft/microsoft/lmops/lmops/tree/main/main/main/data_sectionback of Research of Research of Research of Research of Research of Research of Research of Research of Research of Great Models不仅仅是更多的fooding ford's fording'。近年来,大型语言模型(LLMS)具有CONTI不愿刷新任务的性能记录。但是与此同时,越来越多的问题越来越大:训练这些模型所需的数据和计算源可显着增长。面对互联网上的大量文本,如何选择“更重要”的数据已成为提高模型效率和性能的关键步骤。大多数现有的数据选择方法都依赖于启发式策略,例如重复数据删除,n-gram匹配,影响功能等。另一方面,某些方法试图在培训期间使用动态反馈来筛选在线数据,但是他们需要更改培训过程并增加培训期间的间接费用,这是限制在实用上的训练。这项工作从传统观点破坏了,并使用控制论中的Pontryagin(PMP)的最大原理将选择NG数据的模型作为分析最佳控制问题,从而为下层提供了系统的数学框架站立并执行最佳数据选择。基于此框架,脱机数据选择算法旨在提高性能,而无需增加培训开销。理论上的更改:数据选择是“控制”。那些设置训练过程被视为动态系统的人,数据选择的重量被用作变量,参数模型用作系统状态,而流的最终任务是有目的的函数。在此框架下,预训练的每个步骤都对应于国家的变化,每个数据的“权重重要性”的合理分配是在预算有限的情况下找到最佳的方法控制。基于经典的Pontriakin最大原理(PMP),它们更有可能获得满足最佳数据选择方法所需的条件(PMP条件)。基于此条件的数据选择可以确保选择结果的可靠性。图1:PMP的图条件最关键的PMP条件的想法是给出最佳训练样本必须具有的梯度方向(如上图所示),并选择其梯度方向与最佳梯度一致的数据点,而该梯度是数学代表最大梯度产品顶部的最佳梯度)。该理论的基本价值不仅为选择MATAAS质量数据提供了明确的指南,而且还显示了目标工作性能,动态模型培训和最佳数据选择之间的紧密联系。算法设计:开发一个良好且实用的PDS框架。为了将理论应用于实用的语言模型培训,作者设计了PMP(PDS)数据选择框架,如下图所示:图3:PDS数据选择框架。该算法分为三个步骤:1。在代理环境中解决PMP方程系统:迭代地在小规模的代理模型(例如160m参数)和代理下解析PMP系统。数据集(例如0.2B令牌)以获取代理的最佳代理数据集。数据选择数据2。训练数据的评分者:使用小型模型在代理数据集中拟合γ*,i -outtut基于输入样本,然后为整个数据集评分; 3。选择大规模模型训练的高质量数据:根据评分结果,对于任何数据阈值(例如50%),选择具有更高标记的样本以训练目标模型。此方法完全离线,需要一次操作以支持任何规模的模型培训,而无需更改现有的培训框架。对于高度优化的预培训代码,替换数据资源是高度实用且友好的工程。实验实验的影响,使用-set PDS方法选择50B令牌,以训练基于Redpajama CommonCrawl中125B令牌数据的160m至1.7b尺度的语言模型。审查任务涵盖了下面的9个主要gawsain和语言建模活动。改进在各种模型量表下的性能,在流到该流的9个任务中训练的模型PD的总体性能要比随机选择,Rho-loss,dsir,If-Score等过程都更好。此外,如下图所示,由PDS技术在高质量的Corpus(例如DCLM)中,由PDS技术培训的模型模型模型比随机选择更好。如下表所示,在使用在Llama系列模型训练量表上推断的语言模型的扩展定律之后,执行PD的优势仍然很明显。图5:通过PDS方法在语言建模活动中培训的实践训练训练速度如下。当实现下游任务的相同性能时,PD是1.7B插曲练习的练习,可以减少大约一半。值得注意的是,PDS中PMP条件的解决方案是在训练阶段离线完成的,从而阻止了引入培训的开销。 figuRE 6:PDS加速度对模型预训练的影响。作者通过数据压制方案中的实验表明,最好使用PDS选择高质量数据的组成部分并执行更多的训练旋转,而不是在训练周期中使用原始数据。如下图所示,图中的蓝线使用原始数据表示1个训练周期,而橙色线,绿线和红线代表使用PDS的原始数据的50%,25%和12.5%,以及2、4和8训练周期,以确保相同数量的M M.GA M.GA一般训练令牌。可以看出,使用PDS选择高质量25%数据的性能最佳,这表明PDS在有限的数据下改善了模型性能,即改善数据使用情况并减轻“数据疲劳”问题。图7在有限数据的情况下选择数据的未来观点:为“数据驱动AI”开发理论框架。当前的预训练过程大型模型高度取决于经验和启发式政策。很长一段时间以来,“黑匣子”中学习模型的学习方式以及研究数据的影响是在“黑匣子”中。这项工作通过最佳控制理论在数据选择和动态培训之间建立了数学连接,从而提供了一个理论工具,用于将预先数据的数据量化。期望这个方向取代依赖直觉和实验的传统数据筛选过程,而且还将为未来的自动变速箱开辟新的想法,并解释模型中的出色培训。那些建立了围绕“如何选择学习”的主要问题建立理论系统的人将是促进AI从经验工程到科学建模的关键步骤。

0
首页
电话
短信
联系