尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文学习(ICL)时仍存在明显局限。
已有工作表明,即使提供多达上百甚至上千条示例,LLM 仍难以从中有效学习规律,其表现往往很快进入平台期,甚至对示例的顺序、标签偏差等较为敏感。在利用上下文学习解决新任务时,LLM 往往更依赖于自身的强先验以及示例的表面特征,而难以真正挖掘出示例中潜在的因果机制或统计依赖。
这项名为 MachineLearningLM 的新研究突破了这一瓶颈。该研究提出了一种轻量且可移植的「继续预训练」框架,无需下游微调即可直接通过上下文学习上千条示例,在金融、健康、生物信息、物理等等多个领域的二分类 / 多分类任务中的准确率显著超越基准模型(Qwen-2.5-7B-Instruct)以及最新发布的 GPT-5-mini。

相比于已有的用于表格数据的机器学习方法,MachineLearningLM 几乎完全保留了 LLM 通用能力,这意味着它可以无缝集成到更复杂的对话工作流中。


- 论文链接: https://arxiv.org/abs/2509.06806
- 模型和数据集:https://huggingface.co/MachineLearningLM
- 代码:https://github.com/HaoAreYuDong/MachineLearningLM
核心创新一:百万级合成任务「授人以渔」
研究团队旨在赋予 LLM 一种「举一反三」的元能力 —— 不依赖对真实任务数据的机械记忆,而是通过海量且多样化的合成任务,从根本上训练模型在大量上下文示例中挖掘规律并进行预测的能力。
传统的指令微调方法通常基于有限规模(约为千数量级)的真实任务数据,这在很大程度上限制了模型向新任务的泛化能力。与之相比,MachineLearningLM 构建了一个超过 300 万合成任务的大规模预训练语料库。
任务生成器基于结构因果模型(Structural Causal Model, SCM)来采样生成二分类及多分类任务。SCM 通过有向无环图(DAG)和结构方程(采用神经网络与树模型实现)明确定义变量间的因果关系,能够精确控制特征的边际分布、类型(如数值型或类别型)以及标签生成机制。
该方法确保预训练数据与下游真实评估集没有任何重叠,从而保证评估过程对模型泛化能力的检验具备充分公平性。同时,通过控制示例数量从数个到 1024 个不等,该机制能够专门训练模型处理「多示例」场景的推理能力。
