认识HUSKY一种针对多步骤推理优化的新代理
来自Meta AI、Allen AI和华盛顿大学的新研究解决了LLM推理中最重要的问题之一。
推理被广泛认为是生成AI的下一个前沿领域。我们所指的推理是将任务分解为更小的子集并单独解决的能力。Chain-of-Thought、Tree-of-Thought、Skeleton-of-Thought和Reflexion是一些最近解决LLM推理能力的技术。推理还涉及访问外部数据或工具等外围能力。在过去的几年中,我们看到模型在特定推理技术上表现出色,但它们未能在不同领域中进行泛化。如果考虑到推理是一项计算成本非常高的任务,这并不令人惊讶。这正是Meta AI、Allen Institute of AI和华盛顿大学的研究人员在最近的一篇论文中所面对的挑战 。
HUSKY是一个开源语言代理,旨在处理涉及数值、表格和知识基础推理的各种复杂任务。与其他专注于特定任务或使用专有模型的代理不同,HUSKY在一个统一的框架内运作以管理多样化的挑战。它分两个阶段工作:首先,它生成解决任务所需的下一个行动;其次,它使用专家模型执行该行动,并在进展中更新解决方案。

Inside HUSKY
HUSKY采用详细的行动计划来处理复杂任务。最初,它生成下一步,包括所需的行动和工具。然后,它使用专业模型执行该行动,更新解决方案状态。这种方法使HUSKY能够像现代版本的经典规划系统一样运作,利用大型语言模型(LLMs)来优化性能。

对于需要多步骤推理的任务,HUSKY预测下一步行动及相应的工具,然后使用专家模型执行该行动。这个过程持续进行,直到找到最终答案。HUSKY使用多个LLM来协调专家模型,类似于一队哈士奇共同拉动雪橇。
行动和工具选择
HUSKY 在生成行动和执行行动之间进行迭代,直到达到终止状态。行动生成器预测下一个高层次步骤,并从预定义的工具集中分配一个工具:代码、数学、搜索或常识。根据分配的工具,HUSKY 调用专家模型,执行行动,并更新解决方案状态,可选地将输出转换为自然语言。
训练 HUSKY
HUSKY 的训练涉及使用教师模型创建工具集成的解决方案轨迹。这些轨迹有助于为动作生成器和专家模型构建训练数据。训练流程经过简化和通用化,确保 HUSKY 能够处理广泛的任务,而无需特定于任务的假设。

推理过程
在推理过程中,HUSKY 集成其训练模块以解决新的多步骤任务。动作生成器确定第一步和工具,然后将其传递给专家模型,专家模型生成输出。这个迭代过程持续进行,直到最终解决方案的实现,专家模型为每一步提供具体的输出。
评估与性能
评估 HUSKY 涉及在复杂推理任务上测试其推理能力并对结果进行评分。现有的数据集通常缺乏 HUSKY 所需的工具多样性,因此创建了 HUSKYQA,一个新的评估集,用于测试混合工具推理。该集合包括需要检索缺失知识和进行数值推理的任务。尽管使用了较小的模型,HUSKY 仍然与前沿模型如 GPT-4 相匹配或超越,展示了其有效性。
HUSKY 在多种需要多步骤推理和工具使用的任务上与其他基准语言代理一起训练和评估。这些任务的一半用于根据其工具集成解决方案路径训练 HUSKY 的模块,而另一半则保留用于评估。所有任务均以零-shot 方式进行评估。
1) 数值推理任务
数值推理任务包括从小学到高中竞赛水平的数学数据集。这些数据集包括 GSM-8K、MATH、Google DeepMind 数学任务和 MathQA,取自 LILA 基准。对于 Google DeepMind 数学,重点关注代数、基础数学、微积分、乘法/除法和数论子集。对于 MathQA,子集包括增益、一般、几何、物理和概率。GSM-8K 和 MATH 被用于训练,提供了总共 13.7K 的工具集成解决方案路径。
2) 表格推理任务
表格推理任务涉及 TabMWP,一个表格数学文字问题的数据集,FinQA 和 TAT-QA,这两个都是金融问答数据集,以及 MultimodalQA 中的一部分测试问题,要求理解文本和表格数据。TabMWP 和 FinQA 被用于训练和评估,而 TAT-QA 和 MultimodalQA 则被保留用于评估。这些数据集贡献了总共 7.2K 的工具集成解决方案路径。
3) 知识推理任务
知识推理任务包括 HotpotQA、CWQ、Musique、Bamboogle 和 StrategyQA。HotpotQA 和 Bamboogle 被保留用于评估,CWQ 和 Musique 被用于训练,而 StrategyQA 则同时用于两者。这个集合总共产生了 7K 的工具集成解决方案路径。
模型
评估包括以下模型:
动作生成器: 对于动作生成器,HUSKY 使用了 LLAMA-2–7B、13B 和 LLAMA-3–8B 模型。错误的解决路径已从训练集中删除,结果在数值、表格、知识基础和混合工具推理任务中产生了 110K 实例。动作生成器在这个多任务训练集上进行了全面微调。
代码生成器: DEEPSEEKCODER-7B-INSTRUCT-V1.5 模型因其强大的编码能力而被选为微调代码生成器的基础。正确的解决路径用于提取所有必要的代码,结果生成了 44K 代码实例用于训练。
数学推理器: DEEPSEEKMATH-7B-INSTRUCT 模型因其先进的数学推理能力而被选中。正确的解决路径提供了 30K 数学解决实例用于微调数学推理器。
查询生成器: 对于查询生成器,LLAMA-2–7B 被用作基础模型。正确的解决路径产生了 22K 搜索查询实例用于微调查询生成器。
以下矩阵展示了一些结果:

HUSKY 代表了语言智能体的重大进步,提供了一种多功能的开源解决方案,用于复杂推理任务。其整体方法结合了动作生成与执行以及专家模型,使其能够有效处理各种挑战。HUSKY 的表现,如各种评估所示,突显了其重新定义语言智能体如何解决复杂问题的潜力。
- 标题: 认识HUSKY一种针对多步骤推理优化的新代理
- 作者: Barry
- 创建于 : 2024-06-18 20:25:05
- 更新于 : 2024-08-31 06:59:45
- 链接: https://wx.role.fun/2024/06/18/fde3830f8ca74da583f0ec27550ad6c8/
- 版权声明: 本文章采用 CC BY-NC-SA 4.0 进行许可。