🔥实时更新 频道/群组搜索 登录
TG资源网
黑洞资源笔记 09-28 21:25:02

在线训练大语言模型(LLM)强化学习环境搭建往往涉及复杂的组件组合,环境构建、评估、工具调用、训练等环节分散且难以整合。 Verifiers 是一个开源的模块化环境库,专为 LLM 强化学习设计,集成了环境创建、评估、Rollout 逻辑和训练工具,支持与 OpenAI 兼容模型端点无缝对接。 不仅能直接做模型评估和合成数据生成,还内置了异步 GRPO 训练器,支持大规模多GPU训练,方便研究者和开发者快速搭建高效的 LLM RL 训练流水线。 主要功能: - 模块化环境组件,支持自定义环境和多轮对话交互; - 灵活的评估机制,支持多种奖励函数和格式解析器; - 原生支持单回合、多回合及工具调用环境; - 内置异步GRPO训练器,兼容Accelerate/DeepSpeed多GPU训练; - 支持OpenAI风格推理接口,方便接入各类模型服务; - 提供命令行工具快速评测、环境安装和训练管理。 适用于研究人员、开发者和企业用户,支持CPU和GPU环境,本地和云端均可使用,助力构建智能、可训练的语言模型代理和评测平台。

附件:[图片]