TGSO-TG资源网,专业的telegram搜索引擎

黑洞资源笔记 09-28 21:25:02

在线训练大语言模型（LLM）强化学习环境搭建往往涉及复杂的组件组合，环境构建、评估、工具调用、训练等环节分散且难以整合。 Verifiers 是一个开源的模块化环境库，专为 LLM 强化学习设计，集成了环境创建、评估、Rollout 逻辑和训练工具，支持与 OpenAI 兼容模型端点无缝对接。不仅能直接做模型评估和合成数据生成，还内置了异步 GRPO 训练器，支持大规模多GPU训练，方便研究者和开发者快速搭建高效的 LLM RL 训练流水线。主要功能： - 模块化环境组件，支持自定义环境和多轮对话交互； - 灵活的评估机制，支持多种奖励函数和格式解析器； - 原生支持单回合、多回合及工具调用环境； - 内置异步GRPO训练器，兼容Accelerate/DeepSpeed多GPU训练； - 支持OpenAI风格推理接口，方便接入各类模型服务； - 提供命令行工具快速评测、环境安装和训练管理。适用于研究人员、开发者和企业用户，支持CPU和GPU环境，本地和云端均可使用，助力构建智能、可训练的语言模型代理和评测平台。

附件：[图片]