强化学习训练流程演示

Reinforcement Learning Training Demo

1 数据制作 Data Preparation

→

2 模型准备 Model Setup

→

3 参数配置 Configuration

→

4 训练过程 Training

→

5 训练结果 Results

→

6 效果体验 Experience

数据集配置

用例集选择

ID	问题(question)	答案(answer)

数据集准备流程

Step 1. 数据清洗

过滤低质量样本：移除过短/过长文本、重复内容去重、特殊字符及有毒内容检测，确保训练数据纯净度与安全性

Step 2. 指令生成

基于Self-Instruct范式，用种子指令引导LLM批量生成多样化任务指令，覆盖分类/生成/推理等类型，低成本扩充高质量SFT数据

Step 3. 偏好标注

人工或AI对同一prompt的多个回复进行排序/二选一，构建(chosen, rejected)偏好对，为Reward Model训练提供监督信号，是RLHF核心数据来源

Step 4. 质量评估

通过自动指标（长度分布、毒性分数、任务多样性）与人工抽查结合，量化数据集质量，防止模型学习噪声或虚假相关性（如“长回复=优质”）

Step 5. 数据合成

利用强模型（如Deepseek）自动生成指令-回复对或偏好对，结合规则过滤构建百万级数据集，解决人工标注成本高、规模受限问题。

模型选择

基础模型

NPU卡数量

硬件型号

算法选择

训练框架

RL训练算法

PPO算法

近端策略优化算法 PPO（Proximal Policy Optimization Algorithms）：包括4个模型，Reward Model 提供奖励型号，Value Model 提供价值评估，通过 Reference Model 提供参考输出，叠加KL散度惩罚机制，限制策略更新幅度，确保训练稳定性和效率。该算法需要同时训练2个模型，方案实施比较复杂。

GRPO算法

组相对策略优化 GRPO（Group Relative Policy Optimization）：使用3个模型，针对每个 Prompt 生成一组 Response，通过 Reference Model 提供参考输出，叠加KL散度惩罚机制，使用组内相对值奖励来估计优势函数。该方法不需要训练 Value Model，降低方案复杂度，提高了训练效率。

训练参数

学习率(actor_rollout_ref.actor.optim.lr)

单次训练Batch size(data.train_batch_size)

训练总轮数(trainer.total_epochs)

模型权重保存频率(trainer.save_freq)

每问题推理生成答案数量(actor_rollout_ref.rollout.n)

当前轮数

当前奖励

0.00

当前损失

平均奖励

训练日志

[系统] 等待开始训练...

最终奖励

+0%

训练轮数

效率

0.00

平均损失

-0%

Reward 曲线

Loss 曲线

训练总结

训练完成！模型性能已达到预期目标。

预设问题选择

选择一个问题，查看基础模型和增强模型的回答差异

🤖

基础模型

Base Model - 训练前

请选择一个问题开始体验

⚡

增强模型

Enhanced Model - 训练后

请选择一个问题开始体验

强化学习训练流程演示

📊 数据制作

数据集配置

数据集准备流程

🧠 模型准备

模型选择

⚙️ 参数配置

算法选择

训练参数

🎯 训练过程

📈 训练结果

Reward 曲线

Loss 曲线

训练总结

🎭 效果体验

预设问题选择

基础模型

增强模型

强化学习训练流程演示

📊 数据制作

数据集配置

数据集详情

数据集准备流程

🧠 模型准备

模型选择

⚙️ 参数配置

算法选择

训练参数

🎯 训练过程

📈 训练结果

Reward 曲线

Loss 曲线

训练总结

🎭 效果体验

预设问题选择

基础模型

增强模型