强化学习训练流程演示

Reinforcement Learning Training Demo

1 数据制作 Data Preparation
2 模型准备 Model Setup
3 参数配置 Configuration
4 训练过程 Training
5 训练结果 Results
6 效果体验 Experience

📊 数据制作

数据集配置

数据集准备流程

Step 1. 数据清洗
过滤低质量样本:移除过短/过长文本、重复内容去重、特殊字符及有毒内容检测,确保训练数据纯净度与安全性
Step 2. 指令生成
基于Self-Instruct范式,用种子指令引导LLM批量生成多样化任务指令,覆盖分类/生成/推理等类型,低成本扩充高质量SFT数据
Step 3. 偏好标注
人工或AI对同一prompt的多个回复进行排序/二选一,构建(chosen, rejected)偏好对,为Reward Model训练提供监督信号,是RLHF核心数据来源
Step 4. 质量评估
通过自动指标(长度分布、毒性分数、任务多样性)与人工抽查结合,量化数据集质量,防止模型学习噪声或虚假相关性(如“长回复=优质”)
Step 5. 数据合成
利用强模型(如Deepseek)自动生成指令-回复对或偏好对,结合规则过滤构建百万级数据集,解决人工标注成本高、规模受限问题。

🧠 模型准备

模型选择

⚙️ 参数配置

算法选择

PPO算法
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms):包括4个模型,Reward Model 提供奖励型号,Value Model 提供价值评估,通过 Reference Model 提供参考输出,叠加KL散度惩罚机制,限制策略更新幅度,确保训练稳定性和效率。该算法需要同时训练2个模型,方案实施比较复杂。
GRPO算法
组相对策略优化 GRPO(Group Relative Policy Optimization):使用3个模型,针对每个 Prompt 生成一组 Response,通过 Reference Model 提供参考输出,叠加KL散度惩罚机制,使用组内相对值奖励来估计优势函数。该方法不需要训练 Value Model,降低方案复杂度,提高了训练效率。

训练参数

🎯 训练过程

0%
0
当前轮数
0
当前奖励
0.00
当前损失
0
平均奖励
训练日志
[系统] 等待开始训练...

📈 训练结果

0
最终奖励
+0%
0
训练轮数
效率
0.00
平均损失
-0%

Reward 曲线

Loss 曲线

训练总结

训练完成!模型性能已达到预期目标。

🎭 效果体验

预设问题选择

选择一个问题,查看基础模型和增强模型的回答差异

🤖

基础模型

Base Model - 训练前

请选择一个问题开始体验

增强模型

Enhanced Model - 训练后

请选择一个问题开始体验