强化学习训练流程演示
Reinforcement Learning Training Demo
1
数据制作
Data Preparation
→
2
模型准备
Model Setup
→
3
参数配置
Configuration
→
4
训练过程
Training
→
5
训练结果
Results
→
6
效果体验
Experience
📊 数据制作
数据集配置
数据集准备流程
Step 1. 数据清洗
过滤低质量样本:移除过短/过长文本、重复内容去重、特殊字符及有毒内容检测,确保训练数据纯净度与安全性
Step 2. 指令生成
基于Self-Instruct范式,用种子指令引导LLM批量生成多样化任务指令,覆盖分类/生成/推理等类型,低成本扩充高质量SFT数据
Step 3. 偏好标注
人工或AI对同一prompt的多个回复进行排序/二选一,构建(chosen, rejected)偏好对,为Reward Model训练提供监督信号,是RLHF核心数据来源
Step 4. 质量评估
通过自动指标(长度分布、毒性分数、任务多样性)与人工抽查结合,量化数据集质量,防止模型学习噪声或虚假相关性(如“长回复=优质”)
Step 5. 数据合成
利用强模型(如Deepseek)自动生成指令-回复对或偏好对,结合规则过滤构建百万级数据集,解决人工标注成本高、规模受限问题。
🧠 模型准备
模型选择
⚙️ 参数配置
算法选择
PPO算法
近端策略优化算法 PPO(Proximal Policy Optimization Algorithms):包括4个模型,Reward Model 提供奖励型号,Value Model 提供价值评估,通过 Reference Model 提供参考输出,叠加KL散度惩罚机制,限制策略更新幅度,确保训练稳定性和效率。该算法需要同时训练2个模型,方案实施比较复杂。
GRPO算法
组相对策略优化 GRPO(Group Relative Policy Optimization):使用3个模型,针对每个 Prompt 生成一组 Response,通过 Reference Model 提供参考输出,叠加KL散度惩罚机制,使用组内相对值奖励来估计优势函数。该方法不需要训练 Value Model,降低方案复杂度,提高了训练效率。
训练参数
🎯 训练过程
0
当前轮数
0
当前奖励
0.00
当前损失
0
平均奖励
训练日志
[系统] 等待开始训练...
📈 训练结果
0
最终奖励
+0%
0
训练轮数
效率
0.00
平均损失
-0%
Reward 曲线
Loss 曲线
训练总结
训练完成!模型性能已达到预期目标。
🎭 效果体验
预设问题选择
选择一个问题,查看基础模型和增强模型的回答差异
基础模型
Base Model - 训练前
请选择一个问题开始体验
增强模型
Enhanced Model - 训练后
请选择一个问题开始体验