GRPO归档 - haoblog

E-mail

发布于 2025-08-07

441 热度无~ LLM

大模型后训练强化学习方法-GRPO&PPO

摘要

1. 前言在大语言模型进行微调的流程中，一般在监督微调（Supervised Fine-Tuning，SFT）阶段之后，进一步通 …

隐藏

换装