• haoblog
    header_user_avatar
    登录
    • 首页
    • 分类
      • Comm(通信)
      • O&M(运维)
      • Front(前端)
      • Backend(后端)
      • WeChat(微信)
      • Embedded(嵌入式)
      • LLM(大语言模型)
      • DeepLearn(深度学习)
      • 7788(其他)
    • 时光轴
    • 友人帐
    • 关于我

    haoblog

    疯狂造句中......

  • qq
  • E-mail
  • GRPO

    post_img
    发布于 2025-08-07
    28 热度 无~ LLM

    大模型后训练强化学习方法-GRPO&PPO

    摘要

    1. 前言 在大语言模型进行微调的流程中,一般在监督微调(Supervised Fine-Tuning,SFT)阶段之后,进一步通 …

    loading_svg


    赣ICP备2022001918号

    ©2022 haoblog ALL Rights Reserved


    Theme Sakurairo by Fuukei
    • 首页
    • 分类
      • Comm(通信)
      • O&M(运维)
      • Front(前端)
      • Backend(后端)
      • WeChat(微信)
      • Embedded(嵌入式)
      • LLM(大语言模型)
      • DeepLearn(深度学习)
      • 7788(其他)
    • 时光轴
    • 友人帐
    • 关于我

    想要找点什么呢?

    隐藏
    换装