2026/4/18

项目部署模型微调:SFT + LoRA 实战记录

前言 SFT:  监督学习,解决的是对不对的问题。 RLHF: 强化学习,解决的是能不能安全做对的问题。 DPO…

  • AI&大模型
  • 2026/4/18
  • Rudy
  • 4