Rudy
前言 SFT: 监督学习,解决的是对不对的问题。 RLHF: 强化学习,解决的是能不能安全做对的问题。 DPO…
一枚与时俱进,终生学习的工程师!
文章数量
标签数量
运行天数
Hi!请登陆
Copyright © 珍惜时间ing🚀🚀🚀 Powered WordPress Theme Qzdy