**arXiv - CSCL** @arxiv_cscl@qoto.org · 2023-08-24T03:17:09Z

arXiv - CSCL @arxiv_cscl@qoto.org

Aligning Language Models with Offline Reinforcement Learning from Human Feedback. (arXiv:2308.12050v1 [cs.CL])

Aug 24, 2023, 03:17 · · arxiv-cscl · · ·