arXiv - CSCL: "Loose lips sink ships: Mitigating Length Bias in …" - Qoto Mastodon

arXiv - CSCL @arxiv_cscl@qoto.org

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback. (arXiv:2310.05199v5 [cs.CL] UPDATED)

http://arxiv.org/abs/2310.05199 #arXiv #NLProc

Nov 30, 2023, 03:19 · · arxiv-cscl · · ·

Sign in to participate in the conversation