**arXiv - CSCL** @arxiv_cscl@qoto.org · 2023-11-22T03:19:45Z

arXiv - CSCL @arxiv_cscl@qoto.org

DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining. (arXiv:2305.10429v4 [cs.CL] UPDATED)

Nov 22, 2023, 03:19 · · arxiv-cscl · · ·