**Kristin Branson** @kristinmbranson@social.coop · Jan 06, 2023, 00:25

**Kristin Branson** @kristinmbranson@social.coop · Jan 06, 2023, 00:25

Kristin Branson @kristinmbranson@social.coop

Jan 06, 2023, 00:25

Kristin Branson @kristinmbranson@social.coop

I found the papers "Scaling Laws for Neural Language Models" (OpenAI, 2020) and "Training Compute-Optimal Large Language Models" (DeepMind, 2022) interesting:
https://arxiv.org/pdf/2001.08361.pdf
https://arxiv.org/pdf/2203.15556.pdf
They do a LOT of experiments training large language models (causal transformers) with varying hyperparameters, in particular model size, shape, batch size, and training data set size over many orders of magnitude. 1/?

**Elena Rivas** @elenarivas@qoto.org · 2023-01-06T11:48:04Z

Elena Rivas @elenarivas@qoto.org

@kristinmbranson
thanks for porting Kristin! very interesting.

And happy new year

Jan 06, 2023, 11:48 · · · ·

Trending now

Resources

Developers

What is Mastodon?

qoto.org

More…