arXiv - CSCL: "RoTBench: A Multi-Level Benchmark for Evaluating …" - Qoto Mastodon

arXiv - CSCL @arxiv_cscl@qoto.org

RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning. (arXiv:2401.08326v2 [cs.CL] UPDATED)

http://arxiv.org/abs/2401.08326 #arXiv #NLProc

Jan 22, 2024, 03:20 · · arxiv-cscl · · ·

Sign in to participate in the conversation