arXiv - CSCL: "Vid2Seq: Large-Scale Pretraining of a Visual Lang…" - Qoto Mastodon

arXiv - CSCL @arxiv_cscl@qoto.org

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning. (arXiv:2302.14115v2 [cs.CV] UPDATED)

http://arxiv.org/abs/2302.14115 #arXiv #NLProc

Mar 22, 2023, 03:06 · · arxiv-cscl · · ·

Sign in to participate in the conversation