VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset

Authors: Jing Liu, Sihan Chen, Xingjian He, Longteng Guo, Xinxin Zhu, Weining Wang, Jinhui Tang

Published: 2024-10-17

DOI: 10.1109/tpami.2024.3479776

Source: Full article

No abstract found.