CAT+: Investigating and Enhancing Audio-visual Understanding in Large Language Models

Authors: Qilang Ye, Zitong Yu, Rui Shao, Yawen Cui, Xiangui Kang, Xin Liu, Philip Torr, Xiaochun Cao

Published: 2025-06-25

DOI: 10.1109/tpami.2025.3582389

Source: Full article

No abstract found.