斯坦福新研究提升大模型长视频理解能力

智东西3月18日消息，3月15日，斯坦福研究人员发布论文，推出了一种基于代理（Agent）的系统——VideoAgent，其将大型语言模型作为中央代理，迭代地识别和编译关键信息以回答问题，同时利用视觉语言基础模型作为翻译和检索视觉信息的工具。在EgoSchema和NExT-QA基准测试中，VideoAgent在零样本准确率上分别达到了54.1%和71.3%，平均仅使用了8.4和8.2帧。研究人员称，该测试结果表明该方法在效果和效率上优于当前最先进的方法，在提升长篇视频理解方面有应用潜力。

论文地址：

https://arxiv.org/pdf/2403.10517.pdf

GitHub地址：

https://wxh1996.github.io/VideoAgent-Website/