智东西3月18日消息,3月15日,斯坦福研究人员发布论文,推出了一种基于代理(Agent)的系统——VideoAgent,其将大型语言模型作为中央代理,迭代地识别和编译关键信息以回答问题,同时利用视觉语言基础模型作为翻译和检索视觉信息的工具。在EgoSchema和NExT-QA基准测试中,VideoAgent在零样本准确率上分别达到了54.1%和71.3%,平均仅使用了8.4和8.2帧。研究人员称,该测试结果表明该方法在效果和效率上优于当前最先进的方法,在提升长篇视频理解方面有应用潜力。

论文地址:
https://arxiv.org/pdf/2403.10517.pdf
GitHub地址:
https://wxh1996.github.io/VideoAgent-Website/