欢迎来智东西
登录
免费注册
我的订阅
关注我们
智东西
车东西
芯东西
智猩猩
斯坦福新研究提升大模型长视频理解能力
2024-03-18
智东西
18
智东西3月18日消息,3月15日,斯坦福研究人员发布论文,推出了一种基于代理(Agent)的系统——VideoAgent,其将大型语言模型作为中央代理,迭代地识别和编译关键信息以回答问题,同时利用视觉语言基础模型作为翻译和检索视觉信息的工具。在EgoSchema和NExT-QA基准测试中,VideoAgent在零样本准确率上分别达到了54.1%和71.3%,平均仅使用了8.4和8.2帧。研究人员称,该测试结果表明该方法在效果和效率上优于当前最先进的方法,在提升长篇视频理解方面有应用潜力。
论文地址:
https://arxiv.org/pdf/2403.10517.pdf
GitHub地址:
https://wxh1996.github.io/VideoAgent-Website/
斯坦福大学

加载中...