智东西3月18日消息,3月15日,AI创企Cognition对其团队发布的首个AI软件工程师Devin进行了技术解读,发布了关于Devin的SWE-bench基准测试技术报告。SWE-bench可以评估系统解决现实中代码库问题的能力。测试结果显示,Devin不需要人类辅助就可以解决570个问题中的79个问题,成功率为13.86%,高于SOTA 大模型(Claude 2)的4.80%。
GitHub地址:
https://github.com/CognitionAI/devin-swebench-results