AI程序员代码能力超Claude 2

2024-03-18

智东西3月18日消息，3月15日，AI创企Cognition对其团队发布的首个AI软件工程师Devin进行了技术解读，发布了关于Devin的SWE-bench基准测试技术报告。SWE-bench可以评估系统解决现实中代码库问题的能力。测试结果显示，Devin不需要人类辅助就可以解决570个问题中的79个问题，成功率为13.86%，高于SOTA 大模型（Claude 2）的4.80%。

GitHub地址：

https://github.com/CognitionAI/devin-swebench-results

Cognition AI