OpenAI SWE-Lancer: Benchmark fürs KI-Software Engineering – Chancen und Grenzen der Automatisierung
OpenAI SWE-Lancer ist das realistischste Benchmark für KI im Software Engineering und bewertet Modelle anhand realer Aufgaben und ökonomischer Wirkung.