SWE-bench Pro in locale: misurare davvero i coding agent senza farsi ingannare dai benchmark
SWE-bench Pro nasce per valutare coding agent su task software più realistici e meno saturi dei benchmark precedenti. Ho iniziato a eseguirlo in locale per c...