(Simon Willison) SWE-bench 2026년 2월 리더보드: AI 코딩 모델 성능 비교 분석 | OSMU Blog