Engineering & Tech

막은 쪽 옆에서, 누군가 문을 열었다

한쪽이 규제로 최상위 모델을 닫은 직후, 중국 Zhipu가 GLM 5.2를 MIT로 풀었다. 오픈웨이트가 처음으로 장시간 코딩 에이전트에서 Claude Opus급에 붙은 순간을 기록한다.

송찬영

CTO

어느 날, 한쪽 문이 닫혔다. 미국 정부 규제로 Claude Fable 5가 막혔다. 그리고 거의 곧바로, 다른 문이 열렸다. 중국 Zhipu가 GLM 5.2를 MIT 라이선스로, 지역 제한 없이 풀었다. 막은 쪽 바로 옆에서 누군가 카드를 깐 셈이다.

새벽 사무실에서 여러 모니터에 흐르는 코딩 에이전트 로그를 지켜보는 개발자

처음엔 또 중국 모델이 벤치 점수 잘 받았다는 얘기겠거니 했다. 직접 돌려보고 생각을 바꿨다. 이번 건 단순히 코딩 점수가 높은 모델이 아니다.

오픈웨이트 모델이 처음으로, 장시간 코딩 에이전트 영역에서 Claude Opus와 GPT-5.5급에 실제로 붙었다.

지금까지 열린 모델은 짧은 함수 생성에서는 따라와도, 몇 시간짜리 실제 엔지니어링에서는 늘 벌어졌다. 그 격차가 좁혀진 게 이번 사건의 본질이다. 그래서 성능 얘기만으로 끝나지 않았다. 개방성과 접근권이 함께 걸렸다.

프론트엔드 코딩 블라인드 평가 2위

두 개의 화면을 나란히 두고 더 나은 쪽을 고르는 블라인드 비교 평가 장면

Arena Code WebDev에서 GLM 5.2 Max는 전체 2위다. Claude Fable 5 다음이고, Opus 4.7과 4.8보다 높은 점수를 받았다. 사람이 두 결과물을 블라인드로 비교해 고르는 평가라, 벤치마크 점수보다 체감에 가깝다.

가격은 입력 100만 토큰당 1.4달러, 출력 4.4달러다. Opus 계열보다 훨씬 낮다. 성능이 붙었는데 단가가 한 자릿수 배로 싸면, 선택의 무게중심이 흔들린다.

몇 시간짜리 실제 과제에서도 강하다

FrontierSWE에서 GLM 5.2는 3위다. Fable 5와 Opus 4.8 다음이고, Opus 4.8과 사실상 비슷하며 GPT-5.5보다 조금 높다. 이 벤치마크가 의미 있는 건 평가하는 일의 종류 때문이다. 단순 함수 작성이 아니라 다른 언어로 시스템을 재구현하고, 성능을 최적화하고, 머신러닝 실험을 돌리는 긴 작업을 본다.

짧은 데모에서 잘하는 모델은 많다. 한두 시간을 끌고 가는 에이전트에서 끝까지 버티는 건 다른 문제다. 오픈웨이트가 거기서 처음 붙었다.

1M 컨텍스트를 코딩 에이전트에 제대로 연결했다

최대 100만 토큰 문맥에 12만 8천 토큰 출력을 지원한다. 큰 코드베이스, 테스트, 문서, 설정, 이전 대화 기록을 한 작업 흐름에 오래 유지하도록 설계됐다. IndexShare라는 방식으로 100만 토큰 구간의 토큰당 연산량을 2.9배 줄였다고 발표했다.

긴 컨텍스트는 이제 흔하다. 중요한 건 그걸 장시간 에이전트가 끌고 가도 비용과 속도가 무너지지 않게 붙였다는 점이다.

MIT 라이선스와 Claude Code 호환을 동시에 가졌다

가중치가 MIT라 다운로드, 수정, 양자화, 자체 호스팅, 상용 활용이 모두 된다. 동시에 Claude Code에서는 API 주소와 모델명만 바꿔 바로 쓴다. 기술이 좋아도 도입하기 어려운 모델이 많다. 출시 직후 기존 에이전트 환경에 그대로 꽂힌다는 점이 확산 속도를 키웠다.

다만, 과장은 걸러야 한다

모든 면에서 1등은 아니다. 범용 대화는 Text Arena 전체 25위다. 글쓰기, 대화, 일반 질의까지 Claude나 GPT보다 낫다는 뜻은 아니다. 실사용 기반 Agent Arena에서는 전체 10위다. 작업 완료 확인율은 3위로 높았지만, 사용자가 중간에 방향을 바꿨을 때 반영하는 능력과 실패한 명령에서 복구하는 능력은 상위 폐쇄형보다 약했다. 추론 토큰도 꽤 쓴다. 단가는 싸도 무조건 가장 빠르고 저렴한 모델은 아니다.

그래서 나는 이걸 기본 모델을 통째로 교체할 후보로 보지 않는다. 길고 복잡한 엔지니어링 작업에만 라우팅하는 전용 모델로 붙일 자리라고 본다. 오래된 언어와 프레임워크에서 현대 스택으로 넘어가는 대규모 전환, 여러 모듈을 한 번에 읽어야 하는 구조 변경, 레거시 전체 아키텍처 분석 같은 일이다. 작은 기능과 일반 질의는 더 싸고 빠른 모델에 맡기면 된다.

그래서 무엇을 열고 무엇을 닫을 것인가

한 문장으로 줄이면 이렇다. 오픈웨이트 진영에서 처음으로 "저렴한 Claude Opus급 장기 코딩 에이전트"라는 표현이 크게 과장되지 않게 됐다.

그런데 내가 더 오래 들여다본 건 점수가 아니라 타이밍이다. 한쪽이 규제로 문을 닫은 그 자리에서, 다른 쪽이 MIT로 문을 열었다. 좋은 모델 하나가 더 생겼다는 뉴스보다, 개방성이 곧 전략이 된 장면이 더 길게 남는다.

질문은 하나로 남는다. 당신의 조직은 무엇을 열고, 무엇을 닫을 것인가.

지금 읽으신 내용, 귀사에 적용해보고 싶으신가요?

상황과 목표를 알려주시면 가능한 옵션과 현실적인 도입 경로를 제안해드립니다.

프로젝트 문의 솔루션 보기

기술 리더십AI 인프라오픈웨이트코딩 에이전트LLM

막은 쪽 옆에서, 누군가 문을 열었다

프론트엔드 코딩 블라인드 평가 2위

몇 시간짜리 실제 과제에서도 강하다

1M 컨텍스트를 코딩 에이전트에 제대로 연결했다

MIT 라이선스와 Claude Code 호환을 동시에 가졌다

다만, 과장은 걸러야 한다

그래서 무엇을 열고 무엇을 닫을 것인가

지금 읽으신 내용, 귀사에 적용해보고 싶으신가요?

Related Articles

GPU 다음은 SSD였다

AI가 코드를 다 짜주는 시대, 경쟁력은 어디서 갈리나

에이전트는 똑똑한데, 우리 회사를 모른다