
애플이 공개한 '1초 만에 3D 만들기', SHARP가 가져올 변화의 본질
애플이 공개한 SHARP(ml-sharp) 모델이 3D 에셋 제작의 병목을 어떻게 해결하고, 사용자 경험과 비즈니스 생산성에 어떤 혁신을 가져오는지 분석합니다.
송찬영
CTO

안녕하세요. 풀링포레스트 CTO 송찬영입니다.
기술 리더로서 매일 쏟아지는 새로운 논문과 오픈소스를 보며 늘 두 가지 질문을 던집니다. "이것이 우리 팀의 생산성을 얼마나 바꿀 수 있는가?" 그리고 "이 기술이 비즈니스 모델의 병목을 해결해 주는가?"입니다. 오늘은 이 두 질문에 대해 꽤나 명쾌한 답을 주는 흥미로운 프로젝트, 애플의 ml-sharp에 대해 이야기해보려 합니다.
솔직히 말해, 지난 몇 년간 3D 자산(Asset)을 만드는 과정은 고통 그 자체였습니다. 저희 팀에서도 제품의 3D 뷰어를 도입하려다 포기한 적이 있었는데, 이유는 단순했습니다. 고품질의 3D 모델링을 하려면 전문 인력이 며칠씩 매달려야 했고, NeRF(Neural Radiance Fields) 같은 기술을 써보려 해도 학습 시간이 너무 길어 실시간 서비스에 녹여내기엔 무리였거든요.
그런데 며칠 전, 애플이 공개한 SHARP(Sharp Monocular View Synthesis in Less Than a Second) 라는 오픈소스 모델을 보고 적잖은 충격을 받았습니다.
기다림의 시대는 끝났다
이 모델의 핵심은 이름 그대로입니다. 단 한 장의 2D 사진만 있으면, 1초도 안 되는 시간(Less than a second)에 고해상도 3D 뷰를 만들어냅니다.
기존의 방식들은 여러 장의 사진을 찍어 위치를 대조하거나, 한 장면을 학습시키기 위해 GPU가 맹렬히 돌아가는 시간을 견뎌야 했습니다. 하지만 SHARP는 단일 이미지를 넣으면 즉시 3D Gaussian Splatting 파라미터를 뱉어냅니다. 이는 장면마다 최적화를 거치는 게 아니라, 이미 거대하게 학습된 신경망을 한 번 통과(Feedforward pass)하는 것만으로 결과를 만든다는 뜻입니다.

이게 왜 중요할까요? 바로 '사용자 경험(UX)의 즉시성' 때문입니다.
만약 우리가 쇼핑몰 앱을 만든다고 가정해 봅시다. 사용자가 자기 운동화를 찍어 올렸는데, "3D 모델 생성 중... 10분 뒤에 확인하세요"라고 뜬다면 아무도 그 기능을 쓰지 않을 겁니다. 하지만 SHARP처럼 0.n초 만에 결과가 나온다면 이야기가 달라집니다. 사진을 찍는 행위 자체가 곧 3D 콘텐츠 생성이 되는 것이죠.
기술적 디테일과 한계
직접 리포지토리를 뜯어보니 기술적인 완성도도 상당합니다. 단순히 모양만 흉내 내는 것이 아니라 'Metric Scale'을 지원한다는 점이 인상적이었습니다. 즉, 생성된 3D 객체가 실제 세계의 스케일 정보를 어느 정도 담고 있다는 뜻입니다. 이는 AR(증강현실)이나 계측이 필요한 산업 현장에서 매우 중요한 요소입니다.
성능 지표도 놀랍습니다. 기존 SOTA(State-of-the-Art) 모델 대비 LPIPS(이미지 지각 유사도) 오차를 25~34%나 줄였고, 속도는 세 자릿수 배수(100배 이상) 빨라졌습니다.
물론 100% 완벽할 수는 없습니다. 코드를 실행해 보면 gsplat 렌더러 초기화에 시간이 좀 걸리기도 하고, 좌표계가 OpenCV 기준(x 오른쪽, y 아래, z 전방)이라 타사 렌더러와 붙일 때 스케일링이나 회전 같은 전처리 작업이 필요합니다. 또한 비디오 렌더링 기능은 현재 CUDA GPU(엔비디아)에 의존하고 있습니다. 애플이 만들었지만, 딥러닝 생태계의 현실상 엔비디아 GPU가 여전히 필요한 아이러니한 상황이기도 하죠. 다행히 기본적인 추론(Inference)은 맥북의 MPS(Metal Performance Shaders)에서도 잘 돌아갑니다.
개발자가 준비해야 할 것
이제 "3D는 3D 아티스트의 영역"이라는 말은 옛말이 되어가고 있습니다. 2D 이미지를 다루듯 3D를 다루는 시대가 왔습니다. 우리 같은 개발자들은 무엇을 준비해야 할까요?
파이프라인의 변화를 감지하세요.
이제 서버에서 무거운 렌더링을 돌리는 게 아니라, 경량화된 모델을 클라이언트에 심거나 API로 호출하여 실시간으로 3D를 생성하는 구조를 고민해야 합니다. Python 3.13 환경과 PyTorch 생태계에 익숙해지는 것은 기본입니다.
데이터의 흐름을 보세요.
SHARP는
.ply파일 형태로 3D Gaussian 데이터를 내뱉습니다. 이 데이터를 웹이나 앱에서 어떻게 효율적으로 보여줄지, 용량은 어떻게 최적화할지 고민하는 것이 백엔드/프론트엔드 엔지니어의 새로운 과제가 될 겁니다.도구를 두려워하지 마세요.
가끔 "AI가 코딩도 하고 모델링도 하면 우린 뭐 먹고 사나" 걱정하는 주니어 분들을 봅니다. 하지만 기술은 인간의 시간을 아껴주는 도구일 뿐입니다. 지루한 모델링 작업을 AI에게 맡기고, 우리는 그 3D 데이터를 활용해 어떤 가치를 만들지에 집중하면 됩니다.
애플의 이번 공개는 단순한 기술 과시가 아닙니다. 2D와 3D의 경계를 허물겠다는 선언과도 같습니다. 주말에 시간이 되신다면 로컬 환경에 conda로 환경을 잡고, 여러분의 책상 위에 있는 컵을 찍어 sharp predict 명령어를 한번 날려보세요. 화면 속에서 입체적으로 떠오르는 컵을 보며, 다가올 미래를 미리 경험해 보시길 권합니다.
기술의 속도가 빠를수록, 그 원리를 이해하고 올라타는 사람이 기회를 잡습니다. 오늘도 끊임없이 배우고 성장하는 여러분을 응원합니다.


