POOOLING FOREST
AI를 AI로 검증하다: 확장 가능한 구술시험 시스템의 가능성 - 생성형 AI 시대, 서면 결과물만으로는 실력을 검증하기 어려워졌습니다. Voice AI Agent를 활용한
AI

AI를 AI로 검증하다: 확장 가능한 구술시험 시스템의 가능성

생성형 AI 시대, 서면 결과물만으로는 실력을 검증하기 어려워졌습니다. Voice AI Agent를 활용한 확장 가능한 구술시험 시스템의 가능성과 비용 효율성, UX 고려사항을 살펴봅니다.

송찬영

CTO

안녕하세요. 풀링포레스트 CTO 송찬영입니다.

최근 채용 인터뷰나 사내 기술 평가를 진행하다 보면 기묘한 괴리감을 느낄 때가 있습니다. 제출된 사전 과제나 포트폴리오의 코드는 시니어 레벨 뺨칠 정도로 완벽한데, 정작 대면해서 "왜 이 라이브러리를 선택했나요?"라고 물으면 말문이 막히는 경우가 빈번해졌기 때문입니다. 생성형 AI가 보편화되면서, 서면 결과물만으로 개인의 역량을 검증하던 '옛 균형'은 완전히 무너졌습니다. 문서를 만들어내는 능력과 그것을 실제로 이해하고 방어하는 능력 사이의 격차가 그 어느 때보다 벌어진 것이죠.

이 문제를 해결하기 위해 많은 조직이 가장 고전적인 방식인 '구술시험(Oral Exam)'으로의 회귀를 고민합니다. 실시간 추론 능력과 문제 해결 과정을 직접 듣는 것만큼 확실한 검증은 없으니까요. 하지만 여기엔 치명적인 문제가 있습니다. 바로 '확장성(Scalability)'입니다. 수십 명의 지원자나 수강생을 일일이 면접하려면 막대한 시니어 엔지니어의 리소스가 투입됩니다. 이는 기업 입장에서 일종의 '인질극'과도 같은 비효율입니다.

최근 이 딜레마를 해결할 흥미로운 기술적 접근을 분석하게 되어 그 내용을 공유하려 합니다. 바로 'Voice AI Agent'를 면접관으로 활용해 구술시험을 자동화하는 방식입니다.

AI로 불을 끄다 (Fighting Fire with Fire)

핵심은 간단합니다. LLM을 이용해 과제를 해결하는 지원자들에 맞서, 평가자 역시 AI를 무기로 삼는 것입니다. ElevenLabs Conversational AI와 같은 도구를 활용하면, 복잡한 STT(Speech-to-Text)나 TTS 엔지니어링 없이도 꽤 그럴듯한 면접관 에이전트를 몇 분 만에 구축할 수 있습니다. 단순히 수다를 떠는 챗봇이 아닙니다. 지원자의 프로젝트 맥락을 '동적 변수(Dynamic variables)'로 주입하고, 인증부터 프로젝트 설명, 심층 케이스 스터디로 이어지는 워크플로우를 하위 에이전트(Sub-agents)로 쪼개어 설계함으로써 체계적인 압박 면접을 구현하는 것입니다.

이 시스템의 가장 큰 충격은 '단위 경제성'에 있습니다. 실제 사례를 분석해보면, 학생 36명을 대상으로 25분씩 구술시험을 진행하는 데 든 비용은 학생당 단 0.42달러, 총 15달러 수준이었습니다. 반면, 이를 사람(TA나 교수)이 직접 수행했다면 약 30시간의 노동력과 750달러 이상의 비용이 소요됐겠죠. Claude와 Gemini를 활용한 채점 결과 역시 인간 평가자와 89% 이상 일치했습니다. "비용 때문에 구술면접을 못 한다"는 핑계는 기술적으로 더 이상 유효하지 않게 되었습니다.

기술보다 중요한 건 '인터페이스의 배려'

물론, 이러한 시스템을 도입할 때 기술적인 구현보다 더 신경 써야 할 부분은 UX, 즉 '인간에 대한 배려'였습니다. 초기 모델의 실패 사례를 보면 기술적 완성도가 오히려 독이 되기도 했습니다.

  1. 위압적인 목소리: 너무 권위적인 교수의 목소리를 완벽하게 복제했더니, 응시자들이 위축되어 제 실력을 발휘하지 못했습니다. 평가의 목적은 카리스마 과시가 아니라 이해도 측정이어야 합니다.

  2. 질문 폭탄: 에이전트가 한 번에 4~5개의 질문을 쏟아내는 경우입니다. "지표 선택 이유와 기준선은 뭐였고, 왜 X는 안 썼으며, 다음 계획은 뭔가요?" 같은 질문은 사람도 답하기 힘듭니다. 프롬프트 단계에서 "한 번에 하나의 질문만 할 것"을 강제해야 합니다.

  3. 침묵을 못 견디는 AI: 응시자가 생각을 정리하려고 잠시 멈추면, 에이전트가 이를 대답 못 하는 것으로 간주하고 끼어드는 문제입니다. 인터뷰는 심문이 아닙니다. 충분한 대기 시간을 허용하는 것이 중요합니다.

결론: 우리는 무엇을 검증하고 있는가?

이러한 시도는 단순히 비용을 아끼자는 차원을 넘어서, 우리가 평가하려는 본질이 무엇인지 다시 생각하게 합니다. AI가 코드를 짜주는 세상에서 중요한 건 '작성'이 아니라 '설명'과 '방어'입니다.

기술 리더로서 우리는 변화하는 환경에 맞춰 도구를 바꿔야 할 의무가 있습니다. AI 에이전트를 활용한 구술시험은 단순히 평가의 효율을 높이는 것을 넘어, 조직 전체의 엔지니어링 문화를 '진짜 이해' 기반으로 전환하는 강력한 트리거가 될 수 있습니다. 여러분의 조직은 지금 구성원의 진짜 실력을 보고 계신가요, 아니면 LLM이 만들어낸 환상을 보고 계신가요? 냉철하게 질문을 던져볼 시점입니다.

지금 읽으신 내용, 귀사에 적용해보고 싶으신가요?

상황과 목표를 알려주시면 가능한 옵션과 현실적인 도입 경로를 제안해드립니다.