AI챗봇 설계의 딜레마: 규칙과 자유 사이에서 균형 잡기

풀링포레스트 CTO가 전하는 AI 챗봇 설계 전략. 환각 현상을 극복하고 비즈니스 안정성을 확보하기 위한 규칙 기반 시스템과 생성형 AI의 하이브리드 설계 노하우를 공개합니다.

송찬영

CTO

안녕하세요. 풀링포레스트 CTO 송찬영입니다.

최근 개발자 채용 면접을 진행하다 보면 흥미로운 변화가 감지됩니다. 예전에는 "어떤 프레임워크를 쓸 줄 아느냐"가 주된 대화 주제였다면, 요즘은 "LLM(거대 언어 모델)을 어떻게 제품에 녹여낼 것인가"에 대한 고민을 나누는 시간이 늘었습니다. 특히 많은 기업이 생성형 AI 도입을 서두르면서, 기존에 사용하던 챗봇 시스템을 어떻게 고도화할지에 대한 질문을 많이 받습니다.

솔직히 고백하자면, 저 역시 처음에는 '이제 모든 것을 LLM에게 맡기면 되겠다'는 안일한 생각을 한 적이 있습니다. 챗GPT가 등장했을 때 느꼈던 그 전율, 아마 다들 기억하실 겁니다. 규칙 기반(Rule-based) 시나리오를 짜느라 밤새 머리를 쥐어짜던 고통에서 해방될 줄 알았죠. 하지만 막상 현업에 적용해 보니 현실은 그리 녹록지 않았습니다.

환각과 통제 불가능성, 그 뼈아픈 경험

저희 팀에서도 야심 차게 생성형 AI만으로 구동되는 고객 응대 봇을 테스트한 적이 있습니다. 초기 반응은 폭발적이었습니다. 문맥을 이해하고 자연스럽게 대화하는 능력은 기존의 딱딱한 버튼식 챗봇과는 차원이 달랐으니까요. 하지만 곧 치명적인 문제가 터져 나왔습니다.

AI가 없는 할인 정책을 고객에게 아주 친절하게 안내해 버린 겁니다. "이번 달 신규 가입자에게는 평생 무료 혜택을 드립니다"라는 문구를 뱉어냈을 때, 등 뒤에서 식은땀이 흘렀습니다. 심지어 환불 규정에 대해서도 회사의 정책과 정반대되는 답변을 너무나 논리 정연하게 설명했습니다.

우리가 간과했던 것은 '비즈니스 로직의 엄격함'이었습니다. 생성형 AI챗봇은 훌륭한 대화 상대이지만, 회사의 돈과 신뢰가 걸린 문제에서 100% 신뢰할 수 있는 결정권자는 아니었습니다. 반면, 기존의 규칙 기반 챗봇은 답답하고 유연성은 없지만, 적어도 정해진 정책을 어기지는 않습니다.

결국 우리는 깨달았습니다. 어느 한쪽을 선택하는 것이 아니라, 두 기술의 장점만을 취하는 '하이브리드 전략'이 필요하다는 것을요.

하이브리드 설계: 통제와 유연함의 조화

하이브리드 챗봇을 설계할 때 가장 중요한 원칙은 '책임의 분리'입니다. 저희 풀링포레스트 팀은 이를 위해 챗봇의 역할을 크게 두 가지 층위로 나누었습니다.

첫 번째는 '의도 파악(Intent Classification)' 단계입니다. 과거에는 키워드 매칭으로 사용자의 의도를 파악했다면, 이제는 LLM을 활용해 사용자의 자연어를 분석합니다. "환불해주세요"라고 말하든, "이거 못 쓰겠어요, 돈 돌려줘요"라고 말하든, AI는 이를 정확히 '환불 요청'이라는 의도로 분류해 냅니다.

두 번째는 '실행 및 응답(Execution & Response)' 단계입니다. 여기서 갈림길이 나옵니다. 만약 사용자의 의도가 '환불', '결제', '개인정보 변경'처럼 비즈니스 리스크가 크고 정확성이 요구되는 영역이라면, LLM의 입을 막고 규칙 기반 시스템으로 제어권을 넘깁니다. 정해진 API를 호출하고, 미리 승인된 텍스트 템플릿으로 답변을 출력합니다.

반면, '제품 추천', '사용법 안내', '일상적인 대화'처럼 유연성이 필요한 영역이라면 생성형 AI에게 마이크를 넘깁니다. RAG(검색 증강 생성) 기술을 활용해 최신 매뉴얼을 참고하게 하되, 답변의 톤 앤 매너는 AI가 자유롭게 생성하도록 두는 것이죠.

CTO가 제안하는 실전 체크리스트

기술 리더로서 하이브리드 AI챗봇을 도입하려는 팀에게 제안하고 싶은 체크리스트는 다음과 같습니다.

시나리오의 위험도 평가(Risk Assessment): 우리 서비스에서 절대 틀리면 안 되는 답변은 무엇인가? (예: 금융 거래, 법적 고지, 환불 정책). 이 영역은 반드시 규칙 기반으로 묶어두세요.
핸드오프(Hand-off) 전략 수립: AI가 답변을 생성하다가 모르는 내용이 나오거나, 사용자가 상담원 연결을 원할 때 얼마나 매끄럽게 전환할 수 있는가? LLM이 "죄송합니다, 이 부분은 상담원을 연결해 드릴까요?"라고 묻고, 실제로 시스템이 상담원 툴을 호출하는 로직이 유기적으로 연결되어야 합니다.
가드레일(Guardrail) 구축: 생성형 AI가 답변하는 영역이라 할지라도 최소한의 안전장치는 필요합니다. 경쟁사 언급 금지, 비속어 필터링, 프롬프트 인젝션 방어 등은 엔지니어링 단계에서 필수적으로 고려해야 합니다.
피드백 루프 설계: 규칙 기반 시나리오는 수정이 번거롭습니다. 반면 AI 모델은 데이터가 쌓일수록 똑똑해질 수 있습니다. 상담 로그를 분석해 규칙이 필요한 영역을 AI 영역으로 넘기거나, 반대로 AI가 자꾸 실수하는 영역을 규칙으로 강제하는 지속적인 튜닝 과정이 필요합니다.

기술은 도구일 뿐, 핵심은 가치 전달

최근 챗봇 시장의 트렌드를 보면 모든 것을 LLM 하나로 해결하려는 'All-in AI' 접근이 유행처럼 번지고 있습니다. 하지만 기술 리더십의 관점에서 볼 때, 가장 우아한 아키텍처는 가장 최신 기술을 쓴 것이 아니라, 문제 해결에 가장 적합한 기술을 적재적소에 배치한 것입니다.

규칙 기반 시스템은 낡은 기술이 아니라 '안전한' 기술입니다. 생성형 AI는 마법 지팡이가 아니라 '유연한' 도구입니다. 이 둘을 어떻게 배합하느냐가 결국 우리 서비스의 퀄리티를 결정합니다.

풀링포레스트에서도 여전히 이 배합 비율을 맞추기 위해 매일 씨름하고 있습니다. 때로는 규칙이 너무 빡빡해서 고객이 답답해하고, 때로는 AI가 너무 자유분방해서 운영팀이 놀라기도 합니다. 하지만 그 시행착오 과정 자체가 엔지니어링 문화의 성숙이라고 믿습니다.

여러분도 "AI냐 규칙이냐"의 이분법에서 벗어나, "어떻게 섞어야 우리 고객에게 최고의 경험을 줄까"를 고민해 보셨으면 좋겠습니다. 그 고민 끝에 탄생할 여러분만의 하이브리드 전략을 기대하겠습니다.