대기업 소비재 부문 10개 사이트 제품 정보 크롤링
대기업 소비재 부문의 경쟁사 제품 정보를 자동으로 수집·분석하는 크롤링 시스템을 구축한 사례입니다.
크롤링 사이트
개발 기간
자동 수집 주기
월간 수집 데이터
배경
이 대기업 소비재 부문은 시장 경쟁력 확보를 위해 경쟁사 제품 동향을 지속적으로 모니터링해야 했습니다. 마케팅전략팀 직원들이 경쟁사 10개 사이트의 제품 가격, 스펙, 리뷰 등을 매일 수작업으로 수집하고 엑셀에 정리하는 비효율적인 프로세스가 반복되고 있었습니다. 수작업 수집은 시간이 오래 걸릴 뿐 아니라 데이터 누락과 입력 오류가 빈번하여 분석 결과의 신뢰도에 영향을 미치고 있었습니다. 소비재 시장은 가격 변동과 신제품 출시가 빈번하여 실시간에 가까운 정보 수집이 경쟁 전략 수립에 필수적이었습니다. 이에 경쟁사 제품 정보를 자동으로 수집하고 분석하는 크롤링 시스템 구축을 추진하게 되었습니다.
과제
경쟁사 10개 사이트는 각각 HTML 구조, 동적 로딩 방식, 접근 제한 정책이 달라 범용적인 크롤링 로직 설계가 기술적 난제였습니다. 일부 사이트는 JavaScript 기반 동적 렌더링을 사용하여 단순 HTTP 요청으로는 데이터 수집이 불가능한 경우도 있었습니다. 사이트 리뉴얼이나 구조 변경이 수시로 발생하므로 이에 유연하게 대응할 수 있는 유지보수성이 높은 아키텍처가 필요했습니다. 수집된 데이터의 포맷, 단위, 카테고리 체계가 사이트마다 상이하여 통합 분석을 위한 데이터 정규화와 정합성 자동 검증 체계가 요구되었습니다. 크롤링 대상 사이트의 서버에 부하를 주지 않으면서도 필요한 데이터를 빠짐없이 수집하는 윤리적이고 효율적인 수집 전략도 중요한 고려사항이었습니다.
접근
사이트별 크롤링 어댑터 패턴을 적용하여 10개 사이트 각각에 대한 전용 파서를 독립 모듈로 개발하는 구조를 설계했습니다. 이 아키텍처 덕분에 특정 사이트의 구조가 변경되어도 해당 어댑터만 수정하면 전체 시스템에 영향을 주지 않습니다. 동적 렌더링 사이트에 대해서는 헤드리스 브라우저를 활용한 수집 방식을 적용하여 JavaScript로 생성되는 콘텐츠도 완전히 수집할 수 있도록 했습니다. 스케줄러 기반 자동 수집 체계를 구성하여 매일 지정된 시간에 전체 사이트를 순회하고, 가격 변동이나 신제품 등록 시 즉시 알림을 발송하는 감지 체계를 마련했습니다. 수집 속도를 사이트별로 조절하는 적응형 딜레이 전략을 적용하여 대상 서버에 과부하를 주지 않도록 배려했습니다.
솔루션
10개 사이트 전용 크롤링 어댑터, 스케줄 기반 자동 수집 엔진, 데이터 정합성 검증 모듈을 갖춘 통합 크롤링 시스템을 구축했습니다. 수집된 원시 데이터를 통일된 스키마로 정규화하고, 중복 제거 및 이상값 검출을 자동으로 수행하는 데이터 품질 관리 파이프라인을 구현했습니다. 가격 변동 추이, 신제품 출시 현황, 소비자 리뷰 트렌드를 분류하여 인터랙티브 대시보드에서 시각화하고 필터링할 수 있습니다. 주간 및 월간 경쟁사 동향 요약 리포트를 자동 생성하여 담당자에게 이메일로 발송하는 기능도 구현했습니다. 크롤링 실패나 데이터 이상 감지 시 즉시 담당자에게 알림을 보내는 모니터링 체계를 갖추어 시스템 안정성을 확보했습니다.
성과
10개 경쟁사 사이트의 제품 정보를 매일 자동으로 수집하는 크롤링 시스템을 성공적으로 구축하여 운영 중입니다. 월간 5만 건 이상의 데이터가 체계적으로 수집 및 분류되어 경쟁사 동향 파악의 정확도와 속도가 비약적으로 향상되었습니다. 가격 변동, 신제품 출시, 리뷰 트렌드를 대시보드를 통해 한눈에 파악할 수 있어 마케팅 전략 수립의 근거 자료로 적극 활용되고 있습니다. 수작업 수집에 투입되던 인력이 데이터 분석과 전략 기획 업무에 재배치되어 팀의 생산성이 크게 향상되었습니다. 이 프로젝트의 성공을 바탕으로 해외 경쟁사 사이트로의 크롤링 범위 확대도 후속 과제로 추진되고 있습니다.
마케팅전략팀국내 대기업 소비재 부문경쟁사 제품 동향을 실시간으로 파악할 수 있게 되어 전략 수립이 빨라졌습니다.