
의료 AI 검색, 단순한 정보 찾기가 아닌 '근거'를 확보하는 과정에 대하여
의료 AI 검색이 단순한 정보 탐색을 넘어 '근거 기반 의학'을 어떻게 지원하는지, RAG 기술과 SOAP Note 통합의 중요성을 중심으로 풀링포레스트 CTO 송찬영이 분석합니다.
송찬영
CTO

안녕하세요. 풀링포레스트 CTO 송찬영입니다.
최근 RAG(Retrieval-Augmented Generation, 검색 증강 생성) 기술이 다양한 도메인에 적용되는 사례를 유심히 지켜보고 있습니다. 특히 방대한 지식이 축적되어 있고, 그 지식의 정확성이 무엇보다 중요한 의료 분야에서의 시도들은 기술적으로나 비즈니스적으로나 시사하는 바가 큽니다. 오늘은 최근 해커뉴스(Hacker News)에 소개된 'Evidex'라는 서비스를 보며, 전문 분야에서의 AI 검색이 나아가야 할 방향에 대해 이야기해보고자 합니다.
의료 현장의 고질적인 문제: 정보의 홍수와 결정의 순간
CTO로서 기술적 의사결정을 내릴 때도 마찬가지지만, 의사 선생님들이 진료 현장에서 겪는 고충은 상상 이상일 것입니다. 매일 수천 건의 새로운 의학 논문이 쏟아져 나오고, 환자의 증상은 교과서처럼 정형화되어 있지 않으니까요. 의사는 제한된 진료 시간 안에 최신의학 지식과 환자의 상태를 결합해 최적의 판단을 내려야 합니다.
여기서 핵심은 '검색' 자체가 아닙니다. 구글링을 잘하는 것이 중요한 게 아니라, 내 눈앞의 환자에게 적용할 수 있는 '신뢰할 수 있는 근거(Evidence)'를 얼마나 빠르게 확보하느냐가 관건입니다.
Evidex가 주목받는 이유는 바로 이 지점을 파고들었기 때문입니다. PubMed(미국 국립의학도서관 데이터베이스)나 OpenAlex 같은 검증된 학술 데이터베이스, 그리고 임상 현장의 기록인 SOAP Note(주관적 증상, 객관적 징후, 평가, 계획)를 RAG 기술로 엮어냈다는 점이 흥미롭습니다.
왜 일반 LLM만으로는 부족한가: 할루시네이션과 전문성의 한계
솔직히 말해, 챗GPT나 클로드 같은 범용 LLM에게 "이 환자의 증상이 이런데 어떤 치료법이 좋을까?"라고 물어보면 그럴듯한 답변을 내놓습니다. 하지만 의료 영역에서 '그럴듯함'은 치명적인 독이 될 수 있습니다. 우리가 흔히 말하는 할루시네이션(Hallucination, 환각) 현상 때문입니다. 없는 논문을 있는 것처럼 인용하거나, 잘못된 용량을 제안한다면 그것은 단순한 버그가 아니라 사고로 이어집니다.
그래서 전문 도메인에서는 RAG가 필수적입니다. LLM이 가진 유창한 언어 능력은 활용하되, 지식의 원천은 철저히 검증된 데이터베이스로 제한하는 것이죠. Evidex의 접근 방식이 바로 이렇습니다. AI가 무작위로 말을 지어내는 것이 아니라, "PubMed의 이 논문, 그리고 유사한 사례의 SOAP Note를 근거로 보았을 때 이런 판단이 가능합니다"라고 제시하는 구조입니다.

풀링포레스트에서 기업용 AI 솔루션을 설계할 때도 우리는 항상 이 원칙을 고수합니다. "AI의 창의성은 기획 단계에서 필요하지만, 실행 단계에서는 엄격한 통제가 필요하다." 특히 법률, 금융, 의료와 같이 규제가 강하고 정확도가 생명인 분야에서는 더더욱 그렇습니다.
SOAP Notes의 통합: 현장의 맥락을 읽다
개인적으로 Evidex에서 가장 인상 깊었던 점은 단순히 논문만 검색하는 것이 아니라 'SOAP Notes'를 통합했다는 점입니다. 논문은 이론적 완벽함을 추구하지만, 임상 노트는 현장의 불확실성과 맥락을 담고 있습니다.
개발자로 비유하자면, 공식 API 문서를 보는 것과 스택오버플로우(Stack Overflow)나 깃허브 이슈(GitHub Issues)를 찾아보는 것의 차이라고 할까요? 공식 문서는 정답을 말해주지만, 실제 개발 과정에서 발생하는 예외 상황과 엣지 케이스(Edge Case)들은 동료들의 기록 속에 숨어 있는 경우가 많습니다.
의료진이 작성한 비정형 데이터인 SOAP Note를 RAG 파이프라인에 태웠다는 것은, 단순히 지식을 검색하는 것을 넘어 '경험을 검색' 가능하게 만들겠다는 의도로 읽힙니다. 이는 우리 개발자들이 레거시 코드를 분석할 때 주석이나 커밋 메시지에서 힌트를 얻는 과정과도 흡사합니다. AI가 이 비정형 텍스트들 사이의 패턴을 찾아내어 "이런 증상을 가진 환자군에서는 A 치료법보다 B 치료법의 예후가 더 좋았습니다"라고 제안할 수 있다면, 그것이야말로 진정한 의미의 '근거 기반 의학(Evidence-based Medicine)'이 될 것입니다.
기술 리더로서의 고민: 정확도와 속도, 그리고 UX
하지만 이런 시스템을 구축하는 것은 말처럼 쉽지 않습니다. 저희 팀에서도 RAG 시스템을 구축하며 뼈저리게 느끼는 문제들이 있습니다.
검색 품질(Retrieval Quality): 사용자의 질문 의도를 정확히 파악하여, 수백만 건의 문서 중 정말 필요한 3~5개의 맥락(Chunk)을 제대로 가져올 수 있는가?
지연 시간(Latency): 진료 현장에서는 1분 1초가 급합니다. 답변을 생성하는 데 10초 이상 걸린다면 아무리 정확해도 외면받을 것입니다.
답변의 출처 명시(Citation): AI가 내놓은 답을 의사가 검증할 수 있도록, 반드시 원문 링크와 근거를 투명하게 보여줘야 합니다.
Evidex와 같은 시도들이 성공하기 위해서는 단순히 AI 모델의 성능을 높이는 것을 넘어, 의사라는 사용자의 워크플로우를 방해하지 않는 직관적인 UX가 필수적일 것입니다.
마치며: AI는 전문가를 대체하는 것이 아니라 증강(Augment)한다
Evidex의 사례를 보며 다시금 확신하게 되는 것은, AI의 역할이 전문가의 자리를 빼앗는 것이 아니라 그들의 판단을 돕는 강력한 도구(Tool)가 되어가고 있다는 사실입니다.
풀링포레스트가 추구하는 기술의 방향성도 이와 같습니다. 우리는 AI를 통해 개발자가 더 가치 있는 코드에 집중하게 하고, 기획자가 더 창의적인 아이디어를 내게 하며, 의사가 더 정확한 진단을 내릴 수 있도록 돕고 싶습니다.
기술 트렌드는 빠르게 변하지만, 본질은 변하지 않습니다. 결국 기술은 사람을 향해야 하고, 현장의 문제를 해결해야 합니다. 의료 AI 검색 서비스들이 앞으로 어떻게 진화하며 의료 현장의 풍경을 바꾸어 나갈지, 그리고 우리는 각자의 도메인에서 어떤 '근거 기반'의 혁신을 만들어낼 수 있을지 기대가 됩니다.
감사합니다.


