Product Design

편리함 뒤에 숨은 함정: AI가 작성한 '결과물'을 어디까지 믿어야 할까요?

AI가 작성한 결과물을 무비판적으로 수용할 때 발생하는 책임 소재의 모호성과 제품 설계 시 고려해야 할 '신뢰의 설계' 3가지 원칙을 살펴봅니다.

최PM

시니어 Product Manager

안녕하세요. 풀링포레스트 시니어 PM 최PM입니다.

요즘 우리 팀의 업무 방식, 정말 많이 변했습니다. 기획자인 저는 복잡한 PRD(제품 요구사항 정의서) 초안을 잡을 때 Claude의 도움을 받고, 개발자분들은 Cursor나 Github Copilot으로 코드를 뚝딱 만들어내죠. 솔직히 고백하자면, 저도 가끔 AI가 써준 문장이 너무 그럴듯해서 검토를 소홀히 하고 그대로 "복붙"하고 싶은 유혹에 시달립니다. 생산성이라는 달콤한 열매 앞에서 '검증'이라는 과정은 종종 귀찮은 장애물처럼 느껴지기 때문입니다.

하지만 최근 미국의 전자프런티어재단(EFF)에서 발표한 '2025년 AI 경찰 보고서'를 읽고, 등골이 서늘해지는 기분을 느꼈습니다. 오늘은 이 사례를 통해 우리가 제품을 만들 때, 그리고 AI 도구를 사용할 때 반드시 지켜야 할 '신뢰의 설계'에 대해 이야기해보고자 합니다.

효율성이라는 이름의 '은폐'

EFF의 보고서에 따르면, 미국 경찰들은 Axon사의 'Draft One'이라는 도구를 사용해 바디캠 오디오를 바탕으로 사건 보고서를 자동 작성하고 있습니다. 여기까지는 우리네 업무 자동화와 크게 다르지 않아 보입니다. 문제는 그다음입니다.

이 소프트웨어는 '투명성 삭제(Transparency Deletion)'를 의도적인 기능으로 탑재했습니다. 경찰관이 AI가 써준 초안을 수정하여 최종 보고서를 제출하면, AI가 작성했던 원본 초안은 시스템에서 즉시 삭제됩니다. Axon의 PM은 이를 두고 "고객(경찰)과 검찰이 겪을 골치 아픈 법적 공방을 피하기 위한 의도적인 설계"라고 밝혔습니다.

이게 무슨 의미일까요? 나중에 법정에서 보고서 내용이 사실과 다를 때, 경찰관은 "아, 그건 AI가 쓴 부분이라 실수였나 봅니다"라고 변명하거나, 반대로 AI가 쓴 부분을 자신이 쓴 것처럼 위장할 수 있게 됩니다. 책임의 소재가 불분명해지는 것입니다.

블랙박스 제품이 초래하는 위기

프로덕트 매니저의 관점에서 이 사례는 전형적인 '다크 패턴(Dark Pattern)'의 일종으로 보입니다. 사용자의 단기적인 편의(법적 책임 회피)를 위해, 시스템 전체의 신뢰도(사법 정의)를 희생시켰기 때문입니다.

우리 개발 환경으로 치환해 볼까요? 주니어 개발자가 Copilot으로 복잡한 비즈니스 로직을 짰습니다. 그런데 코드가 어떻게 작동하는지 이해하지 못한 채 커밋을 올립니다. PR 리뷰어는 "AI가 짰으니 문법 오류는 없겠지" 하고 대충 넘어갑니다. 나중에 치명적인 버그가 터졌을 때, 로그를 까봐도 '왜' 이런 로직이 생성되었는지, 개발자가 어디를 수정했는지 추적할 수 없다면? 그것은 재앙입니다.

EFF 보고서에 따르면 캘리포니아와 유타주는 이에 맞서 법안을 통과시켰습니다.

보고서에 AI가 생성했다는 고지(Disclaimer)를 넣을 것.
수정 이력(Audit Trail)을 남겨 원본과 최종본을 비교할 수 있게 할 것.

이는 우리에게 아주 중요한 제품 설계 프레임워크를 시사합니다.

신뢰 가능한 AI 프로덕트를 위한 3가지 원칙

풀링포레스트에서 우리가 AI 기능을 제품에 녹이거나, 혹은 내부적으로 활용할 때 다음 세 가지를 기억했으면 합니다.

1. 출처의 명시 (Attribution)

사용자에게, 그리고 동료에게 '이것은 기계가 생성한 초안임'을 명확히 밝혀야 합니다. 제가 기획서 한구석에 (Drafted by Claude 3.5 Sonnet, Reviewed by Human)이라고 적는 이유도 이 때문입니다. AI는 도구일 뿐, 최종 책임자는 '사람'이어야 합니다.

2. 버전 관리와 감사 (Auditability)

Axon의 사례에서 가장 큰 패착은 '원본 삭제'였습니다. 우리는 반대로 가야 합니다. AI가 제안한 코드나 텍스트가 무엇이었고, 인간이 어디를 수정했는지 기록이 남아야 합니다. Git의 커밋 히스토리가 중요한 것처럼, 의사결정 과정에서의 'Diff'를 보존해야 나중에 문제가 생겼을 때 원인을 파악(Troubleshooting)할 수 있습니다.

3. 휴먼 인 더 루프 (Human-in-the-loop)

워싱턴주 킹 카운티 검찰은 "기술 발전을 두려워하지 않지만, 신뢰할 수 없는 현재의 보고서는 받지 않겠다"고 선언했습니다. 기술이 아무리 발전해도, 맥락을 판단하고 윤리적인 결정을 내리는 것은 인간의 몫입니다. AI가 뱉어낸 결과물을 검증 없이 통과시키는 것은 '생산성 향상'이 아니라 '직무 유기'에 가깝습니다.