AI 에이전트 전문가 라벨링이 필요한 이유, 아마존은 왜 AI 채용 도구를 폐기했나

06.09.2026

목차 숨기기

1 AI가 스스로 판단할 수 없는 영역, 전문가 라벨링이 채운다

2 AI 단독 판단의 한계 – 기업 실패 사례 3가지

3 왜 AI는 스스로 판단을 완성할 수 없는가

4 Human-in-the-Loop, 어떻게 설계해야 하는가

5 현장 데이터가 말해주는 것

6 결론 – 전문가 라벨링은 비용이 아니라 투자다

AI가 스스로 판단할 수 없는 영역, 전문가 라벨링이 채운다

에이전틱 AI(Agentic AI)는 이제 단순한 질의응답을 넘어 기업의 실제 업무를 자율적으로 수행하는 단계에 진입했습니다. 공급망 조정, 재무 분석, 고객 응대까지 AI 에이전트가 스스로 판단하고 실행하는 사례가 빠르게 늘고 있습니다. 그러나 이 흐름 이면에는 불편한 진실이 하나 있습니다. 자율성이 높아질수록, 데이터 설계의 실패가 초래하는 피해 역시 커진다는 것입니다.

본 글에서는 AI 에이전트 전문가 라벨링이 왜 필수적인지, 실제 기업 사례와 연구 데이터를 통해 구체적으로 살펴보겠습니다.

AI 단독 판단의 한계 – 기업 실패 사례 3가지

SuperAnnotate의 연구에 따르면, AI 단독 평가 시스템은 전문가 판단과 일치하지 않는 경우가 빈번한 것으로 나타났습니다.

사례 1. 아마존의 채용 AI – 편향된 데이터, 증폭된 차별

아마존은 2014년부터 이력서를 자동으로 평가하는 AI 채용 도구를 개발했습니다. 수십만 건의 이력서를 학습해 상위 5명을 추려내는 것이 목표였습니다. 그러나 2015년부터 심각한 문제가 발견됐습니다. 학습 데이터의 대부분이 남성 지원자의 이력서였고, AI는 이 패턴을 그대로 학습해 ‘여성(Women’s)’이라는 단어가 포함된 이력서를 체계적으로 낮게 평가하기 시작했습니다. 수차례 수정 시도에도 편향을 완전히 제거하지 못했고, 아마존은 결국 2017년 이 도구를 폐기했습니다.

핵심 원인은 하나입니다. 학습 데이터에 도메인 전문가의 검토 없이 역사적 편향이 그대로 반영된 것입니다. AI는 데이터에 내재된 패턴을 충실히 학습했을 뿐이지만, 그 결과는 차별이었습니다.

사례 2. 질로(Zillow)의 주택 가격 AI – 맥락 없는 자동화의 결말

미국 최대 부동산 플랫폼 질로(Zillow)는 2021년 자사의 주택 매입·판매 서비스 ‘Zillow Offers’를 전면 중단하고 전체 인력의 25%를 감원했습니다. 주된 원인은 AI 가격 산정 알고리즘의 실패였습니다. 알고리즘은 시장 변동성, 지역별 특수성, 물리적 상태 등 현장 전문가만이 감지할 수 있는 맥락적 정보를 반영하지 못했고, 결과적으로 수억 달러의 손실로 이어졌습니다.

자동화의 속도는 확보했지만, 전문가의 판단을 데이터로 녹여내는 작업이 부재했습니다.

사례 3. 금융 서비스 업계의 구조적 경고

Truist Bank의 에이전틱 AI 총괄 책임자는 MIT Sloan 기고에서 다음과 같이 밝혔습니다. “금융 서비스 업계에서 고객에게 직접 영향을 미치는 의사결정 중 Human-in-the-loop 없이 운용되는 사례는 사실상 없다”고 단언했습니다. 규제 준수와 리스크 관리가 핵심인 금융 도메인에서는, AI의 자율 판단 자체가 구조적으로 허용되지 않는다는 뜻입니다.

위 사례의 공통점은 하나입니다.

“AI는 데이터에 있는 패턴을 충실히 학습했을 뿐이다. 문제는 그 데이터였다.”

왜 AI는 스스로 판단을 완성할 수 없는가

위 사례들은 모두 동일한 구조적 문제를 가리킵니다. AI 에이전트의 판단 품질은 결국 학습 데이터의 품질로 결정됩니다. 그리고 현실 업무의 판단에는 세 가지 요소가 반드시 필요합니다.

① 도메인 맥락(Domain Context) 제조 현장의 설비 이상 징후, 의료 영상의 미세한 변화, 법률 문서의 예외 조항 – 이런 판단 기준은 해당 분야 전문가만이 정확히 정의할 수 있습니다. 일반적인 크라우드소싱 라벨링으로는 이 수준의 정밀도를 확보하기 어렵습니다.

② 엣지 케이스(Edge Case) 처리 현실에서 AI가 가장 자주 실패하는 지점은 ‘일반적이지 않은 상황’입니다. 2024년 LLM 자동 평가 연구에 따르면, AI 판정 시스템은 학술 논문 평가에서 인간 판단과 일치하지 않는 경우가 빈번했으며, 논리적 결함이 있는 주장을 잘못 순위 매기고 추론 공백을 놓치는 것으로 나타났습니다. 예외 상황일수록 전문가의 라벨이 필수적입니다.

③ 지속적 데이터 갱신 AI 모델은 배포 이후에도 현실 데이터의 변화에 노출됩니다. 2023년 자동차 데이터로 학습된 이미지 인식 모델이 2025년 신모델이나 다른 조명 환경에서 어려움을 겪는 것처럼, 정적 학습 방식은 모델을 취약하게 만들고 빠른 성능 저하를 유발합니다. 전문가 라벨링 기반의 지속적 피드백 루프가 없으면 모델은 시간이 지날수록 현장과 멀어집니다.

💡 실제로 Truist Bank의 에이전틱 AI 총괄 책임자는 MIT Sloan 기고에서 이렇게 말했습니다.

“금융 서비스 업계에서 고객에게 직접 영향을 미치는 의사결정 중 Human-in-the-loop 없이 운용되는 사례는 사실상 없다.”

규제와 리스크가 핵심인 금융 도메인에서는, AI 단독 판단 자체가 구조적으로 허용되지 않는다는 뜻입니다.

Human-in-the-Loop, 어떻게 설계해야 하는가

전문가 라벨링은 단순히 데이터에 태그를 붙이는 작업이 아닙니다. AI 에이전트가 수행해야 할 판단의 ‘기준’을 사람이 먼저 정의하고, 그 기준을 데이터로 구조화하는 과정입니다. 실전에서 효과적인 설계는 세 단계로 구성됩니다.

1단계 – 판단 기준의 명문화 에이전트가 특정 상황에서 어떤 판단을 내려야 하는지, 전문가 집단이 사전에 기준을 합의하고 문서화합니다. 이 단계를 건너뛰면 라벨의 일관성이 무너집니다.

2단계 – 전문가 라벨링 및 AI 데이터 가공 정의된 기준에 따라 도메인 전문가가 실제 데이터를 라벨링합니다. 이 과정에서 중요한 것은 단순 정답 입력이 아니라, 판단 근거(reasoning trace)를 함께 기록하는 것입니다. 에이전트가 왜 그 판단을 내렸는지를 학습해야 새로운 상황에도 올바른 추론이 가능합니다.

3단계 – 지속적 피드백 루프 구축 배포 이후 AI 에이전트가 현장에서 실패하는 케이스를 지속적으로 수집하고, 전문가 검토를 거쳐 AI 학습 데이터로 재편입합니다. 이 루프가 작동해야 모델이 현장 변화에 적응할 수 있습니다.

현장 데이터가 말해주는 것

2025년 기준 AI 프로젝트의 70~80%가 목표를 달성하지 못하고 있으며, 대부분의 AI 이니셔티브를 폐기한 기업의 비율이 2024년 17%에서 2025년 42%로 급등했습니다. 이 수치가 의미하는 바는 분명합니다. 모델 자체의 성능보다 데이터 설계와 인간 전문성의 개입 방식이 프로젝트 성패를 가르는 핵심 변수라는 것입니다.

Verizon의 2025 CX 연구에 따르면, AI 단독으로 처리된 고객 응대의 만족도는 60%에 그쳤으나, 인간이 개입한 응대의 만족도는 88%에 달했습니다. 28%p 차이는 단순한 수치가 아닙니다. 고객 이탈, 계약 손실, 브랜드 신뢰 하락으로 직결되는 비즈니스 리스크입니다.

결론 – 전문가 라벨링은 비용이 아니라 투자다

에이전틱 AI 시대에 기업이 풀어야 할 핵심 과제는 ‘더 좋은 모델을 선택하는 것’이 아닙니다. ‘모델이 현장에서 올바르게 판단할 수 있도록 데이터를 설계하는 것’입니다.

아마존의 사례가 보여주듯, 전문가 검토 없이 대규모로 배포된 AI는 편향을 증폭시킵니다. 질로의 사례가 증명하듯, 맥락 없는 자동화는 수억 달러의 손실로 이어질 수 있습니다. 그리고 금융 업계가 원칙으로 삼듯, 고위험 의사결정 영역에서는 Human-in-the-loop가 선택이 아닌 필수입니다.

AI 데이터 라벨링과 전문가 기반 데이터 구축은, 에이전틱 AI가 현장에서 신뢰받는 시스템이 되기 위한 가장 근본적인 조건입니다. AI 데이터 서비스의 품질이 곧 에이전트의 판단 품질입니다.

필요한 데이터를 가장 정확하게 준비하는 방법

가장 효율적인 데이터 구축 방법을 함께 찾겠습니다.