세일즈포스의 에이전트포스, SAP의 에이전틱 공급망 사례를 보면서 “우리도 해야겠다”는 결론은 내렸는데, 막상 실행 단계에서 벽에 부딪힙니다. AI 모델을 선택하는 것보다, 그 모델을 우리 업무에 맞게 학습시킬 데이터를 어떻게 만드느냐가 훨씬 더 어렵고 낯선 문제이기 때문입니다.

이 글에서는 추론 데이터셋 설계의 핵심 원칙과 단계별 구축 방법을 실전 관점에서 정리합니다. 기술적인 코드나 논문 수준의 이야기가 아니라, 기업 의사결정자가 데이터 구축 프로젝트를 기획하고 방향을 잡는 데 필요한 실무 가이드입니다.

추론 데이터셋이란 무엇인가

본격적인 설계 방법론에 앞서, 1편의 핵심 개념을 한 줄로 정리합니다.

추론 데이터 = 질문(상황) + 사고 과정(단계별 판단 논리) + 최종 결론

일반 학습 데이터가 “A이면 B다”라는 정답 쌍을 학습시킨다면, 추론 데이터는 “A라는 상황에서 → B를 먼저 확인하고 → C 조건과 비교한 뒤 → D라는 결론을 내린다”는 판단의 흐름 전체를 학습시킵니다.

이것이 에이전트가 단순 응답을 넘어 자율 실행을 할 수 있는 근거입니다.

STEP 1 – 에이전트가 수행할 ‘업무 단위’ 먼저 정의

추론 데이터 설계의 첫 단추는 모델 선택도, 데이터 수집도 아닙니다. “우리 에이전트가 정확히 어떤 업무를 자율 수행해야 하는가”를 명확히 정의하는 것입니다.

이 단계를 건너뛰면 나중에 아무리 많은 데이터를 모아도 에이전트가 엉뚱한 판단을 내리게 됩니다.

업무 단위 정의 체크리스트

① 트리거(Trigger)는 무엇인가? 에이전트가 행동을 시작하는 조건입니다. 예를 들어 “특정 부품의 재고가 기준치 이하로 떨어졌을 때”, “계약서에 특정 조항이 포함되어 있을 때” 등입니다.

② 판단 단계(Reasoning Steps)는 몇 단계인가? 에이전트가 최종 결론에 도달하기까지 거쳐야 할 중간 판단의 수를 정의합니다. 단계가 많을수록 추론 데이터의 구조가 복잡해집니다.

③ 최종 출력(Output)의 형태는 무엇인가? 에이전트가 내놓아야 할 결과물의 형식을 정의합니다. “담당자에게 보고서 형태로 제출”, “시스템에 자동으로 값을 입력”, “승인 요청 알림 발송” 등 출력 형태에 따라 필요한 데이터 구조가 달라집니다.

④ 예외 상황(Exception)은 어떻게 처리하는가? 정상 케이스만큼 중요한 것이 예외 처리입니다. “A안이 불가능할 때 B안을 선택하는 논리”가 데이터에 포함되어야 에이전트가 실제 현장에서 작동합니다.

💡 실무 팁: 업무 단위 정의는 현장 담당자 인터뷰에서 시작하는 것이 가장 효과적입니다. “지금 이 업무에서 가장 판단하기 어려운 순간이 언제인가요?”라는 질문 하나가 추론 데이터의 핵심 시나리오를 끌어냅니다.

STEP 2 – AI 에이전트 학습 데이터 구축의 출발점, 시드 데이터 확보

업무 단위가 정의되었다면, 다음은 시드 데이터(Seed Data) 확보입니다. 시드 데이터란 추론 데이터셋을 만들기 위한 원재료, 즉 실제 업무에서 발생한 실제 사례들입니다.

합성 데이터(Synthetic Data)가 아무리 발전했어도, 고품질 시드 데이터 없이는 의미 있는 추론 데이터셋을 만들 수 없습니다. 이것이 AI 학습 데이터 구축에서 “실제 데이터가 먼저”라는 원칙이 강조되는 이유입니다.

시드 데이터의 주요 유형

내부 문서형 과거 계약서, 품질 검사 보고서, 클레임 처리 이력, 의사결정 회의록 등 기업 내부에 이미 축적된 문서들이 가장 강력한 시드 데이터입니다. 이 안에는 이미 전문가의 판단 과정이 담겨 있습니다.

전문가 인터뷰형 도메인 전문가(현장 엔지니어, 법무 담당자, 심사역 등)가 특정 상황에서 어떤 순서로 무엇을 확인하고 결론에 도달하는지를 구술·기록한 데이터입니다. 문서로 남아 있지 않은 암묵지(Tacit Knowledge)를 데이터화하는 핵심 방법입니다.

시스템 로그형 ERP, MES, CRM 등 기업 시스템에 쌓인 트랜잭션 로그입니다. 언제 어떤 조건에서 어떤 결정이 내려졌는지의 흔적이 담겨 있어, 패턴 기반 추론 데이터 설계에 활용됩니다.

⚠️ 주의: 시드 데이터 수집 단계에서 개인정보, 영업기밀 등 민감 정보가 포함될 수 있습니다. AI 데이터 가공 과정에서 반드시 비식별화·익명화 처리를 선행해야 합니다.

STEP 3 – 추론 구조(Reasoning Structure) 설계

시드 데이터가 확보되었다면, 이제 그것을 추론 데이터의 형식으로 구조화하는 단계입니다. 이 단계가 추론 데이터셋 설계의 핵심이자 가장 전문성이 요구되는 부분입니다.

추론 구조의 3가지 기본 패턴

패턴 A – 선형 추론 (Linear Reasoning) 가장 기본적인 구조로, A → B → C → 결론의 단방향 흐름입니다.

제조·물류·재고 관리 영역에 가장 적합한 패턴입니다.

패턴 B – 분기 추론 (Branching Reasoning) 조건에 따라 판단 경로가 달라지는 구조입니다. 예외 처리와 대안 선택이 핵심인 업무에 적합합니다.

법무·금융·컴플라이언스 영역에 적합한 패턴입니다.

패턴 C – 반복 추론 (Iterative Reasoning) 초기 판단 → 추가 정보 수집 → 재판단의 사이클이 반복되는 구조입니다. 불확실성이 높은 상황에서 에이전트가 점진적으로 결론에 수렴하는 방식입니다.

제조 품질 관리·이상 탐지·의료 진단 지원 영역에 적합합니다.

STEP 4 – 전문가 라벨링으로 품질을 확보하라

추론 구조가 설계되었다면, 마지막이자 가장 중요한 단계는 전문가 라벨링입니다.

일반적인 이미지 분류나 텍스트 감성 분석과 달리, 추론 데이터 라벨링은 도메인 전문 지식이 없으면 수행 자체가 불가능합니다. “이 상황에서 Step 2의 판단이 올바른가?”를 검증하려면, 해당 업무를 실제로 경험한 전문가가 필요합니다.

전문가 라벨링의 핵심 원칙

① 라벨러 자격 기준을 명확히 정의하라 “AI 관련 경험자”가 아니라, “해당 도메인에서 최소 N년 이상의 실무 경험자”로 기준을 설정해야 합니다. 제조 공급망 데이터라면 구매·SCM 담당자, 계약 검토 데이터라면 법무 경력자가 라벨러가 되어야 합니다.

② 라벨 가이드라인을 판단 기준 수준으로 작성하라 “맞으면 1, 틀리면 0″이 아니라, “Step 1에서 재고 수량을 먼저 확인하지 않았다면 오류”, “대안 탐색 없이 바로 결론을 내리면 불완전” 등 추론 단계별 판단 기준이 명시된 가이드라인이 필요합니다.

③ 라벨 간 일치율(Inter-Annotator Agreement)을 관리하라 동일한 데이터에 대해 복수의 전문가가 다른 판단을 내린다면, 그 데이터는 학습에 사용하기 전에 검토가 필요합니다. 일치율 80% 이상을 기준선으로 관리하는 것이 일반적입니다.

이 과정이 바로 AI 데이터 라벨링에서 단순 작업자가 아닌 도메인 전문가가 필요한 이유입니다. BCG가 전문가 라벨링 시장의 폭발적 성장을 예고한 것도 같은 맥락입니다.

STEP 5 – 품질 검증과 반복 개선 사이클을 구축하라

데이터셋이 완성되었다고 작업이 끝나는 것이 아닙니다. 에이전트를 실제 업무에 투입한 뒤 발생하는 오판 사례들을 다시 데이터셋에 반영하는 지속적 개선 사이클(Continuous Improvement Cycle)이 필수입니다.

이 사이클이 정착되면, 에이전트는 시간이 지날수록 현장에 최적화된 판단을 내리게 됩니다. 반대로 이 사이클이 없으면, 초기에 아무리 좋은 데이터를 구축해도 에이전트의 성능은 점점 현실과 괴리됩니다.

AI 데이터 서비스는 단발성 구축 프로젝트가 아니라, 이 지속적 개선 사이클을 함께 운영하는 파트너십 관점으로 접근해야 효과적입니다.

정리 – 추론 데이터셋 설계 5단계 요약

단계	핵심 작업	주요 산출물
STEP 1	업무 단위 정의	트리거·판단 단계·출력 형태 정의서
STEP 2	시드 데이터 확보	내부 문서·전문가 인터뷰·시스템 로그
STEP 3	추론 구조 설계	선형·분기·반복 추론 시나리오
STEP 4	전문가 라벨링	품질 검증된 추론 데이터셋
STEP 5	품질 검증·개선	지속적 개선 사이클 운영 체계

마치며: 데이터 구축은 AI 프로젝트의 기초 공사다

건물을 지을 때 기초 공사가 부실하면 아무리 좋은 자재를 써도 오래 버티지 못합니다. 에이전틱 AI 프로젝트도 마찬가지입니다. 모델 선택, 인프라 구축보다 먼저 해야 할 일이 바로 추론 데이터셋의 설계입니다.

좋은 소식은, 이 과정이 생각보다 체계적으로 접근 가능하다는 것입니다. STEP 1의 업무 단위 정의부터 시작하면, 나머지 단계는 자연스럽게 이어집니다.

데이터 구축 예산이 부담된다면, 정부의 AI 데이터 바우처 지원 사업을 활용하는 것도 현실적인 방법입니다. 중소·중견 기업을 대상으로 AI 데이터 서비스 구축 비용의 상당 부분을 지원하는 제도로, 에이전틱 AI 파일럿 프로젝트와 연계하면 효율적입니다.

시리즈 다음 편 예고 3편: Human-in-the-Loop 라벨링 전략 – 전문가 라벨러를 어떻게 운영할 것인가 전문가 라벨링의 실전 운영 방법, 품질 관리 기준, 비용 효율화 전략을 구체적으로 다룹니다.

필요한 데이터를 가장 정확하게 준비하는 방법

가장 효율적인 데이터 구축 방법을 함께 찾겠습니다.