“데이터만 있으면 된다”는 말은 이제 틀렸습니다.
AI 파운데이션 모델 개발 경쟁이 본격화되면서, 단순히 데이터의 양을 쌓는 시대는 끝났습니다. 특히 STEM(과학·기술·공학·수학) 분야의 전문 지식을 학습시키려면, 일반적인 웹 크롤링 데이터와는 차원이 다른 정제·구조화된 고품질 원천 데이터가 필요합니다.
이 글에서는 STEM 전문도서를 기반으로 AI 학습 데이터를 구축하는 전 과정을 실무적 관점에서 다룹니다. 기획 단계부터 최종 납품까지, 실제로 이 작업을 수행하려면 무엇이 필요하고 어디서 막히는지를 구체적으로 설명합니다.
[기획] 무엇을 모을 것인가
데이터 구축 프로젝트에서 가장 많이 실패하는 지점은 기술이 아니라 기획입니다. 특히 STEM 전문도서는 구성 설계 단계에서 다음 세 가지를 명확히 정의해야 합니다.
도서 선정 기준 정의
STEM 데이터는 단순히 ‘과학 책’을 모으는 것이 아닙니다. AI 모델이 실제로 학습에 활용하려면 아래 기준을 충족해야 합니다.
- 출판 연도: 2010년 이후 출판본을 중심으로 구성하는 것이 일반적입니다. AI 기술 트렌드와 용어가 반영된 최신 저작물일수록 모델 학습에 유효합니다.
- 수준 기준: 학부 입문서가 아닌 석·박사 수준의 전문도서를 기준으로 해야 합니다. 이는 파운데이션 모델이 전문적 추론 능력을 갖추도록 하는 데 핵심입니다.
- 언어 비중: 한국어 자료를 전체의 50% 이상으로 구성하는 것이 국내 AI 생태계 관점에서 중요합니다. 영어 원서 위주로만 구성할 경우 한국어 언어 이해 성능이 제한될 수 있습니다.
- 분야 균형: 과학·기술·공학·수학 각 분야가 균등하게 포함되어야 특정 도메인에 편향된 모델이 되지 않습니다.
데이터 규모 설계
면(페이지) 기준으로 최소 14만 면 이상을 확보해야 한다면, 실제로는 얼마나 많은 도서가 필요할까요?
전문도서 1권의 평균 분량을 약 300~400면으로 가정하면, 최소 350~470권 이상의 도서를 확보해야 목표 물량을 채울 수 있습니다. 그런데 여기서 중요한 점은, 단순히 권수를 채우는 것이 아니라 중복 없이 신규성과 다양성이 확보된 도서여야 한다는 것입니다. 기존에 공개된 데이터셋과 겹치는 도서는 대체 도서로 구성해야 하기 때문에, 실제로는 목표 물량보다 20~30% 여유 있게 도서 풀을 확보하는 것이 안전합니다.
권리 확보 전략 수립
STEM 전문도서 데이터 구축에서 가장 간과하기 쉬운 부분이 바로 저작권입니다. AI 학습용으로 활용하려면 단순 열람권이 아닌, 복제권·배포권·2차적 저작물 작성권까지 모두 확보되어야 합니다.
이 과정은 출판사별로 협의 구조가 다르기 때문에 상당한 시간이 소요됩니다. 기획 초기에 저작권 협의 대상 목록을 먼저 작성하고, 협의 기간을 충분히 반영한 일정 관리가 필수입니다. 대학교재나 학술 단행본의 경우 출판사·저자 이중 협의가 필요한 경우도 많습니다.
[데이터 확보] 어디서, 어떻게 구하는가
도서 원본 확보 경로는 크게 세 가지로 나뉩니다.
① 출판사 직접 협의 가장 안전하고 권리 확보가 명확한 방식입니다. 국내 주요 STEM 전문 출판사(한빛미디어, 교문사, 사이플러스 등)와 직접 계약을 통해 원본 파일(PDF, EPUB)을 수령하는 방식입니다. 단, 협의 기간이 길고 비용이 발생할 수 있습니다.
② 대학·연구기관 보유 자료 활용 대학도서관이나 연구기관이 보유한 전자책 라이선스를 활용하는 방법입니다. 기관 참여 형태로 프로젝트를 구성할 경우, 이미 라이선스를 확보한 자료를 기반으로 할 수 있어 권리 이슈를 상당 부분 절감할 수 있습니다.
③ 오픈액세스 및 공개 학술 자료 활용 arXiv, DOAJ, KISTI 등의 공개 학술 플랫폼에서 오픈액세스로 제공되는 전문 자료를 활용하는 방법입니다. 다만, 전문도서와 논문은 구성 특성이 다르므로, 도서 중심 과제라면 보조적으로만 활용하는 것이 적절합니다.

[데이터 정제] 핵심은 ‘읽을 수 있는 텍스트’로 만드는 것
원본 도서를 확보했다고 끝이 아닙니다. AI 모델이 실제로 학습할 수 있는 형태로 변환하는 정제 과정이 전체 작업의 핵심이자 가장 기술 집약적인 단계입니다.
DRM 해제와 텍스트 추출
전자책 형태로 제공되는 도서의 경우, 대부분 DRM(디지털 저작권 관리) 보호가 걸려 있습니다. 저작권자와의 사전 협의를 통해 DRM 해제 권한을 확보한 뒤, EPUB 또는 XML(JATS/BITS) 형식으로 변환합니다.
이 과정에서 흔히 발생하는 문제는 텍스트 깨짐입니다. 특히 한국어 전문도서의 경우 폰트 임베딩 방식에 따라 추출 결과가 달라지며, PDF 기반 도서는 단순 텍스트 레이어가 없는 경우도 많습니다. 이런 경우 OCR(광학문자인식)을 병행하게 되는데, 한국어 수식·전문 용어의 OCR 정확도는 별도 검수 없이는 신뢰하기 어렵습니다.
MathML 변환: STEM 데이터의 핵심 난관
일반 텍스트 데이터와 STEM 데이터를 구분 짓는 결정적 요소가 바로 수식 처리입니다.
수식이 이미지로만 저장된 도서는 AI 모델이 수식의 의미를 학습할 수 없습니다. 이를 해결하기 위해 수식을 MathML(수학 마크업 언어) 또는 LaTeX 형식으로 변환해야 합니다. 이는 단순 변환 작업이 아니라, 수식의 구조를 정확히 파악하고 표현하는 전문 작업입니다.
예를 들어 편미분 방정식, 행렬 연산, 화학 구조식 등은 각각 변환 방식이 다르며, 자동화 도구만으로는 오류율이 높아 전문 검수 인력이 반드시 필요합니다. AI 학습 데이터의 품질은 결국 이 단계에서 갈립니다.
메타데이터 표준화
도서별로 저자, 출판사, ISBN, 분야 분류, 출판 연도 등의 메타데이터를 표준화된 구조로 구축합니다. 이는 단순한 목록 작업처럼 보이지만, 이후 데이터 품질 검증과 모델 학습 시 필터링에 직접 영향을 미칩니다. 분야 분류의 경우 KDC(한국십진분류법) 또는 DDC를 기준으로 일관성 있게 적용해야 합니다.
[비식별화] ‘문맥을 살리면서 개인정보를 지우는’ 기술
STEM 전문도서는 사례 연구나 실험 데이터에 연구자 정보, 피험자 정보 등이 포함되는 경우가 있습니다. 이를 단순히 삭제하면 문맥이 훼손되어 학습 데이터로서의 가치가 떨어집니다.
이를 해결하는 방법이 문맥 보존형 가명처리입니다. 예를 들어, 특정 연구자의 실명을 제거하되 그 역할과 문맥은 유지되도록 일관된 가명 체계를 적용합니다. 단순 마스킹이 아닌, 문장 구조와 논리 흐름을 유지하는 방식이어야 AI 데이터 가공 품질 기준을 충족할 수 있습니다.
[품질 검증과 납품] 프로젝트의 완성도를 결정하는 마지막 관문
데이터를 구축했다고 끝이 아닙니다. 실제로 납품 후 품질 검증에서 반려되는 가장 흔한 원인들은 다음과 같습니다.
- 수식 변환 오류 (MathML 구조 불일치)
- 메타데이터 누락 또는 분류 오류
- 비식별화 미처리 항목 누락
- 분야별 데이터 구성 비율 미달
- 한국어 비중 기준 미충족
이 때문에 납품 전 자체 품질 검증 프로세스를 반드시 설계해야 합니다. 일반적으로 전체 데이터의 5~10% 샘플을 추출하여 항목별 정확도를 측정하고, 기준치(보통 95% 이상) 미달 시 전수 재검수 절차를 밟습니다.
납품 일정은 통상 중간 제출(1차)과 최종 제출(2차)로 나뉘며, 1차 제출 결과를 바탕으로 피드백을 반영하여 최종 품질을 보완합니다. 이 피드백 루프를 일정에 충분히 반영하지 않으면, 최종 납품 직전에 대규모 재작업이 발생할 수 있습니다.
이 과제, 어떤 역량이 있는 기관이 수행할 수 있는가
STEM 전문도서 기반 AI 학습 데이터 구축은 단일 역량으로 완성할 수 없는 과제입니다. 최소한 다음의 역량이 결합되어야 합니다.
- 도서 원본 확보 네트워크: 출판사, 대학, 연구기관과의 협력 채널
- DRM 해제 및 텍스트 추출 기술: 다양한 포맷 처리 경험
- MathML/수식 변환 전문성: STEM 도메인 지식을 갖춘 검수 인력
- 비식별화 처리 체계: 개인정보보호법 준수 기반의 가명처리 프로세스
- 품질 관리 시스템: 대용량 데이터의 정확도를 측정·보완하는 QA 체계
이 중 하나라도 외부에 의존해야 한다면, 파트너 구성 단계부터 신중하게 검토해야 합니다. 특히 수식 변환과 품질 관리는 외주화할 경우 품질 편차가 크게 발생하는 영역입니다.
마치며: AI 경쟁의 본질은 결국 데이터 인프라
ChatGPT, Claude, Gemini 등 글로벌 AI 모델의 성능 격차는 알고리즘보다 학습 데이터의 질과 구성에서 비롯된다는 것이 업계의 공통된 분석입니다.
STEM 전문도서 데이터는 그중에서도 가장 구축하기 어렵고, 그렇기 때문에 가장 가치 있는 원천 데이터입니다. 단순한 텍스트가 아니라, 인류가 수십 년간 축적한 전문 지식의 정제된 형태이기 때문입니다.
이 데이터를 제대로 구축한다는 것은 곧 AI 모델이 ‘전문가 수준으로 생각하는 능력’을 갖추도록 돕는 일입니다. 그리고 그 출발점은 언제나, 한 권의 도서를 AI가 읽을 수 있는 형태로 바꾸는 정밀한 작업에서 시작됩니다.
📌 STEM 데이터 구축, 기획부터 납품까지 검토가 필요하신가요?
도서 확보 네트워크 구성, DRM 해제, MathML 변환, 품질 관리 체계 설계 등 각 단계별 실무 노하우가 필요하신 기관은 아래를 통해 사전 협의를 요청하실 수 있습니다.
