산업재해 감지 AI 솔루션 개발사가 놓치기 쉬운 학습 데이터 3가지 함정

04.21.2026

목차 숨기기

1 들어가며

2 함정 1. CCTV 시점 데이터를 따로 구축하지 않는 경우

3 함정 2. 라벨링 정확도에만 집중하는 경우

4 함정 3. 고객사 원천 데이터를 전처리 없이 사용하는 경우

5 마치며

들어가며

CCTV 기반 산업재해 감지 AI 학습 데이터 구축 과정에서 솔루션을 개발하는 팀들이 공통적으로 겪는 문제가 있습니다. 테스트 환경에서는 잘 작동하던 모델이 실제 현장에 배포하고 나면 성능이 예상보다 크게 떨어진다는 것입니다.

원인을 분석해보면 알고리즘의 문제인 경우는 드뭅니다. 대부분 학습 데이터 구축 단계에서 간과한 부분들이 누적된 결과입니다.

산업 AI 시스템의 데이터 문제를 다룬 메타 리뷰 연구(Majeed & Hwang, 2024, Data issues in industrial AI systems, ScienceDirect)에 따르면, 제조 현장 AI 모델의 정확도는 결함 데이터의 희소성과 불균형에 의해 직접적으로 제한되며, 산업안전 영역에서는 제한된 사고 데이터로 학습된 모델이 위험 상황을 감지하지 못하는 사례가 반복적으로 보고되고 있습니다.

이 글에서는 AI 학습 데이터 구축 과정에서 실제 프로젝트에 반복적으로 확인되는 3가지 구조적 문제를 짚어봅니다. 각각의 문제는 서로 독립적으로 보이지만, 결국 하나의 공통된 원인으로 수렴됩니다.

함정 1. CCTV 시점 데이터를 따로 구축하지 않는 경우

개발 초기 단계에서 공개 데이터셋이나 웹에서 수집한 재해 이미지를 학습에 사용하는 경우가 있습니다. 빠르게 프로토타입을 만들어야 하는 상황에서 흔히 생기는 선택입니다.

산업재해 감지 AI 학습 데이터는 이러한 현장 고유의 조건을 반영해 수집되어야 합니다.

산업재해 감지 AI 학습 데이터 CCTV 시점과 일반 시점 비교

문제는 산업 현장 CCTV 영상이 일반 이미지와 도메인 자체가 다르다는 점입니다.

실제 현장 CCTV 환경에는 다음과 같은 고유한 조건이 존재합니다.

시점(Viewpoint) 천장이나 고정 마운트에서 내려다보는 부감 앵글이 기본입니다. 일반 사진에서 학습한 인체 비율, 행동 패턴과는 다른 특징값을 가집니다. 같은 ‘넘어짐’ 동작이라도 정면 촬영과 부감 시점에서 모델이 추출하는 특징은 전혀 다릅니다.
조도 변화 주야간 전환, 실내외 혼재 환경, 역광, 그림자, 반사광이 동일 공간에서 시간대별로 다르게 나타납니다. 고정된 조도 환경에서 수집한 데이터로 학습한 모델은 실환경의 조도 변화에 취약합니다.
가림(Occlusion) 설비, 적재된 자재, 다른 작업자에 의해 감지 대상이 부분적으로 가려지는 상황이 빈번하게 발생합니다. 가림 상황이 포함되지 않은 데이터로 학습한 모델은 실제 현장에서 감지 누락률이 높아집니다.
작업자 외형 헬멧, 안전조끼, 방호복, 보호대가 착용된 상태입니다. 일반 인물 데이터와 외형 특징값이 다르기 때문에 일반 데이터셋으로 학습한 모델은 작업자 감지 자체에서 오류가 발생할 수 있습니다.

이 문제는 이미 연구에서도 명확하게 확인됩니다. 화학 공장 2곳의 감시 카메라 40개 구역에서 현실적인 작업 환경 이미지 12,373장을 수집해 구성한 SFCHD 데이터셋 연구(Yu et al., 2024, Large, Complex, and Realistic Safety Clothing and Helmet Detection, arXiv)는 기존 공개 데이터셋 대부분이 지나치게 단순화된 배경과 이상적인 조명 조건으로 구성되어 실제 작업 환경과 큰 차이가 있으며, 이러한 데이터셋으로 학습된 모델의 현장 일반화 성능이 저하된다는 점을 실증했습니다. 이 연구팀은 이를 해결하기 위해 조명 변화와 그림자 조건을 반영한 ‘Blurred Clothing’, ‘Blurred Head’ 레이블을 별도로 추가해 데이터를 구성했습니다.

실환경 데이터 수집이 어려운 경우, 촬영 조건을 세밀하게 설계한 환경 구축이나 합성 데이터(Synthetic Data)를 병행하는 방식이 현실적인 대안입니다. 핵심은 하나입니다. 모델이 실제로 마주치게 될 환경의 조건을 AI 학습 데이터 에 반영하는 것입니다.

함정 2. 라벨링 정확도에만 집중하는 경우

학습 데이터 품질 관리를 라벨링 오류를 줄이는 문제로만 이해하는 경우가 많습니다. 라벨링의 중요성은 분명하지만, 그것만으로는 부족합니다.

산업재해 감지 모델에서 반복적으로 확인되는 데이터 구조 문제는 크게 세 가지입니다.

클래스 불균형(Class Imbalance)

산업재해는 본질적으로 드물게 발생하는 사건입니다. 정상 작업 이미지가 압도적 다수이고 실제 재해 상황 이미지는 극소수인 데이터셋으로 학습하면, 모델은 재해 상황도 정상으로 판단하는 방향으로 편향됩니다. 수치상 정확도는 높게 나오지만 실제로는 작동하지 않는 모델이 만들어집니다.

산업재해 예측·감지 분야의 머신러닝 연구 504건을 분석한 체계적 문헌 고찰(Sánchez-Gordón et al., 2025, Machine learning for occupational accident analysis, ScienceDirect)은 불균형 사고 데이터셋 처리를 이 분야 AI 개발의 핵심 미해결 과제로 명시하고 있습니다. 재해 발생 빈도의 희소성이 구조적으로 데이터 불균형을 만들어내며, 이를 해결하지 않은 상태의 모델은 실환경에서 위험 상황을 감지하지 못할 가능성이 높다고 결론짓습니다.

엣지 케이스(Edge Case) 부재

재해가 발생하기 직전의 아슬아슬한 상황, 재해처럼 보이지만 정상인 동작, 이런 경계 사례들이 데이터에 포함되어 있지 않으면 모델은 애매한 상황에서 오탐(False Positive) 또는 미탐(False Negative)을 반복합니다.

더 근본적인 문제는 이 데이터를 수집하는 것 자체가 어렵다는 점입니다. 사고 직전의 환경 조건을 정확히 포착한 실환경 데이터는 현실적으로 확보하기 어렵습니다. 이 공백을 메우지 않으면 모델의 예측 능력에는 구조적 한계가 생깁니다.

시간적 연속성(Temporal Context) 무시

넘어짐, 추락, 끼임은 단일 프레임으로 판단하기 어려운 사건입니다. 직전 프레임까지는 정상으로 보이다가 한 프레임에서 갑자기 재해 상황이 되는 경우가 대부분입니다. 연속된 프레임에서의 움직임 변화 패턴을 함께 학습해야 감지 정확도가 올라갑니다. 이미지 단위로만 구성된 데이터셋은 이 시간적 맥락 정보를 담지 못합니다.

라벨링 작업은 이 세 가지 문제를 인식한 상태에서 설계 단계부터 시작해야 합니다. 어떤 클래스가 부족한지, 어떤 경계 상황을 포함해야 하는지, 이미지 단위로 할 것인지 시퀀스 단위로 할 것인지 이 결정들이 AI 데이터 라벨링 작업 이전에 이루어져야 합니다.

함정 3. 고객사 원천 데이터를 전처리 없이 사용하는 경우

고객사로부터 실제 현장 CCTV 영상을 받으면 데이터 문제가 해결된 것처럼 느껴집니다. 실환경 데이터를 확보했으니 나머지는 학습만 하면 된다는 생각입니다.

그러나 원천 데이터는 재료일 뿐입니다. 그 자체로 바로 학습에 투입할 수 있는 상태가 아닙니다.

고객사 제공 원천 데이터에는 다음과 같은 문제가 공통적으로 존재합니다.

개인정보 처리 작업자 얼굴, 설비 고유 식별 정보 등 민감 정보가 포함되어 있습니다. 개인정보보호법 및 내부 보안 정책에 따른 비식별화 처리가 학습 전에 선행되어야 합니다. 이 단계를 생략하거나 부실하게 처리하면 법적 리스크가 발생합니다.
노이즈 데이터 혼재 카메라 오작동 구간, 렌즈 오염 영상, 공장 가동 외 시간대의 빈 현장 영상 등 학습에 불필요한 데이터가 대량으로 섞여 있습니다. 이를 걸러내지 않으면 모델이 불필요한 패턴을 학습합니다.
포맷·해상도 불일치 여러 기종의 CCTV에서 수집된 영상은 해상도, 프레임레이트, 색공간(Color Space)이 제각각입니다. 이 상태로 학습 데이터를 구성하면 모델이 해상도나 포맷 차이를 의미 있는 특징으로 학습할 수 있습니다.
데이터 편중 특정 시간대, 특정 구역, 특정 작업 유형에 데이터가 집중되는 경우가 많습니다. 결과적으로 다루지 못한 환경 조건에서 모델 성능이 떨어집니다.

산업 환경 AI 모델 개발과 배포의 도전 과제를 다룬 연구(Lwakatare et al., 2024, Challenges with developing and deploying AI models in industrial systems, Springer)는 산업 현장 AI 모델 개발에서 ‘올바른 데이터 수집’이 가장 앞에 놓여야 할 과제임을 강조합니다. 수집된 데이터가 실제 배포 환경을 충분히 대표하지 못할 때, 모델은 실환경에서 신뢰할 수 없는 결과를 낸다고 설명합니다.

원천 데이터를 수령한 후에는 비식별화, 품질 필터링, 포맷 정규화, 데이터 증강(Augmentation)을 포함한 전처리 파이프라인이 구축되어야 합니다. 이 과정을 거쳐야 비로소 AI 데이터 가공 이 완료된 학습 데이터가 됩니다.

마치며

세 가지 함정은 모두 같은 방향을 가리킵니다.

결국 산업재해 감지 AI 학습 데이터의 품질이 모델 성능의 상한선을 결정합니다.

데이터를 단순히 ‘많이 모으는 것’의 문제가 아니라, 모델이 실제로 마주치게 될 환경을 데이터가 얼마나 충실하게 반영하고 있는가의 문제입니다.

도메인 특화 데이터 수집, 구조를 고려한 라벨링 설계, 체계적인 전처리 이 세 단계가 연결되어야 현장에서 실제로 동작하는 모델이 만들어집니다. 어느 하나를 건너뛰면 나머지를 아무리 잘해도 한계가 생깁니다.

산업재해 감지 모델 개발을 위한 학습 데이터 구축을 고려 중이시라면, AI 데이터 서비스 전문 파트너와 함께 데이터 설계 단계부터 시작하시기를 권장합니다.

필요한 데이터를 가장 정확하게 준비하는 방법

가장 효율적인 데이터 구축 방법을 함께 찾겠습니다.