희귀 고장 데이터와 환경 민감도 분석을 활용한 고신뢰성 시스템 하이브리드 데이터 증강 기법 연구

Hybrid Data Augmentation Framework for High-Reliability Systems Using Rare Fault Data and Environmental Sensitivity Analysis

Article information

J Korean Soc Qual Manag. 2025;53(4):523-535
Publication date (electronic) : 2025 December 31
doi : https://doi.org/10.7469/JKSQM.2025.53.4.523
*Industrial and System Engineering, Kyonggi University
이정오*, 김용수*,
*경기대학교 산업시스템공학과
Corresponding Author(kimys@kgu.ac.kr)
*This work was supported by the GRRC program of Gyeonggi province. [GRRC KGU 2023-B01, Research on Intelligent Industrial Data Analytics]
Received 2025 September 22; Revised 2025 October 18; Accepted 2025 November 3.

Trans Abstract

Purpose

High-reliability systems rarely fail, resulting in extreme fault-data scarcity and severe class imbalance. These limitations hinder the application of machine learning models for Remaining Useful Life (RUL) prediction and fault diagnosis. This study proposes a hybrid data augmentation framework to overcome these challenges.

Methods

A CTGAN-based hybrid augmentation approach was developed by combining environmental sensitivity analysis (XGBoost-SHAP), prototype clustering (K-means), and multi-stage post-processing (ProtoMix, weighted noise injection, Soft Capping, and CDF matching). The framework generates physically consistent and statistically realistic synthetic fault data.

Results

Under an extreme stress test with 37,982 normal samples and only 15 fault samples, the Hybrid GAN outperformed Baseline, SMOTE, and Basic GAN. It achieved the highest accuracy (0.942), improved F1-score (0.905), precision (0.964), and reduced false positives by nearly 50% compared with the Basic GAN.

Conclusion

The hybrid framework effectively mitigated class imbalance and delivered robust predictive performance under challenging conditions, demonstrating strong potential for predictive maintenance in high-reliability systems.

1. 서 론

고신뢰성 시스템은 국방, 항공우주, 원자력 발전 등 국가 핵심 인프라의 근간을 이루며 임무 실패 허용도가 극히 낮아 설계·제조·운용 전 주기에 걸쳐 높은 신뢰도를 요구한다. 이들 시스템은 유형에 따라 장기간 저장 후 단발 임무를 수행하는 장비와 상시 연속 운전이 필요한 설비로 구분되지만, 공통적으로 결함 허용 한계가 매우 낮다. 특히 임무 실패 시 막대한 경제적 손실뿐만 아니라 인명 피해와 국가 안보 위협으로 이어질 수 있어, 극도의 신뢰성 확보가 필수적이다. 따라서 이러한 시스템의 안정적인 운용은 예측 정비 기술의 정확성에 크게 의존한다(Susto et al., 2015; Ha et al., 2025). 국내에서는 수명주기 전반의 데이터를 체계적으로 통합 관리하여 노화 경향을 분석하거나 시험 성적서 데이터로부터 잠재적 불량을 예측하는 연구가 이루어지고 있다(Kim, et al., 2025; Kim, et al., 2023). 예측 정비의 본질은 시스템의 열화 상태를 정확히 모델링하여 잔존 수명(RUL)을 예측하는 것이나, 고신뢰성 시스템은 본질적으로 고장이 드물다는 특성 때문에 학습에 필요한 고장 데이터가 절대적으로 부족한 클래스 불균형(Class Imbalance) 문제를 내포하고 있다(Krawczyk, 2016).

데이터 부족 문제는 기계 학습 모델이 소수 클래스인 고장 패턴을 충분히 학습하지 못하고 다수 클래스인 정상 상태에 과적합(Overfitting)되게 만드는 근본적인 원인으로 작용한다 (He and Garcia, 2009; Jung et al., 2025). 이러한 모델의 예측 정확도는 근본적으로 입력 데이터의 품질에 좌우되므로, 데이터의 일관성을 검증하고 신뢰도 높은 분야별 고장률 정보를 확보하는 것이 선행되어야 한다 (Kim, et al., 2025; Lee, et al., 2025). 더불어, 시스템이 운용되는 지역, 온·습도 등 다양한 환경 변수는 열화 경로에 복합적인 영향을 미쳐 데이터 분포 이동(Distribution Shift)을 유발하며, 이는 기존 통계 및 회귀 기반 모델의 일반화 성능을 더욱 악화시킨다.

이러한 한계를 극복하기 위한 대표적인 접근 중 하나가 데이터 증강(Data Augmentation)이다 (Shorten and Khoshgoftaar, 2019). 데이터 증강은 기존 데이터를 기반으로 새로운 가상 데이터를 생성하여 훈련 데이터셋의 규모와 다양성을 확보하는 기법으로, 클래스 불균형 문제를 완화하는 데 널리 활용된다. 전통적으로는 소수 클래스 데이터를 단순 복제하거나, SMOTE(Synthetic Minority Over-sampling Technique)와 같이 인접 샘플을 보간하여 합성 데이터를 생성하는 오버샘플링 기법이 주로 사용되었다(Chawla et al., 2002). 이러한 방법들은 구현이 간단하고 일정 수준의 불균형 문제를 완화하는 효과가 있으나, 복잡한 다변량 상관관계나 비선형적인 열화 패턴을 충분히 반영하지 못한다는 한계가 있다(Fernández et al., 2018). 이에 따라 최근에는 생성적 적대 신경망(GAN) 기반 방법이 주목받고 있으며, 보다 정교한 분포 묘사가 가능하다는 장점이 있다(Goodfellow et al., 2014). 특히 테이블형 데이터에 특화된 CTGAN(Conditional Tabular GAN)이 제안되면서, 불균형한 구조화 데이터를 다루는 연구에 활용되고 있다(Xu et al., 2019). 그러나 기존 연구들은 여전히 물리적 제약이나 환경 변수의 영향을 충분히 반영하지 못해, 실제 고신뢰성 시스템 데이터를 다루기에는 한계가 존재한다. 따라서 물리적 제약과 환경 변수를 동시에 반영할 수 있는 데이터 증강 기법에 대한 연구가 지속적으로 요구된다.

이와 같은 배경에서, 본 연구는 고신뢰성 시스템의 복잡한 열화 메커니즘을 반영한 하이브리드 데이터 증강 방법론을 제안한다. 제안된 방법론은 CTGAN을 핵심 생성기로 활용하면서, 도메인 지식을 반영한 다단계 전·후처리 절차를 결합하여 합성 데이터의 품질과 현실성을 동시에 확보하는 것을 목표로 한다. 본 논문의 주요 기여는 다음과 같다. 첫째, 환경 변수의 영향을 정량적으로 모델링하고 데이터의 군집 특성을 반영함으로써 조건부 GAN 학습을 유도하는 새로운 하이브리드 증강 파이프라인을 설계하였다. 둘째, 생성된 데이터가 실제 운용 환경의 물리적 제약을 벗어나지 않도록 하기 위해 ProtoMix와 CDF 매칭 등 다단계 후처리 기법을 도입하여 합성 데이터의 현실성을 강화하였다. 셋째, 고신뢰성 시스템이 직면할 수 있는 최악의 데이터 불균형 시나리오를 모사하여, 정상 데이터 약 3만 8천개와 고장 데이터 15개라는 극한 조건에서 모델 성능을 평가하였다. 이러한 실험을 통해 제안된 모델이 기존 방법론과 비교하여 데이터 불균형 상황에서 더욱 안정적이고 강건한 성능을 발휘함을 실증적으로 확인하였다.

본 논문의 구성은 다음과 같다. 제2장에서는 관련 연구와 기존 데이터 증강 기법들의 한계를 검토한다. 제3장에서는 제안된 하이브리드 데이터 증강 방법론의 설계 및 절차를 설명한다. 제4장에서는 실제 데이터를 활용한 실험 설계와 극한 불균형 환경에서의 검증 결과를 제시한다. 마지막으로, 제5장에서는 연구의 결론과 향후 연구 방향을 논의한다.

2. 관련 문헌 연구

2.1 데이터 증강 연구

데이터 증강(Data Augmentation)은 기계 학습 모델의 일반화 성능을 향상시키고, 특히 데이터가 부족하거나 불균형한 상황에서 과적합을 방지하는 핵심적인 정규화 기법으로 널리 인정받고 있다(Shorten and Khoshgoftaar, 2019; Rezvani et al., 2023; Chen et al., 2023). 연구 초기에는 이미지 분류 성능 향상을 위해 회전, 자르기와 같은 단순한 기하학적 변환 기법이 주로 활용되었으며(Krizhevsky et al., 2012), 이후 Mixup, CutMix, AutoAugment와 같은 보다 정교한 방법론들이 제안되었다. 최근에는 이미지 영역을 넘어 텍스트(Wei and Zou, 2019), 음성(Park et al., 2019), 시계열(Um et al., 2017) 등 다양한 데이터 유형으로 적용 범위가 확장되고 있다.

이러한 방법론 중, 두 개 이상의 데이터를 선형적으로 결합하여 가상의 학습 데이터를 생성하는 Mixup 기법이 제안되었다(Zhang et al., 2017). 이는 모델이 훈련 데이터 사이의 공간에서 더 선형적인 예측을 하도록 유도하여 일반화 성능과 손상된 라벨에 대한 강건성을 크게 향상시켰다. 이후, 이미지의 일부 영역을 다른 이미지의 일부로 대체하는 CutMix가 제안되었으며(Yun et al., 2019), 정보 손실을 최소화하면서도 강력한 정규화 효과를 달성하였다. 또한, 강화학습을 이용해 데이터셋에 최적화된 증강 정책을 자동으로 탐색하는 AutoAugment가 발표되었다(Cubuk et al., 2019). 이러한 연구들은 데이터 증강이 단순한 기법을 넘어, 모델의 학습 방식 자체에 근본적인 영향을 미칠 수 있음을 보여주었다.

특히 데이터 불균형 문제는 여러 산업 분야에서 공통적으로 직면하는 과제이며, 이를 해결하기 위한 데이터 증강 연구가 활발히 진행되어 왔다(Chen et al., 2024; Johnson and Khoshgoftaar, 2019; Stylianou et al., 2023). 불균형 데이터 학습 분야의 주요 과제와 연구 방향이 제시되면서(Krawczyk, 2016), 데이터 증강의 중요성이 더욱 강조되었다. 최근 연구들은 단순한 오버샘플링을 넘어 데이터의 근본적인 분포를 학습하여 소수 클래스의 다양성을 확보하는 생성 모델 기반 기법에 주목하고 있으며, 이는 고신뢰성 시스템의 희귀 고장 진단과 같은 문제에 효과적인 해결책을 제공한다(Chen et al., 2024; Rezvani et al., 2023).

2.2 CTGAN 활용 최신 연구

테이블 데이터(Tabular Data)는 산업 현장에서 가장 흔히 활용되는 데이터 형태이지만, 연속형과 범주형 변수가 혼재하고 복잡한 분포를 가져 증강이 어려운 영역으로 알려져 있다. 이러한 문제를 해결하기 위해 제안된 CTGAN(Conditional Tabular GAN)은 테이블 데이터 증강의 표준적 기법으로 자리 잡았으며, 다양한 분야에서 그 효과가 입증되고 있다(Xu et al., 2019).

금융 사기 탐지와 같이 극소수의 이상 사례를 다루는 분야에서는 CTGAN이 소수 클래스 증강에 활용되어 예측 성능 향상을 이끌었다. 또한, 사이버 보안 분야에서는 희귀 공격 패턴 데이터를 생성하여 침입 탐지 시스템의 강건성을 높이는 데 사용되고 있으며, 의료 데이터 분석에서는 개인정보 보호와 동시에 희귀 질환 환자 데이터를 보완하는 데 적용되고 있다(Xu et al., 2019; Zhao et al., 2021).

이러한 응용 사례들은 CTGAN이 고신뢰성 시스템이 공통적으로 직면하는 데이터 부족, 극심한 불균형 문제를 해결하는 강력한 도구임을 보여준다(Kim et al., 2025). 최근에는 CTAB-GAN 및 CTAB-GAN+와 같이 안정성과 성능을 개선한 후속 모델들이 제안되며, 실제 산업 시스템에서의 활용 가능성이 더욱 확대되고 있다(Zhao et al., 2021; Zhao et al., 2022). CTGAN은 불균형 데이터 학습에 있어 다양한 도메인에서 그 효과가 검증되었으며, 이러한 성과는 고신뢰성 시스템에서의 희귀 고장 데이터 증강에도 적용될 수 있다. 이에 따라 본 연구는 CTGAN을 핵심 생성 모델로 채택하여, 고신뢰성 시스템의 데이터 부족 문제를 해결하고자 한다.

3. 방법론

본 연구에서는 고신뢰성 시스템의 희귀 고장 데이터 증강을 위해 도메인 지식과 생성 모델을 결합한 하이브리드 프레임워크를 제안한다. 제안된 프레임워크는 단순히 데이터의 양을 늘리는 수준을 넘어, 시스템의 물리적 특성과 동적 열화 과정을 반영한 고품질 합성 데이터를 생성하는 것을 목표로 한다. 이를 위해 데이터 전처리 및 잠재적 고장 정의, 하이브리드 모델을 위한 사전 분석, 조건부 GAN 기반 데이터 생성, 생성 데이터의 현실성 강화 후처리의 4단계로 구성된 파이프라인을 설계하였다. 본 연구에서 제안하는 모델의 프레임워크는 Figure 1과 같다.

Figure 1

Proposed hybrid data augmentation framework

3.1 데이터 전처리 및 잠재적 고장 정의

고신뢰성 시스템의 운용 데이터는 명시적 고장(failure) 사례가 극히 드물다는 한계를 가진다. 이를 극복하고 증강 대상이 될 소수 클래스 데이터를 확보하기 위해, 본 연구에서는 관리 규격을 기준으로 ‘잠재적 고장(potential fault)’을 정의하였다. 이는 명백한 고장 이전의 이상 징후를 포착하기 위한 품질 공학적 접근에서 착안하였다.

구체적으로, 각 측정 항목의 관리 상한(USL, Upper Specification Limit)과 하한(LSL, Lower Specification Limit)을 기준으로 양 끝단 10% 구간을 ‘주의 구역(warning zone)’으로 설정하였다. 해당 구역에 속하는 데이터 샘플을 ‘잠재적 고장’으로 라벨링함으로써, 실제 고장은 아니지만 불안정성을 내포한 소수 클래스 데이터셋을 구축하였다.

또한 시스템의 동적 열화 특성을 반영하기 위해, 생산 시점의 초기 품질 측정치(QIMinit)와 검사 시점 측정치(QIMinsp) 간의 변화율을 핵심 지표로 사용하였다. 이를 누적 운용일(doper)로 정규화 한 값, Delta(δ)를 식 (1)과 같이 정의하였다.

(1) δ=QIMinsp-QIMinitdoper

Delta(δ)는 시간 경과에 따른 평균 열화 속도를 의미하며, 이후 모든 증강 과정의 핵심 지표로 활용된다.

3.2 하이브리드 모델을 위한 사전 분석

단순히 생성 모델을 적용하는 수준을 넘어, 데이터의 내재적 물리 특성을 반영한 고품질 합성 데이터를 생성하기 위해 두 가지 핵심적인 사전 분석을 수행하였다. 이 과정에서 도출된 정보는 CTGAN 학습의 조건 변수로 활용되어, 생성 데이터의 현실성과 신뢰성을 높이는 역할을 한다.

첫째, 환경 민감도 분석을 수행하였다. 시스템의 열화 속도는 온도와 습도 등 외부 환경 변수에 의해 복합적이고 비선형적으로 영향을 받는다. 이를 정량적으로 모델링하기 위해, 본 연구에서는 테이블 데이터에서 높은 성능을 보이는 XGBoost(eXtreme Gradient Boosting) 회귀 모델을 활용하였다. 환경 변수 벡터 Xenv를 입력으로 하고, 열화 속도 지표인 Delta(δ)를 목표 변수로 두어 모델 fXGB 를 학습하였다. 학습된 모델을 통해 각 데이터 샘플의 환경 민감도 점수 Senv를 산출하였으며, 이는 특정 환경 조건에서 예상되는 열화 속도를 나타낸다. 이를 식(2)와 같이 정의하였다.

(2) Senv=fXGB(Xenv)

둘째, 프로토타입 기반 클러스터링을 적용하였다. 소수의 고장 데이터 내에서도 열화 패턴은 이질적일 수 있으며, 이를 반영하기 위해 잠재적 고장 데이터의 Delta(δ)값을 대상으로 K-평균(K-means) 군집화를 수행하였다. 알고리즘은 데이터를 K개의 군집 C = {C1, C2, ⋯,CK}로 분할하고, 군집 내 분산의 합을 최소화하는 중심점 μk를 찾는다. 목표 함수는 식 (3)과 같이 정의하였다.

(3) argminCk=1KδiCkδi-μk2

여기서 각 군집의 중심점 μk는 해당 군집을 대표하는 ‘프로토타입(Prototype)’으로 정의된다. 각 데이터 샘플은 자신이 속한 군집의 프로토타입 정보를 범주형 라벨(plabel)로 부여받는다. 고장 프로토타입의 최적 군집 수(K)를 결정하기 위해 K값을 2에서 10까지 변화시키며 체계적인 평가를 수행하였다. 본 연구에서는 군집 내 응집도와 군집 간 분리도를 종합적으로 고려하기 위해 엘보우 방법(Elbow Method)과 평균 실루엣 점수(Average Silhouette Score)를 병행 적용하였다. 분석 결과, 엘보우 방법에서는 K=3에서 군집 내 제곱합(WSS)의 감소율이 완만해지는 변곡점이 명확히 관찰되었으며, 추가적인 군집 수 증가에 따른 설명력 향상이 미미하였다. 또한 평균 실루엣 점수 역시 K=3에서 가장 높은 값을 기록하여, 군집 간 경계가 가장 명확하고 내적 응집도가 우수함을 확인하였다. 이와 같이 두 가지 독립적 검증 결과가 일치함에 따라, 본 연구에서는 K=3을 최적의 군집 수로 결정하고 세 개의 고장 프로토타입을 정의하였다.

위와 같이 도출된 환경 민감도 점수 Senv와 각 데이터가 속한 프로토타입의 범주형 라벨(plabel)은 이후 CTGAN 학습 시 조건 변수로 사용되어, 환경 요인과 다양한 고장 모드를 모두 고려한 데이터 생성을 가능하게 한다.

3.3 조건부 GAN 기반 데이터 생성

본 연구에서는 테이블 데이터 생성을 위해 조건부 생성적 적대 신경망(CTGAN, Conditional Tabular GAN)을 핵심 생성기로 채택하였다. CTGAN은 생성적 적대 신경망(GAN)의 기본 구조를 따르면서도, 연속형 변수의 다봉형(multi-modal)분포와 범주형 변수의 불균형 문제를 효과적으로 처리하도록 설계된 모델이다.

GAN은 생성자(Generator, G)와 판별자(Discriminator, D)가 경쟁하는 적대적 학습(Adversarial Training) 구조를 가진다. 생성자는 무작위 노이즈로부터 합성 데이터를 생성하고, 판별자는 이를 실제 데이터와 구분하도록 학습한다. 목적 함수는 식 (4)와 같은 최소–최대(minimax) 문제로 정의하였다.

(4) minGminDV(D,G)=Ex~pdata(x)[log D(x)]+Ez~pz(z)[log(1-D(G(z)))]

여기서 x는 실제 데이터, z 는 노이즈 벡터, pdata는 실제 데이터의 분포, pz 는 노이즈의 분포를 의미한다. 생성자 G식(4)를 최소화하고, 판별자 D 는 이를 최대화하도록 학습한다.

본 연구에서는 CTGAN의 조건부 생성을 확장하기 위해 3.2절에서 도출한 환경 민감도 점수 Senv와 프로토타입 라벨 plabel을 조건부 벡터 c로 활용하였다. 따라서 생성자의 입력은 단순한 노이즈 벡터 z 가 아니라, 결합된 형태(zc)로 정의된다. 판별자 역시 실제 데이터 x 또는 생성 데이터 G (z|c)와 조건부 벡터 c를 함께 입력받아 진위 여부를 판별한다.

이를 통해 생성자는 단순한 데이터 분포 모사에 그치지 않고, 특정 환경 조건과 특정 열화 패턴을 동시에 반영한 합성 고장 데이터를 생성할 수 있다. 이러한 구조는 무작위성을 줄이고, 도메인 지식 기반의 제약을 반영함으로써 높은 현실성과 신뢰도를 갖춘 데이터 생성을 가능하게 한다.

3.4 생성 데이터의 현실성 강화 후처리

GAN이 생성한 데이터는 통계적으로는 유사하더라도 물리적 제약을 벗어나거나 인위적인 패턴을 포함할 수 있다. 본 연구에서는 이러한 문제를 최소화하기 위해 네 가지 후처리 절차를 적용하였다. 첫째, 생성된 합성 데이터가 의도된 고장 모드를 대표하고 비현실적인 이상치 생성을 억제하도록, ‘ProtoMix’라는 프로토타입 기반 정규화 단계를 도입하였다. 본 기법은 데이터 증강 분야에서 널리 사용되는 Mixup 원리(Zhang et al., 2017)를 변형 및 확장한 방식으로, 생성된 데이터가 군집 중심으로부터 과도하게 벗어나는 것을 방지한다. 특정 고장 프로토타입 k에 속하도록 생성된 합성 데이터 포인트 xgen에 대해, ProtoMix는 이를 3.2절의 K-평균 군집화 과정에서 식별된 해당 프로토타입의 중심점 μk과 선형 보간하여 조정한다. 이 과정은 식 (5)와 같이 표현된다.

(5) xadj=λ·xn+(1-λ)·μk

여기서 λ는 보간 강도를 제어하는 혼합 계수로, 베타 분포에서 α = 0.2로부터 샘플링된다. 이 과정은 합성 샘플을 목표 고장 군집의 중심 경향성으로 효과적으로 유도하여, 학습된 클래스 구조를 강화하고 생성된 데이터가 원본 데이터 분포의 고밀도 영역 내에 존재하도록 보장한다.

우선, ProtoMix를 통해 합성 데이터가 원본 데이터의 군집 구조에서 벗어나지 않도록 조정함으로써 다양한 고장 패턴이 유지되도록 하였다. 이어서, 환경 민감도 점수 Senv에 비례하는 가우시안 노이즈를 부여하여 현실 세계의 변동성을 반영하였으며, 이 과정은 식 (6)과 같이 표현된다.

(6) x^final=xadj+N(0,σ2·Senv)

또한, 생성 데이터가 관리 규격(USL/LSL)을 과도하게 벗어나지 않도록 Soft Capping을 적용하여 비현실적인 극단값을 억제하였다. 마지막으로, CDF 매칭(CDF Matching)을 통해 합성 데이터의 분포를 원본 데이터와 정렬시켜 주요 통계적 특성이 보존되도록 하였다.

4. 실험 및 결과

본 장에서는 제3장에서 제안한 하이브리드 데이터 증강 프레임워크의 성능을 검증하기 위해 수행한 실험 설계와 그 결과를 기술한다. 실험의 주요 목적은 제안된 방법론이 고신뢰성 시스템이 직면할 수 있는 극단적인 데이터 불균형 환경에서 기존 방법론 대비 얼마나 강건하고 안정적인 성능을 발휘하는지를 실증적으로 입증하는 데 있다. 이를 위해 합성 데이터의 품질을 정량적으로 분석하고, 분류 모델의 성능을 비교하는 극한 상황 기반 테스트를 단계적으로 수행하였다.

4.1 실험 환경

본 연구에서 사용된 데이터는 방위산업체의 유도무기 품질검사 및 환경시험 과정에서 수집된 시계열성 테이블 데이터로, 각 데이터 포인트는 온도·습도 등 환경 변수와 다수의 검사 항목을 포함하며 실제 운용 환경을 반영한다. 데이터는 제3.1절의 정의에 따라 정상(Normal)과 고장(Fault)의 두 클래스로 라벨링되었다. 제안된 하이브리드 GAN(Hybrid GAN)의 성능을 객관적으로 평가하기 위해, 데이터 증강을 적용하지 않은 Baseline, 전통적인 오버샘플링 기법인 SMOTE (Chawla et al., 2002), 그리고 본 연구의 전·후처리 과정을 제외한 표준 CTGAN 모델인 Basic GAN을 비교 모델로 설정하였다. 모든 시나리오에서 증강된 데이터는 공정한 비교를 위해 동일한 LightGBM 분류 모델을 훈련시키는 데 사용되었다. 모델의 성능은 클래스 불균형 문제의 특성을 고려하여(He and Garcia, 2009) F1-Score를 핵심 지표로 사용하였으며, 추가적으로 정밀도(Precision), 재현율(Recall), 특이도(Specificity), ROC-AUC, PR-AUC를 함께 측정하여 오경보(False Positive)와 미탐(False Negative)을 종합적으로 분석하였다.

4.2 합성 데이터 품질 평가

데이터 증강의 효과는 생성된 합성 데이터의 품질에 크게 좌우된다. 따라서 제안된 하이브리드 GAN이 생성한 데이터의 품질을 세 가지 관점에서 정량적으로 평가하였다.

4.2.1 통계적 충실도 (Statistical Fidelity)

생성된 데이터가 원본 데이터의 통계적 특성을 얼마나 충실히 보존하는지를 평가하였다. 단변량 분포 유사성을 확인하기 위해 콜모고로프-스미르노프(Kolmogorov-Smirnov) 검정을 수행한 결과, 전체 변수에 대한 평균 p-value는 0.5534로 유의수준 0.05를 크게 상회하여 합성 데이터가 원본 데이터의 개별 변수 분포를 유사하게 모사함을 통계적으로 확인하였다. 또한 고차원 구조 유사성을 평가하기 위해 t-SNE 시각화를 수행하였으며, Figure2는 원본 고장 데이터와 합성 데이터가 특정 군집에 치우치지 않고 전반적으로 고르게 분포함을 보여준다. 이는 합성 데이터가 원본 데이터의 복잡한 고차원 구조적 특성을 충실히 반영하고 있음을 나타낸다.

Figure 2

t-SNE Visualization of Original and Synthetic Fault Data

4.2.2. 현실성 및 식별 불가능성 (Realism & Indistinguishability)

생성된 데이터가 얼마나 현실적인지를 평가하기 위해, 실제 데이터와 합성 데이터를 구분하는 판별 모델(Discriminator)의 AUROC 값을 측정하였다. AUROC 값은 0.9251로 측정되었으며, 1.0에 가까운 이 값은 판별 모델이 두 데이터를 비교적 쉽게 구분할 수 있음을 의미한다. 이는 원본 고장데이터가 극소하여 생성 모델이 적절한 분포를 학습하기 어려웠던 것으로 해석되며, 합성데이터에 일부 인공적 패턴이 남아 있는 것으로 판단된다.

4.3 극한 불균형 환경에서의 강건성 검증

4.3.1. 극한 스트레스 테스트

본 연구에서는 제안된 방법론의 성능을 검증하기 위해, 실제 고신뢰성 시스템에서 발생할 수 있는 극단적인 데이터 불균형 상황을 모사한 극한 스트레스 테스트를 수행하였다. 제안하는 모델이 통계적으로 유의미한 소규모 고장이 거의 존재하지 않는 고신뢰성 시스템 조건에서도 성능을 유지할 수 있는지를 실증적으로 검증하고자 하였다.

전체 원본 데이터셋은 계층화 70%, 30% 분할을 적용하여 훈련, 테스트 집합으로 구분하였다. 공정한 성능 검증을 위해 테스트 집합(30%)은 증강을 적용하지 않은 원본 상태로 보존하고, 모든 모델은 동일한 테스트 집합에서 평가하였다. 이후 훈련 집합에 대해 의도적 불균형을 부여하여 극한 스트레스 테스트 시나리오를 구성하였다. 정상(normal)으로 라벨링 된 표본은 모두 유지하고, 고장(fault)으로 라벨링 된 표본은 15건으로 제한하여 약 2500:1의 불균형 비율을 구현하였다. 이 구성은 이후 비교 실험 전반에 동일하게 적용되었다.

비교 대상 모델인 SMOTE, Basic GAN, 그리고 본 연구에서 제안하는 모델인 Hybrid GAN은 모두 상기 극한 훈련 데이터를 입력으로 소규모 고장 보완을 위한 증강을 진행하였고, 테스트 집합에는 합성 표본을 포함하지 않았다. 모든 모델은 동일한 테스트 집합에서 성능 평가 진행하였으며, 최종 성능 평가 결과는 Table 1과 같다.

Comparative performance under extreme stress test conditions

4.3.2. 프레임워크 구성요소의 단계적 효과 검증

제안된 하이브리드 데이터 증강 프레임워크의 각 구성요소가 최종 성능에 미치는 영향을 정량적으로 분석하기 위해, 단계별 효과 검증을 수행하였다. 본 분석은 사전 분석과 후처리 단계가 전체 모델의 성능 향상에 기여하는 정도를 평가하는 것을 목적으로 한다. 실험은 세 가지 모델 구성을 대상으로 수행되었다. (1) 전·후처리 단계를 포함하지 않은 표준 CTGAN 기반의 기본 모델(Basic GAN), (2) 환경 민감도 분석 및 프로토타입 정보 등 사전 분석 결과를 조건 변수로 입력한 모델(Pre-analysis only), (3) 사전 분석과 후처리 단계를 모두 적용한 제안된 최종 모델(Hybrid GAN)이다. 모든 모델은 동일한 데이터셋과 분류기(LightGBM)를 사용하여 동일한 조건에서 학습 및 평가를 수행하였으며, 결과는 Table 2과 같다.

Ablation Study on Hybrid GAN Components

Table 2는 제안된 프레임워크의 단계별 기여도를 보여준다. 기본 GAN 모델에 환경 민감도 및 프로토타입 기반 조건 변수를 추가한 결과, 정밀도(Precision)가 0.932에서 0.947로 향상되었고, 오경보(False Positive)는 511건에서 385건으로 감소하였다. 이를 통해 사전 분석 단계를 통해 GAN이 보다 명확한 분포 구조를 학습하고, 실제 고장 클래스의 중심 특성을 더 잘 반영하도록 유도했음을 알 수 있다. 또한, ProtoMix 기반 정규화 및 가우시안 노이즈 주입 등 다단계 후처리 절차를 추가한 최종 Hybrid GAN 모델은 정밀도를 0.964까지 끌어올리고 오경보를 253건으로 감소시켰다. 이러한 결과는 후처리 과정이 생성 데이터의 분포를 안정화하고 현실성을 강화시켜, 최종적으로 분류기의 신뢰도 향상에 유의미한 기여를 했음을 시사한다.

4.4 결과 분석

본 연구의 실험 결과는 제안된 하이브리드 GAN 모델이 극한의 데이터 불균형 환경에서 기존 방법론과 비교하여 안정적이고 우수한 성능을 보였음을 보여준다. Baseline 모델은 소수의 고장 데이터를 충분히 학습하지 못해 재현율(Recall)이 0.718에 그쳤으며, 이는 약 28%의 고장 사례(FN=2227)를 탐지하지 못한 결과이다. SMOTE는 재현율을 0.853까지 개선했으나, 정밀도(Precision)가 0.904로 낮아지고 오경보(False Positives, FP)가 7,713건으로 크게 증가하여 실용성이 제한적임을 확인하였다. 이는 SMOTE가 생성한 합성 데이터가 결정 경계를 불명확하게 만들어 오경보 발생을 유발했음을 시사한다. Basic GAN은 F1-Score(0.909)와 재현율(0.887)에서 상대적으로 높은 성능을 보였으나, 동시에 511건의 오경보가 발생하여 안정성 측면에서 한계를 드러냈다.

이에 비해 제안된 Hybrid GAN 모델은 Basic GAN과 동일한 정확도(0.942)를 유지하면서도 정밀도(0.964)와 특이도(0.984)를 가장 높게 달성하였다. 특히 오경보 건수가 253건으로, Basic GAN(511건) 대비 절반 수준으로 감소했으며, SMOTE(7,713건)에 비해 현저히 낮은 수치를 기록하였다. 이는 제안된 모델이 고장을 효과적으로 탐지하면서도 정상 데이터를 고장으로 오인하는 비율을 최소화하여, 실제 운용 환경에서 요구되는 신뢰성과 효율성을 동시에 충족시킬 수 있음을 의미한다.

이러한 결과는 고신뢰성 산업 현장에서 실질적인 의미를 가진다. 오경보(False Positive) 하나는 생산 라인의 불필요한 중단, 고비용의 수동 점검, 그리고 예측 시스템에 대한 신뢰도 저하로 이어질 수 있다. 지속적으로 잘못된 경보를 발생시키는 시스템은 결국 무시되거나 비활성화될 가능성이 높으며, 이는 예측 정비 시스템 도입의 근본적 실패를 초래할 수 있다. 이러한 맥락에서 제안된 Hybrid GAN의 FP 감소 효과는 단순한 수치상의 개선을 넘어, 예측 시스템의 운용 신뢰도를 확보하는 데 실질적인 기여를 한다고 볼 수 있다.

Figure 3의 Precision-Recall(PR) 곡선 역시 이를 뒷받침한다. Hybrid GAN의 곡선은 다른 모델들과 비교하여 전반적으로 우측 상단에 위치하며, 높은 재현율 구간에서도 상대적으로 높은 정밀도를 유지하였다. 이는 본 연구에서 제안한 환경 민감도 분석, 프로토타입 기반 군집화, 다단계 후처리 과정이 단순한 GAN 기반 접근을 넘어 합성 데이터의 품질 향상과 분류 성능 개선에 기여했음을 확인할 수 있다.

Figure 3

Comparison of Precision-Recall Curves for Each Model

이러한 결과를 통해 3장에서 제안한 환경 민감도 분석, 프로토타입 정의, 그리고 다단계 후처리 과정이 GAN의 성능을 넘어, 데이터의 질을 근본적으로 향상시키는 데 기여했음을 보여준다.

5. 결 론

본 연구는 고신뢰성 시스템의 예측 정비 분야에서 지속적으로 제기되어 온 고장 데이터 부족 및 클래스 불균형 문제를 해결하기 위해, 도메인 지식과 생성 모델을 결합한 하이브리드 데이터 증강 프레임워크를 제안하였다. 제안된 방법론은 CTGAN을 핵심 생성기로 활용하면서, 환경 민감도 분석과 프로토타입 클러스터링을 통해 생성 과정에 물리적 제약을 반영하고, 다단계 후처리를 적용하여 합성 데이터의 현실성을 강화하는 독창적인 파이프라인을 구축하였다.

실험은 실제 운용 환경에서 발생할 수 있는 극단적 불균형 조건(정상 데이터 약 3만 8천 개 대비 고장 데이터 15개)을 모사한 스트레스 테스트를 통해 수행되었다. 그 결과, 제안된 Hybrid GAN 모델은 Baseline, SMOTE, Basic GAN 등 기존 방법론이 성능 저하 또는 오경보 급증 문제를 보이는 상황에서도 높은 예측 성능과 안정성을 동시에 확보하였다. 특히, 정확도를 유지하면서 오경보를 Basic GAN 대비 절반 수준으로 감소시켜, 실제 운용 환경에서 요구되는 신뢰성과 효율성을 동시에 충족시킬 수 있음을 입증하였다. 이는 제안된 프레임워크가 단순한 데이터 양적 확장을 넘어, 물리적 제약과 통계적 분포를 모두 충족하는 고품질 합성 데이터를 효과적으로 생성함을 보여준다.

또한 본 연구는 데이터 증강 기법의 성능 평가에서 표준 벤치마크를 넘어 실제 산업 현장의 극한 조건을 고려한 스트레스 테스트의 중요성을 강조하였다는 점에서 방법론적 기여를 가진다. 다만, 합성 데이터 품질 평가에서 판별 모델의 AUROC 값이 0.9251로 나타나 일부 인공적 패턴이 남아 있을 가능성이 확인된 것은 본 연구의 한계로 지적된다.

향후 연구에서는 생성 모델 구조의 고도화와 후처리 기법의 정교화를 통해 합성 데이터의 현실성을 더욱 향상시키고, 제안된 프레임워크를 다양한 고신뢰성 시스템에 적용하여 그 일반화 가능성을 검증하고자 한다.

References

Chawla N. V., Bowyer K. W., Hall L. O., Kegelmeyer W. P.. 2002;SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research 16:321–357.
Chen J., Tam D., Raffel C., Bansal M., Yang D.. 2023;An empirical survey of data augmentation for limited data learning in NLP. Transactions of the Association for Computational Linguistics 11:191–211.
Chen W., Li X., Liu S., Xu Y.. 2024;A survey on imbalanced learning: latest research and future directions. Artificial Intelligence Review 57:1–48.
Cubuk E. D., Zoph B., Mané D., Vasudevan V., Le Q. V.. 2019. Autoaugment: Learning augmentation strategies from data. In : Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. p. 113–123.
Fernández A., Garcia S., Galar M., Prati R. C., Krawczyk B., Herrera F.. 2018;SMOTE for learning from imbalanced data: Progress and challenges, marking the 15-year anniversary. Journal of Artificial Intelligence Research 61:863–905.
Goodfellow I., Pouget-Abadie J., Mirza M., Xu B., Warde-Farley D., Ozair S., Courville A., Bengio Y.. 2014;Generative adversarial nets. Advances in Neural Information Processing Systems 27:2672–2680.
Ha J., Lee S., Kim D., Choi J.. 2025;A case study of graph neural network-based anomaly detection and root cause visualization for quality improvement in semiconductor manufacturing. Journal of Korean Society for Quality Management 53(2):237–248.
He H., Garcia E. A.. 2009;Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering 21(9):1263–1284.
Johnson J. M., Khoshgoftaar T. M.. 2019;Survey on deep learning with class imbalance. Journal of Big Data 6(1):1–54.
Jung H., Lee W., Hur Y.. 2025;Deep learning-based steel plate surface defect detection with precise RoI pooling. Journal of Korean Society for Quality Management 53(3):249–264.
Kim M., Hong J., Hur Y.. 2025;Out-of-distribution detection for semiconductor wafer map defect using GAN and outlier-exposure. Journal of Korean Society for Quality Management 53(3):329–342.
Kim Daeun, Lee Chang Hee, Park Doo-il, Park Jaehun. 2023;Method for predicting potential occurrence of defects in test items using munitions test report data. Journal of Applied Reliability 23(2):195–204.
Kim Yeong Hyeon, Kim Ye-Jun, Park Jong-Woo, Lee Jeong-Oh, Park Soonwoo, Shin Solbi, Don Hong Seong, Kim Yong Soo. 2025;Data integration management framework for guided missile aging trend analysis. Journal of Applied Reliability 25(1):67–79.
Kim Yonggeun, Oh Youngil, Kim Heewook, Im Seongjun, Park Eunshim. 2025;Reliability prediction data verification process in system of systems. Journal of Applied Reliability 25(1):26–35.
Krawczyk B.. 2016;Learning from imbalanced data: Open challenges and future directions. Progress in Artificial Intelligence 5:221–232.
Krizhevsky A., Sutskever I., Hinton G. E.. 2012;ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems 25:1097–1105.
Lee Yun Woo, Kim Eu Joon, Lim Jae-Hak. 2025;Application of the Korean reliability databook for improving the accuracy of weapon system reliability prediction. Journal of Applied Reliability 25(2):116–126.
Park D. S., Chan W., Zhang Y., Chiu C. C., Zoph B., Cubuk E. D., Le Q. V.. 2019. Specaugment: A simple data augmentation method for automatic speech recognition. Proceedings of Interspeech 2019. p. 2613–2617.
Rezvani S., Shabanpour R., Zandieh M.. 2023;A broad review on class imbalance learning techniques. Information Sciences 639:119070.
Shorten C., Khoshgoftaar T. M.. 2019;A survey on image data augmentation for deep learning. Journal of Big Data 6(1):1–48.
Stylianou N., Chatzakou D., Tsikrika T., Vrochidis S., Kompatsiaris I.. 2023. Domain-aligned data augmentation for low-resource and imbalanced text classification. In : European Conference on Information Retrieval. p. 172–187.
Susto G. A., Schirru A., Pampuri S., McLoone S., Beghi A.. 2015;Machine learning for predictive maintenance: A multiple classifier approach. IEEE Trans Ind Inform 11(3):812–20.
Um T. T., Pfister F. M., Pichler D., Endo S., Lang M., Hirche S., Fietzek U., Kulić D.. 2017. Data augmentation of wearable sensor data for Parkinson’s disease monitoring using convolutional neural networks. In : Proceedings of the 19th ACM International Conference on Multimodal Interaction. p. 216–220.
Wei J., Zou K.. 2019. EDA: Easy data augmentation techniques for boosting performance on text classification tasks. In : Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing (EMNLP-IJCNLP). p. 6382–6388.
Xu L., Skoularidou M., Cuesta-Infante A., Veeramachaneni K.. 2019;Modeling tabular data using conditional GAN. Advances in Neural Information Processing Systems 32:7335–7345.
Yun S., Han D., Oh S. J., Chun S., Choe J., Yoo Y.. 2019. CutMix: Regularization strategy to train strong classifiers with localizable features. In : Proceedings of the IEEE/CVF International Conference on Computer Vision. p. 6023–6032.
Zhang H., Cissé M., Dauphin Y. N., Lopez-Paz D.. 2017;mixup: Beyond empirical risk minimization. [Preprint] Available from: arXiv.1710.09412.
Zhao L., et al. 2021;CTAB-GAN: Conditional tabular GAN for data augmentation. [Preprint]. Available from: arXiv.2107.00931.
Zhao L., et al. 2022;RDP-CGAN: A differentially private GAN for tabular data synthesis. Information Sciences 611:413–428.

Article information Continued

Figure 1

Proposed hybrid data augmentation framework

Figure 2

t-SNE Visualization of Original and Synthetic Fault Data

Figure 3

Comparison of Precision-Recall Curves for Each Model

Table 1

Comparative performance under extreme stress test conditions

Model Accuracy F1-fault Recall Precision Specificity ROCAUC PRAUC thr TP FP FN TN
Hybrid GAN (Proposed) 0.942 0.905 0.853 0.964 0.984 0.933 0.909 0.010 6740 253 1158 16025
Basic GAN 0.942 0.909 0.887 0.932 0.969 0.946 0.925 0.013 7008 511 890 15767
SMOTE 0.922 0.878 0.853 0.904 0.956 0.919 0.889 0.003 6737 7713 1161 15565
Baseline 0.903 0.829 0.718 0.981 0.993 0.858 0.809 0.003 5671 112 2227 16166

Table 2

Ablation Study on Hybrid GAN Components

Model Accuracy F1-fault Recall Precision FP
Basic GAN 0.942 0.909 0.887 0.932 511
Pre-analysis Conditioning 0.942 0.907 0.871 0.947 385
Hybrid GAN (Proposed) 0.942 0.905 0.853 0.964 253