![]() |
![]() |
AbstractPurposeThis study aims to transform test reports in the defense industry into a structured database (DB) by leveraging open-source Optical Character Recognition (OCR) and following the DMADOV methodology for quality improvement.
MethodsThe research was conducted in two phases following the DMADOV procedure. First, a baseline system was developed using the open-source OCR engine Tesseract to create a text extraction program, with data structuring attempted via rule-based post-processing. Subsequently, to overcome the system's limitations, a multi-model pipeline, specifically PaddleOCR's PP-Structure, was applied to enhance structural recognition performance, including layout analysis and table recognition. The performance of both systems was comparatively verified through quantitative metrics and qualitative analysis.
ResultsThe initial Tesseract-based model heavily relied on strict, rule-based post-processing to ultimately achieve a 100% data match rate, but this revealed the system's lack of scalability and flexibility. In contrast, the optimized system using the multi-model pipeline (PP-Structure) accurately recognized the document's structure and content without requiring separate, complex post-processing, demonstrating superior performance in both qualitative and quantitative aspects.
ConclusionThis study clearly identified the limitations of a simple OCR engine and demonstrated that a multi-model pipeline is an effective alternative for the automated structuring of defense quality data. The findings provide a practical roadmap for system integration companies and their partners to build a big data-based quality information system. Furthermore, the study is significant in its proposal of data utilization strategies for the implementation of Defense Quality 4.0.
1. 서 론최근 국제적 분쟁 지역의 확대와 군수물자 수요 증대에 힘입어, K-방산은 글로벌 방산 시장에서 성공적으로 입지를 다지며 빠르게 성장하고 있다. 이러한 성장세는 항공, 위성, 무인 비행체 등 신사업 분야로의 확장과 대량 양산 사업의 증가, 그리고 플랫폼 중심의 통합 체계 구축과 같은 구조적 변화를 동반하며 지속될 전망이다. 그러나 이러한 양적 성장 이면에는 품질 문제 발생 시 국가 이미지 훼손 및 사업 경쟁력 하락과 같은 심각한 위험이 내재되어 있으므로, 잠재적 문제를 예측하고 선제적으로 대응하는 것이 그 어느 때보다 중요하다.
이러한 시대적 요구에 부응하여, 한국의 방위산업 품질 트렌드는 ‘국방 품질 4.0’으로 진화하고 있다. 이는 민간 분야의 Industry 4.0과 Quality 4.0(Seo, 2021) 개념을 벤치마킹한 것으로, 국방 운영 목표인 ‘튼튼한 국방 과학기술 강군’을 뒷받침하는 국방혁신 4.0과 그 방향성을 같이한다. 국방 품질 4.0의 핵심은 4차 산업혁명 기술을 활용한 데이터 기반의 예방적 품질 관리 활동으로, 군수품의 전 생애주기(Choi, 2021)에 걸쳐 품질 향상을 목표로 한다. 이를 위해 정책 제도, 인프라, 인력 양성의 3개 축 모두에서 빅데이터와 인공지능 적용을 위한 다각적인 연구가 활발히 진행되고 있다.
본 연구는 국방 품질 4.0 패러다임에 발맞추어 한화시스템이 추진하는 데이터 기반 품질 개선 활동의 일환으로 시작되었다. QIS(Quality Information System, 품질 정보 시스템)의 근간이 되는 데이터의 축적과 디지털화가 시급한 과제로 부상함에 따라, 특히 시험성적서 데이터의 체계적인 데이터베이스화에 대한 현장의 요구가 높아지고 있다. 현재 대부분의 시험성적서는 하드카피(Hard copy)나 스캔된 PDF 파일 형태로 관리되고 있어, 품질 데이터 분석을 위해서는 수작업에 의한 자료 변환 과정이 필수적이다. 이로 인해 불필요한 시간과 비용이 소요될 뿐만 아니라, 데이터의 신뢰성 저하라는 잠재적 리스크를 안고 있다. 특히 주요 구성품의 시험성적서에 포함된 데이터의 오류는 생산 단계에서의 조립 불량이나 상위 체계의 기능 결함으로 직결될 수 있기에, 시험성적서의 정확한 관리는 품질 확보의 핵심 요소이다.
지금까지 학계에서는 국방 품질 빅데이터 관리, 관련 인프라 구축, 정책 방향성 등 거시적인 관점의 연구가 주를 이루어 왔다. 특히 인공지능을 활용한 성적서 관련 연구는 주로 정부 연구기관 중심의 정책 제언이나 선진국의 관리 기법 비교에 집중되었다. 일부 연구에서 데이터 구조화를 시도하였으나(Kim, 2021; Park, 2023), 실제 협력사에서 발행하는 다양한 양식의 시험성적서를 대상으로 데이터화 및 시스템 개선 과정을 구체적으로 다룬 실증 연구는 부재한 실정이었다.
따라서 본 연구는 국방 분야 최초로 시험성적서의 데이터베이스화 프로그램을 자체 개발하고 성능을 개선하는 전과정을 체계적으로 제시하는 실무적 연구로서 깊은 의미를 가진다. 선행연구들이 OCR 기술을 특정 문제 해결을 위한 응용 도구로 활용하거나 데이터 관리의 필요성과 방향성을 제시하는 데 중점을 두는 반면, 본 연구는 품질경영 방법론에 기반하여 복잡한 방위 산업 문서의 완전한 데이터화를 위한 최적의 오픈소스 엔진을 비교·검증하고 그 기술적 고도화 과정을 실증적으로 제시한다는 근본적인 차이가 있다. 이를 통해 본 연구는 이론적 제안을 넘어선 구체적인 기술 구현 로드맵을 제공하며, 데이터 기반의 지능형 품질 관리 시스템 구축을 위한 핵심적인 토대를 마련했다는 점에서 중요한 학술적·실무적 공헌점을 가진다. 본 연구를 통해 축적된 경험과 교훈은 향후 국방품질 4.0의 성공적인 이행을 위한 개별 과제 추진에 유용한 자산이 될 것이다.
2. 배경 및 연구 계획2.1 배경2.1.1 AI-OCR의 개념 및 도구광학 문자 인식(Optical Character Recognition, OCR)은 인쇄, 촬영, 스캔한 이미지 내의 문자를 인식하여 기계가 읽고 편집할 수 있는 디지털 포맷(Digital Format)의 텍스트로 변환하는 기술이다(Jamshed, 2020). OCR은 반복적인 문서 관련 업무 절차를 자동화할 수 있다는 장점이 있다. 최근 금융, 의료, 법률 등 대량의 기록 자료를 보유한 산업 분야에서 자료의 디지털화를 위해 OCR을 채택하고 있다. 또한 인공지능(AI)의 한 축인 딥러닝을 활용한 OCR의 문자 인식률과 인식 속도의 향상으로 그 적용 분야가 점차 확장되는 추세이다.
AI-OCR은 다양한 분야의 실무에 적용되어 생산성과 업무 효율성을 높여줄 수 있으며, 단독 기술뿐만 아니라 RPA, 블록체인, 음성 지원 등 기타 신기술과 결합하여 업무 환경의 변화를 가져올 수 있다. AI-OCR을 통한 기록물 디지털화 및 데이터베이스(DB) 구축과 관련한 논문은 비전자 기록물의 이미지화에 국한된 경우가 대부분으로, 종이 기록의 디지털 이미지화를 넘어 텍스트로 정보를 변환하는 ‘데이터화’를 시도하거나 AI를 통한 기록의 활용성을 상향하려는 노력의 연구 및 사례는 적은 것이 사실이다(Ahn, 2022). 기록의 데이터화를 위해서는 비전자 기록물의 전자화가 선행되어야 하며, 이때의 전자화는 이미지의 단순한 열람보다는 기록 정보를 추출하여 검색과 활용 측면에 혁신을 가져오는 것이 최종 목표가 되어야 한다(Jeong, 2023).
본 논문에서는 딥러닝 기반 OCR 엔진 및 서비스를 기반으로 방산 검사 성적서에 특화된 프로그램을 개발하고 그 성능을 개선하였다. 또한, 그 결과를 품질비용과 연계하여 향후 국방 품질경영 발전 방향을 제시하고자 하였다. 대표적인 오픈소스 OCR 엔진으로 Tesseract OCR, EasyOCR, docTR, Keras OCR, PaddleOCR 등이 있으며(Yoon, 2024), Figure 1과 같이 문헌 연구를 기반으로 장/단점을 비교하여 객관적 분석을 진행하였다.
2.1.2 군수품 성적서 개선시험성적서(Test Report)는 제품이 요구사항을 만족하는지 여부를 확인하고 이를 문서로 남기기 위해 활용된다. 품질 관리에서 이러한 시험성적서의 확인은 중요한 절차이지만, 복잡한 체계 제품의 경우 문서의 양이 많아 직접 확인하기 어려운 문제가 있다. 본 연구 분야인 군수 분야의 개발 단계와 양산 단계 모두 국가나 기관에서 업체와의 계약 관계를 체결하여 품질 보증 활동을 진행하고 있으며, 업체 내에서도 하청 관계인 협력업체와의 복잡한 수직구조를 통해 SE(System Engineering) 등의 이론적 기반 하에 개발 및 제작이 이루어지고 있다. 이러한 이유로 각 단계의 품질 보증에 있어서 시험성적서는 수량에 상관없이 중요한 산출물이 된다.
대부분의 체계 업체와의 관계를 맺고 있는 체계 구성품을 납품하는 협력업체들은 제조 품질에 영향을 미치는 4M (사람(Man), 재료(Material), 설비(Machine), 방법(Method))이 취약하다. 특히 열악한 영세업체 특성상 인력의 잦은 유출, 품질 담당자의 교체 및 고령화 등에 따라 업무의 연속성이 낮아지고 일관된 품질 확보가 어려우며, 군수품 계약은 일반 민수 상품과 달리 다품종 소량 품목이 대부분으로 통계적인 품질 관리가 힘든 상황이다. 이러한 협력업체에 대한 납품 확인 시 검사성적서 수령, 확인에서 그치는 것이 아닌, 향후 발생할 소요군의 품질 문제를 대비하고 차기 과제를 준비하기 위한 더욱 선제적인 업체 데이터에 대한 분석이 필요하다.
이에 따라, 시험성적서 데이터를 체계적으로 축적하고 관리할 필요성이 대두되었다. 본 연구는 OCR 기술을 활용해 PDF 형태의 시험성적서에서 정량적 정보를 추출하고, 이를 최종적으로 DB화하는 것을 목표로 하였다.
2.2 관련 문헌 연구2.2.1 딥러닝 기반 OCR 관련 문헌 연구딥러닝 기반의 OCR을 주제로 한 최근 연구로서는 다양한 산업의 적용 논문이 나오고 있으며, 먼저, Yoon et al.(2024)은 의료 산업 분야에서 의료 서비스 향상을 위해 도입된 딥러닝 기반 OCR의 경향과 특징을 연구하였으며, 특히 의료 OCR이 검출한 문자 데이터를 자연어 처리를 통해 인식률을 개선하였지만, 정형화되지 않은 손글씨나 변형된 문자에서 인식 정확도가 한계를 보이며, 데이터베이스화, 전처리, 자연어 처리의 발전이 필요함을 설명하고 있다. Kim et al.(2024)은 딥러닝 프레임워크를 기반으로 VGG-16 모델을 활용하여 회사에서 설계문서를 실시간으로 인식 및 분류하고, 문서의 중요도에 따라 적절한 보안 조치를 적용하여 중요 문서를 효율적으로 보호하며, 동시에 일반 문서의 접근성과 가용성을 강화하는 방안을 제시했다. 효율적인 설계문서 관리 및 보안조치 구현의 사례이다. Lee et al.(2024)는 YOLO(You Only Look Once)방법에 추가로 EasyOCR을 사용하여 차량 번호를 읽고 번호판을 분류하여 차량 종류를 판단하는 논문의 사례이다. Kim et al.(2024)은 젯슨 나노와 NAVER CLOVA OCR을 활용한 알림장 검사 도구 개발 및 효과를 검증한 연구로서, 딥러닝 기반 OCR 도구가 학생들의 필기 능력 개선에 중요한 도구로서의 가능성을 확인하였다. Seo et al.(2023)는 AI 모델을 활용하여 산불 피해지 모델을 구축하고 성능 향상 및 비교 분석을 하였다.
이런 선행 연구들은 다양한 산업분야에서 딥러닝 기반 OCR 기술이 데이터화 및 자동화의 핵심 기술로 자리잡는 것을 알 수 있었다. 대표적인 흐름을 정리하면, 첫째 최근 선행연구가 도메인의 문제를 해결하기 위해 딥러닝을 “응용”하며 시스템 구축에 중점을 둔다. 둘째 “보안”이라는 특수 목적을 위해 OCR 기술을 활용하는 연구인데, 접근 제어 정책을 차등 적용하는 시스템 구현 연구로서 정보의 ‘분류’와 ‘제어’를 최종 목표로 한다. 셋째 “기술 동향 분석”연구로서 전문성이 요구되는 영역에서 OCR 기술이 어떻게 활용되고 있는지, 기술적 한계가 있는지 조망한다.
본 연구는 이런 선행 연구 대비 세 가지 차이점을 갖고 있다. 첫째, 단순한 기술 적용 사례를 넘어, 품질경영 방법론인 DMADOV를 AI 솔루션 개발 프로젝트 전반에 적용한 최초의 연구이다. 둘째, 대부분의 연구가 최종적으로 도입한 우수한 모델의 성능만을 보여준 것과 달리, 널리 사용되는 베이스라인 모델(Tesseract)에서 출발하여 한계를 분석하고 극복하기 위한 대안 모델을 선택 검증하는 과정을 제시함으로써, 실용적인 가이드라인을 제공한다. 셋째, 단순히 문서의 종류를 분류하거나, 특정 영역의 텍스트만 추출하는 선행연구와 달리, 복잡하고 다양한 양식의 표 구조를 인식하는 과제를 성공적으로 수행한다.
2.2.2 시험성적서 관련 문헌 연구기존 군수품 시험성적서를 주제로 한 대표적인 연구로는 Lee et al.(2016)이 있으며, 이 연구는 2015년 전/후로 이슈가 된 성적서의 위·변조 방지를 위한 각종 표준화된 전자문서 시스템 아키텍처를 제안하여 보안성을 확보하고자 한 정책적 연구 내용으로 단점으로는 ‘PDF’ 형태의 이미지에 머물러 확인 이후의 분석과 보증 단계에서는 활용되지 못한 한계가 있었다. 또한 Shin et al.(2016)이 국방기술품질원과 정부 품질 보증 요원 중심의 품보 활동의 구체화를 제언하였으나, 성적서는 제품 확인 감사의 대상 정도로만 고려되었고, 이후 분석 및 보증에 사용되지 못했다. 그러나, 2020년 이후 논문에서는 업체 중심의 시험성적서 및 디지털화가 강조되며 활용도를 제고하는 측면의 연구로 변화되었다. Kim et al.(2021)은 다양한 산업의 딥러닝 네트워크 모델을 통해 사람이 직접 확인하지 않고도 시험성적서의 합격과 불합격을 자동으로 판정하는 연구가 이루어졌다. 또한 Park & Kang(2023)은 성적서에 OCR을 이용하여 변환한 결과를 문자별 인식률 차원에서 분류하고, 군수품 시험성적서에 응용할 수 있음을 보였다. 그러나, 구체적인 인식률이나 효과 등의 정량적 자료가 부족하고, 과정의 언급이 없어, 자사 및 관심 있는 업체에서 적용하기가 어려운 단점이 있었다. 따라서, 이러한 단점을 극복하고자 본 연구는 개발 방법론에 따라 단계적으로 일반적인 품질 인력이 오픈소스로 개발하는 과정을 체계화하고, 구체적인 결과들을 지표로 확인하는 연구를 기획하였다. 특히, Kim et al.(2021)은 ‘합/부’ 판정하는 접근법은 특정 목적에만 유용할 수 있으나, 본 연구는 시험항목, 규격, 측정값, 공차 등 대부분의 정량적 데이터를 텍스트로 추출하여 구조화된 데이터 베이스로 구축함으로써, 향후 통계적 공정 관리, 품질 동향 분석, 위험 요소 식별 등 무한한 확장 가능성의 문을 열 수 있다는 점에서 근본적인 해결책의 연구이다.
3. 연구 방법3.1 연구 기획3.1.1 연구 목표4차 산업 혁명으로 AI와 빅데이터 시대가 도래하면서 국방 품질 분야에서도 큰 변화가 일어나고 있다. 품질 데이터의 수집과 빅데이터화를 통한 품질 보증 활동의 효율화 필요성이 중요해지고 있다. 현재 방산 체계 업체 품질 부서에서는 출력 및 스캔한 PDF 형식의 협력사 시험성적서를 관리하고 있다. 하지만 이 형식의 특성상 이미지 형태로 관리되기 때문에 품질 데이터 분석 과정에 많은 노력과 시간이 소요된다. 또한 QIS에 성적서 데이터를 추가로 직접 입력해야 하는 번거로움이 존재한다.
현재 한화시스템은 “성적서 전산화 프로그램”을 추진 중이며, 이는 미래 작성될 성적서 자료수집의 주요 대상이지만, 누적된 과거 품질 데이터는 전산화 대상에 포함되지 않는다. 본 연구는 이미지 형태로 축적된 시험 성적서의 데이터를 추출하고 데이터베이스화하는 프로그램을 제작하여 품질 전산 시스템 내 다수의 KPI(Key Performance Indicator)인 불량률들을 더욱 수월하게 관리할 수 있도록 하는 것을 목표로 한다.
3.1.2 연구 대상본 연구는 협력업체가 납품한 체계 구성품을 대상으로 시험을 수행한 후 컴퓨터로 작성된 시험성적서를 데이터로 전환하는 프로그램을 만드는 것을 목적으로 한다. 해당 시험성적서는 대상 품목의 치수, 기능 등의 요구사항을 확인하기 위해 수행하는 시험의 결과물이다. 품질관리부서는 시험성적서를 확인하여 요구사항의 만족 여부를 확인하고 합격/불합격을 결정하며, 이에 대한 분석이 필요한 경우, 인쇄된 시험성적서의 내용을 다시 데이터화해야 한다. 일반적으로 Figure 2와 같이 성적서가 작성되며, 구성요소는 대표적으로 항목, 규격치, 측정치로 구성되어 있다.
본 연구의 대상은 AESA(능동형 위상 배열) 레이더의 구성품 모듈로서, Figure 3의 AESA 레이더는 KF-21에 들어가는 전투기의 눈에 해당하는 한화시스템 레이더 제품군의 대표 핵심 제품이다. 내부의 송수신 모듈이 1000여 개로 구성되어 독립적으로 움직이며 목표물을 감지하는 특징으로, 블록 및 하위 구조형태를 갖고 단위수량이 많다. 향후 항공기용에서 파급되어 UAE 수출, 해군 및 육군용으로 기술이 횡전개될 수 있고, 지속적으로 관리 범위와 수치가 늘어나는 점이 고려되어, 품질관리 측정 산출물의 전산화 관련 대표성을 판단하여, 향후 파급을 위한 본 개선 프로젝트의 대상으로 선정하였다. 실제 하위 RF모듈을 제작하는 협력업체 B사의 회로카드 조립체 검사/시험성적서를 선정하여 이에 최적화된 프로그램을 제작하기로 하였다.
성적서의 측정값은 Figure 4와 같이 CH1~9까지 MGC(Manual Gain Control: 수동 이득 제어) Attenuation(감쇠값)의 0dB, -0.5dB, -1dB, -2dB, -4dB, -8dB, -16dB, -31.5dB에 따른 Frequency를 FL[dB], FC[dB], FH[dB] 주파수별로 순차적으로 변경하며 신호 분석기의 측정값을 정량화된 물리적 결과값으로 추출한 수치이다. 이러한 데이터를 바탕으로 항목별 문자와 숫자로 구분하여 원천 PDF 파일의 값과 프로그램 산출물이 일치하는지 여부를 인식률로 환산하여 확인하는 것을 대상 과정으로 설정하였다.
3.1.3 문자 인식 모델문자 인식(Text Recognition) 모델은 검출된 문자가 어떤 글자인지를 판별하고 디지털 텍스트 포맷으로 변환하는 인공지능 모델로서, 개별 글자(Character)를 인식하는 방법과 단어(Word) 단위로 인식하는 방법이 있다. 최근에는 단어 위주로 문자를 인식하는 모델들이 개발되고 있으며, 딥러닝의 일종인 CNN(Convolutional Neural Networks)를 기반으로 문자 이미지의 특성을 추출하고, LSTM(Long Short-Term Memory) 또는 Gated Recurrent Unit이 있는 Recurrent 모델을 사용하여 문자인식에 활용된다(Ritika, 2008). 본 연구에서는 Figure 1에서 비교한 것처럼 딥러닝 OCR 라이브러리로 접근성이 좋은 Python을 이용해 코딩이 가능한 “Tesseract”를 활용하여 성적서를 변환하였다. 해당 라이브러리(Library)는 반복적, 순차적인 데이터 학습에 특화된 RNN(Recurrent Neural Network)의 단점인 데이터가 길어질수록 앞서 받아들인 데이터 내용이 전달되지 못하는 장기 의존성(Long-term dependency) 문제를 개선한 LSTM 구조를 이용한 모델이며, 시간 단위로 입력 노드를 통해 들어오는 데이터를 입력, 저장, 출력할 수 있도록 제어할 수 있다. LSTM은 Cell State 개념을 도입하여 과거의 데이터를 유지하면서도 불필요한 데이터는 Forget Gate를 통해 삭제하여 Gradient Update에 최적의 상태를 유지한다(Han, 2019). 이러한 구조적 특징으로 기존 RNN 대비 정확도를 크게 향상할 수 있으며, Long Time Lag Task의 경우 기존 RNN 모델들이 해결하지 못했던 문제를 해결할 수 있다(Sepp, 1997).
Tesseract는 100여 개의 언어를 지원하며, 각 언어에 대한 트레이닝 데이터를 통해 인식 능력을 강화할 수 있다. 사용자는 특정 언어를 위한 트레이닝 데이터 파일을 내려받아 사용할 수 있으며, 다양한 이미지 형식을 지원한다. 특히 JPEG, PNG, GIF, BMP 등 다양한 이미지 파일 형식을 지원하며, Linux, Windows, MacOS 등 다양한 운영체제에서 사용할 수 있는 특징이 있다.
Tesseract의 장단점을 요약하면, 장점으로는 첫째, 무료로 누구나 부담 없이 사용할 수 있는 경제적인 OCR 도구라는 점이다. 둘째, 다양한 언어를 지원하여 한국어를 포함한 다국어 인식이 가능하다. 셋째, 유연한 커스터마이징으로 설정 파일(Config)를 통해 인식률을 최적화할 수 있다. 단점으로는 첫째, 한국어 인식률에 한계가 있어 타 OCR에 비해 한국어 인식률이 다소 떨어질 수 있다. 둘째, 설치 및 설정이 다소 번거로울 수 있다는 점이다. 종합하자면, Tesseract는 타 OCR처럼 상대적으로 고성능은 아니지만, 완전히 무료라는 강력한 장점이 있다. 따라서, Tesseract 모델의 선택은 본 연구와 같이 자체적인 개선 로드맵상의 도입기를 고려하는 시점의 전략적 결정이다.
3.2 연구 방법론본 연구는 품질 분야의 개선 프로젝트로서 DB화 프로그램을 자체적으로 설계 및 분석, 개선을 위한 체계적인 TF로 시작되었다. 따라서 당사의 품질 개선 방법론인 린6시그마를 채택하여 진행하는 것을 기본 수행 방향으로 기획하였다. 린6시그마 방법론에는 대표적으로 DMAIC가 있으며, 이후 6시그마가 발전하여 범위가 확산 발전되고 사무간접 및 연구개발 부문에도 경영혁신이 활성화되기 시작하면서 새로운 제품/프로세스 개발을 위한 방법론의 필요성이 대두되었고, 이에 따라 DFSS(Design For Six Sigma)가 탄생하였다(Jeon, 2020). 미국 GE에서 개발된 DMADV(Define, Measure, Analyze, Design, Verify)와 IDOV(Identify, Design, Optimize, Validate)는 프로젝트 특성에 따라 추진단계를 서로 적절히 혼용한다(Lee, 2004). 본 연구에서는 새로운 프로그램을 개발하는 특성을 고려하여, DMADV 방법론에 리스크 관리 측면에서 IDOV의 최적화(Optimize) 단계를 결합한 DMADOV 방법론(Define, Measure, Analyze, Design, Optimize, Verify)을 적용했다(Table 1).
4. 연구4.1 개발 과제 정의(Define phase)4.1.1 프로젝트 문제 및 목표 정의현재까지 협력사 시험성적서를 출력 및 스캔한 PDF 형식으로 관리하고 있었다. 이로 인해 PDF 형식의 특성상 이미지 형태로 관리되고 있어 품질 데이터 분석에 큰 노력과 시간이 필요하였다. 또한 사내 품질 시스템에서 성적서 적합/부적합 데이터를 직접 입력해야 하는 번거로움도 있었다. 프로젝트의 개선 전/후의 시스템 흐름을 표현한 Figure 5와 같이, A/S 불량 발생에 대한 원인 분석 시 이미지 형태의 성적서를 업로드하고 성적서를 열람한 후 필요한 정보를 내려받아 추출한 데이터를 분석하여 QIS 시스템에 입력 및 적용하는 과정이 불편하였으며, 여러 데이터가 개별 시스템으로 존재하였으나 연계가 이루어지지 않아 심층 분석 또한 어려웠다. 이에 따라 품질 활동의 COPQ(Cost Of Poor Quality) 이슈가 될 뿐만 아니라, 문제 발생 시 엔지니어의 경험에 의존한 원인분석이 이루어지고, 수행 체계가 미흡한 상황이었다. 품질 데이터를 직접 입력하던 기존 시스템에서 성적서 DB화 프로그램을 통해 품질 데이터 입력 및 분석의 자동화 프로세스를 구축하고 데이터 기반의 원인 분석을 통하여 데이터 활용성 강화 및 품질경영 고도화 과정의 기반을 마련하는 것을 프로젝트의 목표로 정의하였다.
4.1.2 프로젝트 CTQ 정의Define 단계에서는 사내 고객의 목소리(VOC, Voice of Customer)와 경영진의 목소리(VOB, Voice of Business)를 분석하여 프로젝트를 정의하고, 핵심 품질 요소(CTQ, Critical to Quality)를 도출하였다. “군수품 시험 성적서 DB화”에 관련한 VOC, VOB는 “프로그램 부재”, “개선의 기준과 정보 부족”, “데이터 분석을 위한 불필요 업무 발생”에 대한 불만이 중요 인자로 파악되었다. Figure 6과 같이, SWOT 분석의 결과로 “데이터의 활용에 기여할 수 있는 프로그램의 도입”이 SO 전략으로 파악되었고, “군수품 시험성적서 DB화 프로그램”이라는 전략방향(본 과제)를 선정하게 되었다. Figure 7에서 “DB의 품질”, “불필요 업무의 최소화”를 CTQ로 결정하였다.
도출된 프로젝트의 범위를 정의하고자 상위 프로세스맵(SIPOC) 분석을 실시한 결과를 Figure 8에 표시하였다. 협력업체에서 자원을 투입하여 개발(제작)후 제품을 고객/당사에게 전달하는 과정 중 본 프로젝트는 협력업체가 개발(제작) 후 작성한 검사 성적서를 당사에 납품한 것을 DB화하는 단계에 해당한다. Figure 9와 같이, MGP(Multi Generation Plan)를 통해 본 과제의 장기적인 개발 로드맵 상에서 해당하는 범위를 나타낸 것으로, 이번 프로젝트는 당사 자체적으로 DB화하는 프로그램을 개발하는 1단계로서, 이후에는 S-QIS에서 협력사와 공동으로 활용하는 단계로 발전시키고, 국방기술품질원 및 고객들의 정보 시스템과의 연계를 고려한 단계적 로드맵을 수립하였다.
4.2 개발 목표 설정(Measure Phase)4.2.1 프로젝트 Y’s 선정Measure 단계에서는 Define 단계에서 도출한 프로젝트 CTQ를 대변할 수 있는 Y를 선정하고 이에 대한 목표를 설정하였다. 여기서 Y는 측정 가능한 지표로 정의하되 프로젝트의 성공 여부를 대변할 수 있는 구체적인 지표이다(Yoon, 2004). 본 연구에서는 Y’s를 Table 2와 같이 인식 정확도(Y1), 프로그램 만족도(Y2), 낭비절감액(Y3)의 총 3개 지표로 정의하였다. 현수준은 프로그램이 개발되기 전의 상태로서 NA 처리를 하였다.
4.2.2 목표 수준 설정Y’s의 목표 수준은 프로그램을 완성하였을때 CTQ관점에서 프로젝트의 성공여부를 가늠하는 수준을 설문조사하여 정하는 과정을 거쳤다. 인식 정확도(Y1)의 경우 Table 3과 같이 관련 연구 6편에서의 평균 91.92%를 참고로 목표를 92%로 선정하였으며, 프로그램 만족도(Y2)와 낭비절감액(Y3)은 본 프로젝트의 팀 회의에서 3 σ-level(시그마 수준), 1억원 이상의 목표가 각각 수립되었다(Park, 2023).
4.3 구조 설계(Analyze Phase)4.3.1 프로그램 구조 요소 발굴설계할 프로그램의 전체 구조 설계하기 위해, Define단계에서 수행한 VOC, CTQ 분석에서 추출한 고객별 요구특성 12가지와 본 프로그램이 활용하는 오픈소스 테서렉트의 설계요소 24가지를 계통도로 구성하였다.
이 두가지 관점의 대상들간 관련성을 분석하고, 설계요소의 우선순위를 도출하고자, TF 팀원들의 Multi-Voting을 통하여 QFD를 최종 실시하고 Figure 10과 같이 HOQ(House of Quality)를 얻게 되었다.
이를 통해 얻은 설계요소의 중요 순서는 첫째, 전처리 과정에서 테이블에 대한 인식, 둘째, 엔진 처리과정에서 LSTM-엔진의 옵션 선별, 셋째, 후처리 과정에서 함수의 사용 그리고, 넷째, 기본 인식 단위에서 단어별 처리가 선정되었다. 시험 성적서의 특징에 따른 결과로 해석되며, 결국 시험성적서는 OCR의 기본 구조인 위치 식별, 내용전환 2가지 중 위치 식별은 테이블에 대한 위치 파악이, 내용 전환은 엔진과 후처리 등에서 설계의 주된 영향성이 있다고 판단하였다.
이를 바탕으로 Agile 설계 방법론 개념을 차용하여, 즉 프로그램 기능의 처리 순서에 따라 설계를 단계별로 진행하며 각 산출물의 완성도를 확인하고 다양한 문제를 조기에 발견하여 TF에서 자체 해결 후 완성해 가는 단계적 설계를 수행하기로 결정하였다.
4.4 상세 설계(Design Phase)4.4.1 전처리 설계서론에서 수행한 OCR 관련 문헌 연구에서는 인식률과 정확도를 주요 지표로 활용하여 원본과의 일치 성능을 평가하였다. 특히 가장 중요한 성능 향상의 주된 방법은 전처리였다. 본 연구에서도 초기 Tesseract를 진행하여 본 결과, 스캔된 PDF 성적서에서 협력사별로 표 형태와 수치가 다르게 구성되어 있어 표 인식률이 떨어지는 문제가 있었다. 이를 해결하기 위해 상세설계 단계에서 우선 전처리 설계를 시작하게 되었다.
전처리 과정은 OCR의 정확도를 높이는 필수 단계로, 이미지의 품질 개선, 문서 구조 정렬, 표 형식 조정 등의 방법이 포함된다. 이와 별도로 우리의 연구 배경인 군수 시험 성적서 중심에 맞춰 최대한 양식 구조의 변화없는 개선의 전략으로, 2가지 중점 전처리 주제를 선정하였다. 첫째, 이미지 파일 변환, 둘째, 이미지 크롭(Image Crop)이었다.
첫째, 이미지 파일 변환은 Table 4와 같이, 원본 파일에서 변형할 이미지 파일의 종류를 선택하는 과정에서 해상도 측면에서 가장 우수한 PNG 형식을 채택하였다(Song, 2024). PDF에서 데이터를 직접 추출하는 파싱(Parsing)방법도 있으나, 이는 최초 PDF 파일로 제작된 형태는 성능이 우수하나, 당사와 같이 스캔에 의해 제작된 PDF에서는 성능이 낮은 단점도 있어 본 연구에서는 제외하였다.
둘째, 이미지 크롭이다. 이것은 사진이나 원본 이미지 파일에서 특정 부분을 선정하여 그 지정된 이미지만을 잘라내는 기능을 말한다. 선정 이유는 원하는 영역을 지정하기가 간단하며, 본 연구의 대상인 군수품 성적서의 경우 복잡한 데이터가 들어 있는 것이 통계량을 표시하는 숫자와 높은 빈도로 쓰이는 정형화된 단어들이 대부분이기 때문이다. 예를 들어 대상 문서의 첫번째 열에는 항번, 항목, 규격치, 측정치, 판정결과로 이뤄져 있다. 이외의 열에는 주파수, 전압, 전류, 저항, 채널 등, 전자/전기적 측정치 항목들이 많이 쓰이고 이러한 결과 들은 대부분 숫자로 나타난다. 또한 성적서 내에는 다양한 표 양식들이 존재하고 이를 원하는 영역 설정 후 활용하는 측면에서 장점이 있어 선정하였다.
현장에서 시험을 수행한 후 성적서를 발행한 상태에서, Figure 2와 같이, 성적서는 한 면에 2개의 표를 가지고 있다. 두 가지 표 형태가 다른 역할을 하며, 항목과 규격치가 존재하는 표와 MGC 측정값이 들어가 있는 표로 구분된다. 이를 구별 없이 일시에 OCR을 진행한 결과, Figure 13의 왼쪽과 같이 원하는 데이터가 아닌, 특히 셀이 정리되지 못하고 복잡하게 섞여 있는 결과가 나오게 되었다. 이 결과의 근본 원인을 파악한 결과, OCR 수행 시 두 가지 표를 구별하지 못하고 동시에 인식하려고 시도하여 인식률이 감소하는 것으로 파악되었다. 특히 LSTM 모델은 표가 여러 개 있을 경우, 표 전체를 하나의 연속된 텍스트로 인식하려 시도하고 이로 인해 데이터가 뒤섞이는 오류가 발생할 가능성이 크다고 판단되었다.
개선 전/후 내용은 다음과 같다. 개선 전 절차는 먼저, PDF 파일을 이미지로 변환하기 위해 fitz.open 함수를 활용하여 PDF파일을 연다. 그리고, Page.get_pixmap 메서드로 PDF를 PNG, JPEG 등 다양한 이미지 형식으로 저장하고, 마지막으로 OCR을 수행하는 과정으로(Jeong, 2023), Figure 11의 ①영역과 같이 3단계 프로세스이다.
개선 후 절차는 이미지 크롭의 절차 추가 및 관련 과정이 수정되었다. 먼저 OpenCV 중 cv2.imread 명령어를 이용하여 이미지를 읽어 온다(Christian, 2020). 원하는 표 영역의 모서리 좌표를 설정하여 크롭을 수행한다. cv2.imwrite 명령어를 이용하여 크롭한 이미지를 지정한 경로에 저장한다. 이는 Figure 11의 ②영역이며, 4단계의 프로세스로 변경되었다. Figure 12와 같이 코드에서 개선 전/후를 비교하면, 개선 후 원하는 영역을 크롭하여 이미지로 변환하는 코드가 추가된 것을 볼 수 있다. Figure 13에서 개선 후 실제 수행한 결과 OCR 수행 후가 개선 전 대비 다른 표의 내용이 섞이지 않음을 확인할 수 있었다. 개선 전 OCR 수행한 결과에서는 프레임 전환 시 인식률의 문제가 이미 예상되어 OCR 이후 과정이 멈추었으나, 개선 후는 프레임 전환 시에도 인식률 확인이 가능하게 되었다.
4.4.2 행/열 인식 보강 설계OCR 수행 후 출력물을 데이터 프레임으로 변환한 결과, 해당 엑셀 데이터를 얻을 수 있었으나, 데이터 품질 측면에서 행/열의 정보가 원본 대비 흐트러지는 현상이 발생하는 문제가 존재하였다. 특히, 한 행에 여러 개의 열 데이터가 한꺼번에 포함되는 문제가 Figure 13 우측과 같이 확인되었다. 이를 해결하기 위해 OCR 출력 후 정제되지 않은 데이터를 정리해야 하는 2차적 문제 개선 대상이 식별되었다. 즉, 표 형태의 데이터를 텍스트로 추출한 후, Data Framing에 의해 엑셀(DB화) 전환한 결과 행과 열의 경계가 명확하지 않아 데이터가 섞이는 경우가 발생하였다. 이는 셀 간의 간격이나 정렬 문제로 인해 데이터가 이어지거나 혹은 밀리는 현상에 기인한 것으로 확인하였다.
설계 개선 목표는 출력 데이터를 구조화(프레이밍)하여 실제 표 형식과 동일하게 DB화(엑셀)로 저장하는 것으로, 코드 상에 열을 인식하게 하는 기능을 추가하는 방향으로 수립하였다(Figure 15). 세부 개선 절차는 다음과 같다. 먼저 String 데이터를 text 데이터로 변환시킨다. 이후 text 데이터를 행(Row)단위로 분리한다. 이는 OCR 출력이 연속된 문자열로 제공되기 때문이다. 이를 줄바꿈(\n) 또는 특수문자(예 : 공백)를 기준으로 나누어 행 단위 리스트로 변환한다. 이후 앞의 결과를 열 단위로 구분하기 위해 각 행(Row)을 공백 탭(\t), 또는 사용자 정의 구분자를 기준으로 나눈다. 이렇게 정제된 데이터를 판다스(Pandas) 데이터 프레임으로 변환한다. 최종적으로 정제된 데이터 프레임을 엑셀 파일로 저장하는 과정을 거치면 Figure 14의 우측과 같은 프로세스가 된다.
이를 통해 개선된 결과는 OCR 출력 데이터를 문자열로 변환 후 데이터 프레임을 생성하는 과정에서 행과 열의 정렬 문제를 해결할 수 있게 되었다(Figure 16). 데이터 구조화를 통해 엑셀 변환이 용이해지고, 추후 성적서와 관련된 자동화 시스템과의 연계성도 높아진 결과를 얻게 되었다. 이를 통해 정확성, 효율성 등을 평가하여 개선할 수 있는 기반이 갖춰지는 단계라고 볼 수 있다.
4.4.3 자체 라이브러리 설계Tesseract의 옵션을 상세하게 설계하는 과정으로 넘어가서, 각 후보들을 평가하였다. 먼저, OCR 엔진에 여러 option을 테스트하였다. 첫째, Table 5의 “PSM”은 처리의 단위를 설정하는 옵션이다. #3(One word)가 결과가 양호하게 나오며, 나머지는 수행이 되지 않았다. 이는 연구 대상인 시험성적서의 구성이 표로 구성되어 있는 특징으로 문단, 줄, 단락 등의 구분은 리스크 요소로 진행이 안 된 것으로 추정된다. 둘째, “OEM”에서 Engine의 종류를 테스트한 결과, #0, #2은 에러 메시지 발생 및 최종 결과가 나오지 않았으며, #1, #3은 동일한 결과가 나오게 되었으며, #1(LSTM based neural network engine)의 경우가 조금 더 처리 속도가 빠른 결과를 보였다.
4.4.4 오류 분석 및 규칙 기반 후처리오픈 소스 OCR 라이브러리의 경우 낮은 문자 인식률 문제가 있었다. 이를 해결하기 위해 데이터 트레이닝 방법을 활용했다(Park, 2025). 먼저 Fine-tuning의 경우, Github 사이트에서 대용량 train-data를 다운로드하여 Tesseract-OCR/tessdata 폴더에 복사하여 OCR 모델의 학습 데이터를 늘려 인식률을 높였다. Train-data의 경우는 OCR 라이브러리 내 파일의 용량을 기준으로 정의하였다(Table 6). Testdata의 경우, 시험성적서 내 데이터를 문자(영문+한글)와 숫자로 구분하여 문자 인식률을 계산한 결과 ((1-68/480)*100 = 약 85.83%)가 도출되었다.
OCR 수행 후 출력물을 데이터 프레임으로 변환한 결과, 해당 엑셀 파일에는 Figure 17, 18과 같은 에러들이 포함된 상태로 산출물이 얻어졌다. 에러 유형에는 첫째, 불일치 형태 에러로 다른 형태로 변화되는 것이 있으며, 둘째, 가감 형태 에러로 임의로 추가되거나 삭제되는 것이다. 불일치 에러는 Figure 17과 같이 유사한 모양으로 다른 문자, 숫자가 변환되는 것으로 이것은 영어, 한글, 숫자 그리고 기호 등이 Figure 18과 같이 소수점 삭제되거나, 기호가 추가되는 현상으로 구별된다.
OCR 결과를 후처리 과정을 통해 추가 개선하였다. 다양한 엔진 및 train-data를 사용한 기존 성적서에서 추출한 데이터의 인식률이 완벽하게 인식되지 않는 문자의 사례가 확인되었다. 분석 결과, 서로 비슷한 형태를 지닌 영문, 한글, 숫자를 잘 인식하지 못하는 경향을 확인했다. Correct_ocr_errors 함수를 정의하고, replace() 메서드를 사용하여 문제의 문자열을 교체하였다(Figure 19). 위 두 가지 방법을 사용했을 경우 문제가 해결된 모습을 확인할 수 있었고, 따라서 인식률 또한 85.83%에서 100%로 최종 개선되었다.
4.5 최적화 설계(Optimize Phase)4.5.1 1차 설계 Risk 도출 및 대안 제시앞선 Tesseract 기반 프로그램에서 식별된 한계, 특히 낮은 초기 인식률(85.83%)과 하드코딩 기반 후처리 방식의 비확장성은 더욱 견고하고 확장 가능하며 자동화된 솔루션의 추가 연구가 필요함을 의미한다. 이러한 한계는 단순한 구현상의 결함이 아니라, 테이블의 2D 구조 정보를 처리하는 데 어려움을 겪는 Tesseract의 내재된 아키텍처 한계로 추정된다. Tesseract는 텍스트 라인을 순차적으로 인식하는 LSTM 모델에 기반하는데, 이는 일반적인 문단 텍스트 인식에는 효과적이지만, 시험성적서의 핵심 요소인 표의 2차원적 구조를 이해하는 데는 명백한 한계를 드러낸다. Tesseract는 표 내부의 행과 열 관계, 셀 병합과 같은 구조적 정보를 해석하는 전용 모듈이 부재하기 때문에, 표를 단순히 여러 줄의 텍스트 덩어리로 인식하여 열이 뒤섞이거나 셀 내용이 잘못 연결되는 오류를 발생시킬 확률이 크다. 이로 인해 특정 열에 일관되게 나타나야 할 단위(예: dB)나 항목명(예: CH)을 문맥 정보 없이 개별 문자로 오인식하는 문제가 발생한 것으로 원인을 추정할 수 있다. 결론적으로 Tesseract의 한계는 단순한 성능 문제가 아닌, 단일 모델로 모든 것을 처리하려는 ‘통합형 아키텍처’의 내재적 한계이다.
이를 극복하기 위해 본 연구에서는 테이블 구조 분석, 텍스트 인식 등 각 기능을 전문화된 개별 모듈이 처리하는 ‘모듈형 아키텍처’를 갖춘 PaddleOCR을 최적화(Optimize) 단계의 대안으로 채택하였다. 이는 단순히 더 나은 도구를 선택하는 것을 넘어, 문제 해결을 위한 접근 방식 자체를 전환하는 전략적 결정이다. Figure 1에서 평가한 장/단점에서처럼 Tesseract와 가장 큰 아키텍처적 차이점은 기능에 따라 고도로 전문화된 모듈을 제공한다는 점이며, 특히 두 가지 핵심 시스템으로 구분된다. 첫째, PP-OCR은 이미지로부터 텍스트를 검출하고 인식하는 핵심 OCR 시스템으로, DBNet과 같은 진보된 텍스트 검출 알고리즘과 CRNN(Convolution Recurrent Neural Network)과 같은 고성능 텍스트 인식 모델을 사용하여 우수한 성능을 보인다. 둘째, PP-Structure는 레이아웃 분석 및 표 인식과 같은 지능형 문서 분석을 위한 전용 시스템이다. 이것은 문서 내에서 표의 위치를 찾아내고, 그 구조(행, 열, 셀)를 분석하며, 셀 안의 텍스트를 정확하게 추출하여 구조화된 데이터(예: HTML, JSON)로 재구성하는 모든 과정을 처리한다. 이러한 모듈식 아키텍처는 복잡한 작업을 개별 전문 모델에 분담시켜 처리함으로써 Tesseract와 같이 단일 모델로 모든 것을 해결하려는 시도에서 발생하는 구조적 오류를 원천적으로 방지한다.
DMADOV 방법론 관점에서 PaddleOCR의 추가 개발은 우수한 대안 설계를 통해 최적화(Optimize)를 달성하는 과정으로 해석할 수 있다. Figure 20과 같이 기존 Tesseract 기반 프로세스는 PDF → PNG 변환 → 이미지 크롭 → Tesseract OCR 수행 → 하드코딩 기반 후처리 → 엑셀 변환의 흐름을 따랐다. 이 방식은 OCR 수행 후 발생한 오류를 사후에 ‘검사하고 수정(Inspect and Fix)’하는 반응적인 접근법이다. 반면, 새로운 PaddleOCR 기반 프로세스는 PDF → PP-Structure 파이프라인 → 구조화된 HTML/엑셀 출력으로 워크플로우가 단순화된다. 이 접근법은 ‘품질을 설계에 반영(Design in Quality)’하는 선제적인 품질공학의 핵심 원칙을 구현하며, PP-Structure의 내재된 테이블 구조 인식 기능으로 인해 구조적 오류 자체가 발생할 가능성을 원천적으로 차단한다. 이는 오류 관리 패러다임을 반응적 수정에서 선제적 예방으로 근본적인 변화이다. '검사하고 수정'에서 '품질을 설계에 반영'으로의 전환은 시스템 개발의 근본적인 철학적 변화이며, 특히 군수산업과 같은 고위험 환경에서 매우 중요하다.
4.5.2 최적화 설계 및 결과 비교앞선 Design단계에서 Tesseract기반의 평가 대상과 같은 RF 모듈 시험성적서 20개 샘플을 대상으로 PaddleOCR의 초기 성능을 평가하였다. PP-Structure 파이프라인을 통해 전산화를 수행한 결과, 초기 모델은 문자 인식 측면에서는 몇 가지 체계적인 오인식 사례가 발견되었다. 가장 빈번하게 발생한 오류는 숫자 “0”을 영문 대문자 “O”로 오인식하는 경우(0dB → OdB)와, 특정 영문 단어 내에서 유사한 형태의 문자를 혼동하는 경우(Item → ltem: “I” → “l”)였다(Figure 21). 이는 범용 데이터로 사전 학습된 모델이 시험성적서의 특정 폰트 및 숫자와 영문이 혼용되는 특수한 문맥에 완전히 최적화되지 않았기 때문으로 판단했다.
초기 모델의 문제점을 해결하기 위해, 본 연구에서는 ‘도메인 특화 미세조정(fine-tuning)’의 최적화 전략을 적용하였다. 모델이 주어진 데이터 환경을 더 깊이 이해하도록 전이 학습(transfer learning) 기반의 미세조정을 수행하였다. 시험성적서의 문자 오인식은 특정 유형에 집중되었으므로, 핵심 오류 패턴을 포함한 고품질의 소규모 데이터셋으로 미세조정을 수행하는 것이 더 효율적이라 판단했다. 먼저, 초기 생성된 HTML 결과물과 원본 시험성적서 이미지를 비교하여 오인식이 발생한 텍스트와 해당 텍스트가 위치한 셀의 경계 상자 좌표를 식별했다. 이후, 식별된 좌표를 이용해 원본 이미지에서 해당 셀 영역만 잘라내어 개별 이미지 파일로 저장하고, 정답 텍스트를 맵핑하는 방식으로 약 60여 개의 핵심 이미지 패치로 구성된 ‘군수품 시험성적서 특화 데이터셋’을 구축하였다. 라벨 파일은 Figure 22와 같이 구성하였다. 이후, PaddleOCR의 공식 한국어 사전 학습 모델(korean_PP-OCRv3_rec_train)을 베이스라인으로 설정하고, 구축된 특화 데이터셋을 이용해 추가 학습을 진행했다. 이 과정에서 두 가지 핵심적인 고려사항이 있었다. 첫째, 제한된 데이터셋에 대한 과적합(Overfitting)을 방지하고 모델이 암기가 아닌 일반화된 교정 능력을 학습하도록 하는 것이 중요했다. 둘째, 실제 산업 환경에서의 기술 검증(POC)을 고려할 때, 신속한 반복 실험과 자원 효율성 또한 중요한 요소였다. 이러한 기술적, 실용적 요구사항을 모두 충족시키기 위해 학습률(Learning Rate)은 1×10-5로, 에포크(Epochs)는 50으로 낮게 설정하였다.
미세 조정 적용 전, 텍스트 오인식이 집중된 RF 성적서 유형의 경우, 문자 오류율(CER, Character Error Rate)이 약 0.53% 수준으로 측정되었다 (샘플 내 총 1,684자 중 9자 오인식). 이는 전반적인 정확도는 높으나, 특정 유형의 오류가 반복적으로 발생하여 시스템 신뢰도에 영향을 미치는 문제였다. 그러나 미세조정 과정을 거친 후, 동일한 테스트 샘플에서 목표했던 특정 유형의 오인식 사례가 모두 교정되어, 해당 오류 유형에 대한 100%의 정확도를 달성하는 유의미한 성능 향상을 확인하였다.
횡전개를 고려하여, RF 모듈외에 추가로 회로카드 조립체, 기계가공품 시험성적서(Figure 23)로 대상을 늘려, 총 60장의 샘플 전체에 대해 텍스트 정확도(WER, CER)를 측정한 결과, fine-tuning을 통해 100%의 정확도를 달성하였다.
최적화 과정을 거친 최종 모델의 종합적인 성능을 평가하기 위해, TEDS(Tree-Edit-Distance-based Similarity) 지표를 도입하여 표의 구조적 정확도를 측정하였다(Antonio, 2021). TEDS는 OCR 결과물의 HTML 트리 구조가 원본의 트리 구조와 얼마나 유사한지를, 셀의 행과 열이 잘못 합쳐지거나 나뉘는 등의 구조적 오류까지 정량적으로 측정하여, 내용뿐만 아니라 구조적 무결성까지 종합적으로 평가하는 표 인식 성능의 표준 지표이다. 세부적으로 운영 정의를 살펴보면, 아래 수식과 같이 각 요소를 측정하여 0과 1 사이의 최종 유사도 점수를 계산하며, 1에 가까울수록 두 트리가 완벽하게 일치함을 의미한다.
• TreeEditDistance(T1, T2) : 두 트리 간 변환에 필요한 최소한의 편집 작업수
• ∣T1∣: 정답 트리의 전체 노드(태그) 개수, ∣T2 ∣: 예측 트리의 전체 노드(태그) 개수
• max(∣T1∣,∣T2 ∣) : 두 트리 중 더 큰 트리의 노드 개수를 분모로 사용하여 정규화
샘플 전체에 대한 TEDS를 1차 측정한 결과, 전체 평균 점수는 98.81%([(53개×1.0)+(7개×0.8981)]/60개)로 산출되었다. 이 점수는 구조적 오류가 발견되지 않은 53개 샘플의 평균 TEDS 점수(100%)와, 앞서 언급된 기계가공품 성적서 중 행 누락 등 구조적 오류가 발생한 7개 샘플의 평균 TEDS 점수(약 89.81%((1-57.28/562)*100))를 가중 평균하여 계산한 것이다.
추가적으로, 이 일부 구조 인식 실패사례를 개선하기 위해, PaddleOCR의 PP-Structure V3 셀 인식 모델에 대한 미세조정(fine-tuning)을 수행하였다. 초기 PP-Structure 파이프라인은 셀의 불필요한 병합과 행 누락 등 복잡한 표 구조의 일부를 정확히 인식하지 못하는 오류를 보였다. 이러한 문제점을 해결하기 위해, 본 연구에서는 PP-Structure 모델의 파인튜닝을 위한 특화된 데이터셋을 구축하였다. 이 데이터셋은 원본 성적서 이미지와 함께 그에 대응하는 정답(ground truth) 정보를 포함하고 있다.
정답 정보는 Figure 24와 같이 이미지 파일의 경로, HTML 구조 정보, 각 셀의 텍스트와 위치 정보, 그리고 테이블 전체의 정답 HTML 코드로 구성된다. 특정 성적서 이미지 파일(img3/Report_01_page_001.png)에 대한 라벨은 다음과 같은 구조를 가진다. HTML 필드에는 <structure>와 <cells> 두 가지 주요 정보가 포함되는데, <structure> 필드에는 테이블의 구조를 나타내는 HTML 태그 토큰(예: <tr>, <td>, rowspan="2")들이 순차적으로 나열되어 있고, <cells> 필드는 테이블 내의 각 셀에 대한 정보를 담고 있다. 각 셀은 텍스트 토큰(예: "품", "번")과 해당 셀의 위치를 정의하는 경계 상자(bounding box) 좌표(bbox)를 가지고 있다. 마지막으로 gt 필드는 해당 테이블의 완전한 HTML 코드를 제공하여 모델이 학습해야 할 최종 정답 형태를 명확히 제시한다.
2차 측정시 이러한 미세조정을 통해 기존에 발생했던 구조적 오류는 Figure 25와 같이 모두 해소되었고, TEDS 점수는 100%로 개선되었다. Fine-tuning 수준의 개선으로도 전체적으로 매우 높은 수준의 구조적 무결성과 텍스트 정확도를 동시에 달성했음을 정량적으로 입증하는 결과를 얻었다. 다만, 이 연구는 현재 대표적으로 관리되는 세 가지 종류의 시험성적서(RF 모듈, 회로카드 조립체, 기계가공품)에 파인튜닝을 수행했기 때문에, 확률에 기반한 딥러닝 모델의 특성상 추후 다른 양식의 성적서를 인식할 경우 새로운 유형의 오류가 발생할 가능성이 있다. 이는 향후 연구에서 다양한 양식의 성적서 데이터를 추가하여 모델의 일반화 성능을 강화함으로써 해결할 수 있을 것이다.
Tesseract의 전후와 PaddleOCR의 개선 결과를 정량적 성능 비교를 Table 7에서와 같이 3가지 지표를 활용하여 종합하였다. 기존에 사용하던 “원본 일치율” 관점의 WER(Word Error Rate), CER(Character Error Rate)에 추가하여 표 인식 분야의 표준 평가 지표로 TEDS가 각 단계별로 OCR의 성능을 볼수 있다. 특히, Table 8에서는 두 OCR간의 차이가 난 원인 분석은 Tesseract의 한계와 PaddleOCR의 우수성이 단순한 성능 차이가 아니라, 두 도구의 근본적인 아키텍처 설계 개념의 차이에서 비롯된 결과임을 명확히 보여준다. 각 OCR별로 에러 유형이 어떻게 다른지, 미인식, 구조 완결성, 심볼/소수점, 안정성 등의 유형별로 차이와 원인분석을 하였다. Tesseract의 LSTM은 문맥 정보가 부족한 반면, PaddleOCR의 다중 전문 모델은 방대하고 다양한 데이터셋으로 학습되었으며, SLANet은 테이블 구조 인식을 위해 특별히 설계되었다. 이는 특정 오류에만 대응하는 경직된 규칙 기반 수정 방식과 일반화 성능을 갖춘 강건한 딥러닝 모델 간의 근본적인 차이를 보여준다. 연구 대상인 고위험 문서인 시험성적서의 경우, 완전한 구조 붕괴보다 미세한 오류가 훨씬 더 선호된다는 점을 시사한다.
4.6 검증(Verify Phase)4.6.1 횡전개Optimize 단계를 통해 개발된 프로그램을 최종적으로 대표적인 3모듈 60종에 확대 적용(횡전개)하여 최종 성능을 검증하였다. 그 결과, fine-tuning을 통한 최적화 프로그램이 텍스트 인식률(CER/WER), 구조적 정확도(TEDS) 모두 100%에 도달했음을 확인했다. 이는 본 프로그램이 다양한 양식의 성적서에 대해서도 강건하게 동작하며 실무 적용이 가능함을 입증한다.
4.6.2 목표 평가프로그램 개발 횡전개 과정을 종료한 후, 실제 수행할 내부 팀원들을 대상으로 설문조사를 실시하였다. 이 조사는 본 프로그램의 특징, 사용법, 사용 시기를 제시하고, 일정 기간 이후 만족도(Y2)를 평가하는 것을 목표로 하였다. 설문 응답자 수는 37명이었으며, 분석 결과는 Figure 26과 같이 관리도를 통해 안정적인 데이터를 보였고, Figure 27에서 목표치 대비 개선 여부를 one sample T-test를 실시한 결과 p-value=0.000으로 통계적 유의성을 확인하였고, Figure 28에서 공정능력분석을 실시한 결과 3.18 시그마 수준으로 기대 이상의 양호한 결과를 얻게 되었다. 이를 바탕으로 Measure 단계에서 수립한 목표를 평가한 결과는 Table 9처럼, 3개의 프로젝트-Y 모두 목표 수준 대비 동등 이상의 결과로 공정능력지수 및 금액으로 평가되었으며, 종합적으로 목표 달성이 확인되었다.
4.6.3 예상 효과 파악본 연구는 이미지 형태의 기존 성적서에서 데이터를 추출하고 전산화하는 프로그램을 완성하는 것을 목표로 수행하였고, 딥러닝 OCR 라이브러리를 활용하여 기존 성적서의 제품, 시험 항목, 측정치, 판정 결과 등의 데이터를 높은 인식률로 추출하는 데 성공하였다. 이 개선의 효과를 Table 10처럼, 연간 예상 성과 금액으로 도출해 보았다.
첫째, 시간 측면에서 기존 인력의 수행 대비 시간의 개선 정도를 평가하였다. 예상 재무성과 산출식은 성적서 검토 시간 단축에 의한 절감 예상치로서, ’25 (QA시험+외주수락시험)건수 * (개선 전 수작업 데이터 전환시간 – 본 프로그램 사용 전환시간) * 표준 임률을 계산하면 3.51억 원의 예상 개선 금액을 얻을 수 있다. 둘째, 적용 범위(확장성)에 대한 개선 대상의 Coverage 비율을 계산하였다. 회로 카드 조립체 시험 성적서에 대한 해당 프로그램의 적용 가능한 범위와 전체 대상 범위의 비율을 계산하면 83.25%를 얻어서, 해당 비율만큼의 영역에 본 개발 프로그램을 확대 적용 가능하다는 결과를 얻었다.
4.7 연구 결과4.7.1 연구 결과 해석본 연구 결과는 데이터 전환 프로그램 개발이 DMADOV 절차에 맞게 성공적으로 적용할 수 있음을 입증하였다. 1차 Tesseract 기반 프로그램은 엄격한 규칙 기반의 후처리를 통해서만 최종 일치율 100%를 기록하였다. 그러나, 후처리 방법 적용 전에는 85.83%의 일치율을 달성하여, 후처리 작업의 추가가 필요함을 나타냈다. 이는 자동화 관점에서 향상에 한계가 있음을 시사한다. 이를 해결하기 위해 후속 최적화 연구에서는 PaddleOCR을 적용하였다. 그 결과, fine-tuning만으로 문자 인식률(CER, WER) 100%를 달성했으며, 1차 대상인 RF 모듈외에 추가로 회로카드 조립체, 기계가공품 시험성적서 대상을 확장하여, 구조 인식률(TEDS)까지 100%에 근접하는 높은 성능을 보여 더욱 최적화된 프로그램의 개발 가능성을 입증했다.
4.7.2 연구의 의의 및 기여점본 연구 결과는 학문적, 실무적으로 중요한 기여점을 가진다. 먼저, 학문적으로는 첫째, 방산분야 최초의 시험 성적서에 대하여 딥러닝 OCR을 사용한 과정을 기록한 연구이다. 본 연구의 배경 논문(Park, 2023)에서는 응용 분야는 동일하고 가능성을 기술했으나, 정량적 자료와 과정이 없는 데 반해, 본 연구는 체계적인 방법론에 기반한 비교 연구란 점이 차별점을 둔다. 단순히 OCR 적용 가능성을 보인 것을 넘어, 1) 베이스라인 모델(Tesseract)을 구현하고, 2) 그 구조적 한계(규칙 기반 후처리의 비확장성)를 명확히 분석한 뒤, 3) 이를 극복하기 위한 고도화된 대안(PaddleOCR)을 체계적으로 검증했다는 점에서 기술 최적화 연구의 완결된 로드맵을 제시한 최초의 연구라는 점에서 학문적 의의가 크다. 둘째, 6시그마 방법론인 DMADOV와 OCR을 통한 프로그램 개발을 다룬 최초의 연구이다. 국방 품질 분야에서 고객의 요구사항 분석에서 시작하여, 최종 만족도 평가를 하여 품질 분야에 맞는 연구 절차를 수행함으로써, 향후 품질 개선의 파급과 연속성을 고려한 내용이었다.
실무적으로는 첫째, 프로그램 개발의 연구에서 정량적인 기법과 결과를 통한 객관적인 연구였다. 기존 OCR 소스를 채택이 가능하다는 수준의 연구가 아닌, 당사가 사용할 점을 고려하여, 최대한 활용도를 감안한 연구를 수행하였다. 품질 개선 방법론(DMADOV, QFD) 등을 활용하여 각 설계 단계별 요구사항과 설계기능, 내용과의 연계를 논리적으로 보였고, 산출물의 결과를 직접 확인하면서 개발한 맞춤형 개발이었다. 과제 초기 설정한 품질 보증 능력을 향상하는데 유효함 및 개선의 안정성을 프로젝트-Y 별로 개선 유무를 확인하였고, 각 오픈소스의 처리 옵션별 시간 차이를 확인했으며, 개선 결과에 대한 관리도, T-test, 시그마 수준 분석 등으로 정량적 분석, 입증을 수행하였다. 둘째, 후속 개발 및 차용을 위한 자료 및 데이터 확보를 동반한 연구이다. 현업의 품질 엔지니어들이 사용 및 개선을 지원하기 위해, 각 오픈소스의 사용별 결과의 차이(예: 결과 시간), 에러 유형의 분류, 각 단계 개발의 변화에서 코딩과 프로세스맵을 통한 개선 단계의 설명을 추가하였다. 셋째, 딥러닝 OCR 오픈소스를 성적서에 활용하여 DB화를 구현함으로써, AI-RPA, AI-Chatbot과 같은 AI 활용의 준비 단계에 데이터 전환의 과정 및 배경에 대한 시사점을 다룬 연구이다. 품질관리 및 품질보증 능력을 체계적으로 평가하고 개선할 수 있는 기반의 DB화 및 방법을 제시하였다는 점에서 그 의의가 있다.
4.7.3 한계점 및 향후 연구 방향본 연구의 한계점은 다음과 같다. 첫째, 시간과 지원의 한계로 연구 인력을 개발팀 내 특정 부서 인원과 성적서의 과제로 제한하였다. 군수분야만이 아닌 타 산업의 정형/비정형 문서에 적용하여, 본 연구의 일반화 가능성을 검증하는 연구가 필요하다. 둘째, 본 과제에서 사용된 Tesseract, PaddleOCR 외에 적용 가능한 엔진과의 비교 실험을 추후 후속 연구로 진행할 예정이다. 딥러닝 기반의 OCR뿐만 아니라 최근 급속도로 발전하는 RPA, AI-챗봇, 비전 검사 등의 기능을 활용하여 OCR 및 유사 문서 인식 기능 간의 본 논문의 모델 결과와의 비교 개선이 차기 과제로 계획 수행되어야 한다. 셋째, 적절한 평가 지표가 계속하여 개발하고 이에 관한 연구가 지속되어야 한다. 현재 OCR 연구에서 많이 사용하는 유사성 관련 “WER,” “CER”, 구조에 대한 “TEDS” 외에도 다양한 평가 지표의 연구와 검토가 필요하겠다.
종합하자면, 급변하는 최신 기술을 생산 현장에 접목하려는 과정에서 제한점을 개선, 발전하기 위해 제품 분야, 제품 생애 주기 단계, 보안성 및 도구의 다양성 등을 팀 외부의 전문가들과 협력하여 연구 범위를 넓혀야 한다. 이를 통해 범용화되고 강건한 프로그램을 확보하며, 연구 결과의 객관성과 신뢰성을 제고할 수 있다고 보인다.
5. 결론5.1 연구 요약본 연구는 방위산업 품질 4.0 활동의 일환으로, 이미지 형태의 시험성적서를 OCR 기술로 전산화하여 품질 보증 데이터로 활용하는 기반을 마련하는 것을 목표로 하였다. 연구 초기, DMADOV 방법론에 따라 Tesseract를 활용한 데이터베이스(DB)화 프로그램을 개발했으나, 이는 85.83%의 정확도를 보였으며, 특정 오류 패턴에만 대응하는 경직된 규칙 기반의 후처리(하드코딩)를 적용하여 100%의 일치율을 달성할 수 있었다. 이러한 방식은 확장성과 강건성 측면에서 근본적인 한계를 지니고 있어, 더 발전된 자동화 솔루션의 필요성이 명확해졌다. 이러한 한계를 극복하고자 후속 최적화 연구에서는, 테이블 구조 인식에 특화된 아키텍처를 갖춘 PaddleOCR을 도입하여 비교 검증을 수행했다. 그 결과, 단순한 규칙 추가가 아닌 소규모 데이터셋을 활용한 미세조정(fine-tuning)만으로 구조적, 내용적 측면에서 100%에 가까운 정확도를 달성하며 강건하고 일반화된 해결책을 제시할 수 있었다. 본 연구를 통해 도출된 최종 모델은 실무 적용성 평가에서 3.18 시그마 수준의 높은 만족도와 연간 3.51억 원의 비용 절감 효과를 입증하였으며, 이는 최신 AI 기술을 국방 품질 분야에 효과적으로 적용할 수 있다는 유의미한 시사점을 제공한다.
5.2 제언본 연구 결과를 바탕으로 다음과 같은 실무적, 정책적 제언을 할 수 있다. 첫째, 기업은 기존의 시험성적서가 품질 검사 시 합격을 증빙하는 보조적 산출물 수준에서 벗어나 DB화된 데이터로 축적하여 활용하도록 지원해야 한다. 품질 보증 측면에서 업체의 공정 능력을 분석함으로써 불량 발생 예측 과정을 좀 더 고도화할 수 있고, 입고에서 조립 단계까지 불량 발생 확률이 높은 제품에 대하여 사전 검사 활동을 강화하여 시장 불량률을 저감하고 품질비용을 낮추고 경영 전반에 이바지할 수 있을 것으로 판단된다. 둘째, 품질 인력들은 방산업 생산 사이클 내의 단계별 성적서 전산화 및 분석 체계 구축과 관련한 지속적인 연구가 필요하다. 단순히 프로그램의 일회성 구매, 개발에 멈추지 말고, 급변하는 새로운 트렌드의 기술에 대한 비교, 검토, 최적화가 상시화되어야 한다. 셋째, 정부와 기관은 과제 추진 중심의 성적 확인에만 그치는 품질검사 활동에서 나아가, 제조 협력업체의 빅데이터 활용을 고려한 품질의 보증 수준을 체계적으로 진단하고 맞춤형 교육과 과제를 제공하여 품질 개선을 지원해야 한다. 성적서에 대한 전산화, 데이터화를 위한 성적서 양식 표준화 및 절차의 정책 변경 등도 고려해야 한다.
REFERENCESSejin, Ahn, Hyunho, Hwang, and Junhee, Yim 2022. A Case Study on the Application of AI-OCR for Data Transformation of Paper Records. Journal of the Korean Society for Information Management 39(3):165-193.
Antonio, Jimeno, Yepes, Peter, Zhong, , and Douglas, Burdick 2021. ICDAR Competition on Scientific Literature Parsing. Lecture Notes in Computer Science (LNCS) 12821: 627-642.
Choi, CH 2019. A Case Study on Application of R&D Quality Assurance to Secure High Quality for Military Supplies. Journal of Korean Society for Quality Management 47(1):151-162.
Christian Clausner Apostolos, A, and Stefan, P 2020. Efficient and effective OCR engine training. International Journal on Document Analysis and Recognition 23: 73-88.
Enshuo, Hsu, Ioannis, Malagaris, Yong-Fang, Kuo, Rizwana, Sultana, and Kirk, Roberts 2022. Deep learning-based NLP data pipeline for EHR-scanned document information extraction. JAMIA Open 5(2):1-12.
Han, Minsoo, and Song-Jin, Yu 2019. Prediction of Baltic Dry Index by Applications of Long Short-Term Memory. Journal of Korean Society for Quality Management 47(3):497-508.
Jamshed, Memon, Maira, Sami, and Rizwan, Ahmed Khan 2020. Handwritten Optical Character Recognition(OCR): A Comprehensive Systematic Literature Review(SLR). IEEE Access 8: 142642-142668.
Jeon, YG, Huh, Hyoung Jo, and et al 2020. A Study on the Quality Improvement of Mechanical Drawing Notes Using Lean 6 Sigma Analysis. Journal of Korean Society for Quality Management 48(3):381-393.
Jeong, Seonki 2023. A Study on Extracting Sentences from the Body Text of PDF Documents. MA.Thesis. Department of Library & Information Science. Graduate School. Kyonggi University; 1-66.
Kim, Jung Min, Yeom, Seul Ki, and Koh, Jinhwan 2021. A Study on the Model for Determining Test Report through Image Deep Learning of CNN Techniques. Journal of the Korea Academia-Industrial cooperation Society 22(9):761-768.
Kim, Yeong-Sik, Baek, Jong-Kyung, and Park, Jae-Pyo 2024. Design and Implementation Real-Time Drawing Document Criticality Classification and Security System using Deep Learning Framework. Journal of the Korea Academia-Industrial cooperation Society 25(9):528-534.
Lee, Donghun, Jeon, Sooyune, and Bae, Manjae 2016. A Study on Test Report Information Service Architecture for Preventing Forgery and Alteration in Defense Industry. Journal of the Korea Academia-Industrial cooperation Society 17(4):43-51.
Lee, Kyoungsu, and et al 2024. A Study on Vehicle Number-Based Combined Vehicle Classification Using YOLO and EasyOCR. Journal of the Korea Academia-Industrial cooperation Society 26(5):982-986.
Park, ChangHyun 2025. The software testing automation technique that combines YOLOv8 & OCR technology. MA.Thesis. Dept. of Electrical Engineering & Computer Science. Hanyang University; 1-45.
Park Jeong-Min Choi, SK, Kim, JY, Jung, SH, and Sim, CB 2023. Implementation of a Drug Information Retrieval System Through OCR API Performance Comparison. Journal of the KIECS 18(5):989-998.
Park, Ji-Hwan, and Kang, Do-hee 2023. Defense quality 4. management of munitions repair parts data extraction method for test report(PDF). Spring Conference Proceedings of KAIS(Korea Academia-Industrial cooperation Society). 949-951.
Pulkit Batra, N, Phalnikar, , and et al 2023. OCR-MRD: performance analysis of different optical character recognition engines for medical report digitization. International Journal of Information Technology 16: 447-455.
Ritika, Rai, and et al 2008. Automatic License Plate Recognition Using YOLOv4 and Tesseract OCR. International Journal of Innovative Research in Computer and Communication Engineering 10(3):1656.
Seo, Hojin, Byun, Jai-Hyun, and Kim, Dohyun 2021. Quality 4.: Concept, Elements, Level Evaluation and Deployment Direction. J. Korean Soc. Qual. Management 49(4):447-466.
Seo, Youngmin, and et al 2023. Detection of Wildfire Burned Areas in California Using Deep Learning and Landsat 8 Images. The Journal of the Remote Sensing 39: 1413-1425.
Sepp, Hochreiter, and Schmidhuber, Jürgen 1997. Long Short-Term Memory. Neural Computation 9(8):1735-1780.
Settha Tangkawanit, J, Pooksook, J, Ieamsaard, , and Sornkhom, P 2022. OCR Application for Cancer Care: Asia-Pacific Signal and Information. Processing Association Annual Summit and Conference. 7-10.
Shin, Byung-Cheol, and et al 2016. Suggestions on Enhancing the Effectiveness of Government Quality Assurance Activities for Military Supplies in Production Stage. J. Korean Soc. Qual. Manag 44(1):153-166.
Song, ChaeEun, and Yang, Dongmin 2024. A Study on the Development of a Selection System for Preservation Formats of Image-Type Electronic Records. The Korean Journal of Archival Studies 79: 343-387.
Silva, WAJR, and et al 2021. Predicting Diabetes Mellitus Using Machine Learning and Optical Character Recognition. 6th International Conference for Convergence in Technology. 1-6.
Wisam, AQ, and Ameen, Musa M 2019. Diagnosis of Diseases from Medical Check-up Test Reports Using OCR Technology with BoW and AdaBoost algorithms. International Engineering Conference. 205-210.
Yoon, Sungyeon, and et al 2024. Trends in Deep Learning-based Medical Optical Character Recognition. The Journal of the Convergence on Culture Technology(JCCT) 10(2):453-458.
Table 1DMADOV Methodology and Procedure Table 2Project Y’s Table Table 3Study Related Recognition Performance Table 5Config Setting Option List Table 6Train Data
Table 7OCR Engines’ Quantitative Performance Comparison Table Table 8OCR Engines’ Error Comparison and Analysis Table Table 9Project Y’s Result Table Table 10Improvement Effect |
|
||||||||||||||||||||||||||||||||||||||||||||||||||