1. 서 론
상태기반보전(condition-based maintenance, CBM)은 1940년대 말 리오그란데 철도회사에 의해 예측보전(predictive maintenance)이란 이름으로 처음 소개되었다. 당시 이 회사에서는 엔진에서 연료나 오일 혹은 냉각수의 누수 여부를 온도 및 압력계기의 수치 변화 추세를 보고 판단하였다. 미국 군부에서는 이와 같은 간접적 관측 방법의 탁월한 효능을 보고 군 장비 보전의 핵심 전략으로 CBM을 채택하였다(Prajapati et al., 2012). 이후 CBM은 자동차, 항공, 군수, 제조 등 여러 산업분야에 도입되어 비용절감과 함께 능률적인 보전활동에 기여하게 되었다. 예방보전이나 예측보전은 시스템의 안정적인 운영뿐만 아니라 원가절감 혹은 효율 향상을 위한 생산 활동에도 적용되는 개념이다. 예로서 Kim and Park(2019)은 생산설비의 유지보수 서비스에 관련된 연구를 하였고, Seo and Yun(2019)은 오토인코더를 이용한 열간 조압연설비의 상태 진단에 대해 연구하였다.
최근에는 사물인터넷(IoT), 센서, 데이터 처리 등의 기술이 발전하게 됨에 따라 설비나 장비 관리에 있어서 종전의 예방보전으로부터 시스템의 상태를 모니터링하여 실행하는 예측보전으로 패러다임이 변화하고 있다. 이와 같은 동향을 반영하듯이 2004년 이후 CBM 관련 연구논문이 기하급수적으로 증가하여 최근에는 매년 수백 편씩 쏟아져 나오고 있다(Noman et al., 2019). CBM은 기계공학 등 타 학문분야에서는 고장예지 및 건전성 관리(prognostics and health management, PHM)라는 유사 개념으로 연구되고 있는데, Lei et al.(2018)은 관련 연구들을 데이터 취득, 건전성 지표(health indicator, HI) 설정, 시스템 건전성 단계(health stage, HS) 구분, 잔여유효수명(remaining useful life, RUL) 예측 등 PHM의 각 단계별로 관련된 연구들을 나누어 분류하였다. Peng et al.(2010)은 과거 연구들을 물리적 모형 기반과 지식 기반 및 데이터 기반 방법으로 분류하였고, Si et al.(2011)은 RUL 추정을 중심으로 정리하였다. Ahmad and Kamaruddin(2012a, 2012b)은 시간기반보전(time-based maintenance, TBM)과 CBM 관련연구들을 비교하였고, Shin and Jun(2015)은 CBM 관련 국제표준과 기법 및 절차를 포함하여 검토하였다. Ayo-Imoru and Cilliers(2018)은 원자력발전산업분야의 CBM 관련 연구를 조사하였다. Sakib and Wuest(2018)는 과거 연구들을 검토하고 향후의 도전과 기회에 대해 살펴보았고 Teixeira et al.(2020)은 CBM 구현에 초점을 맞추어 검토하였다.
이전 연구들의 대부분은 시스템의 상태를 점검하고 보전하는 최적의 전략을 구하거나 잔여유효수명을 예측하기 위한 적절한 모형의 수립과 관련이 있다. 즉, 관측되는 값들이 바로 성능변수의 실현 값이라는 암묵적 가정 하에 성능저하과정을 물리적 모형으로 설명하거나 AR모형, 무작위 계수 모형, 위너 과정 모형, 감마 과정모형, 역 가우시안 과정 모형, 마코브 모형, 비례고장률 모형 등 통계 기반 모형들과 여러 가지 AI 기반 모형들로 분석하거나 최적화하는 연구들이 주류를 이루고 있다. 또, 고장을 순간적인 사건이 아니라 원인이 발생한 후 고유기능을 수행할 수 없는 상태에 이르기까지의 과정으로 파악하여 고장원인에 대한 위험평가에 초점을 맞춘 Kwon et al.(2019)의 연구도 있다. 한편, 산업현장에서는 고장이 시작되었음을 알 수 있는 잠재고장(Potential Failure)으로부터 실질적인 고장에 해당하는 기능고장(Functional Failure)에 이르기까지의 시간적인 차이를 고려하여 P-F간격으로 표현되는 성능저하 모형이 많이 활용되고 있다(Blann, 2013).
본 연구에서는 종전의 연구들과 달리 계측기나 센서에 의한 관측값이 시스템 성능을 직접적으로 나타내는 성능변수가 아니라 그와 밀접한 상관관계에 있는 대용변수의 관측값으로 볼 수 있는 상황을 고려한다. 또, 성능저하모형은 P-F 곡선으로 설명될 수 있다는 전제 하에 각 성능변수와 대용변수 사이의 고유한 관계를 적절한 통계적 모형으로 설명할 수 있다고 가정하고 대용변수의 보전기준치를 설정하는 방법을 제안한다. 2절은 과거 연구들을 토대로 실제 산업현장에서 수명기간에 따른 시스템 고장률이 어떻게 변하는지 살펴보고 성능저하과정을 검토한다. 3절에서는 시스템 점검에 따른 위험함수를 정의하여 위험을 최소화하는 대용변수의 기준치를 결정하는 방법을 제시한다. 4절에서는 수치적 예제를 통해 문제를 해결하는 과정을 예시하고 모수 변화에 따른 위험함수의 변화를 분석하여 모형의 유효성을 검토한다. 마지막으로 연구결과를 요약정리하고 향후 연구 및 결론을 서술한다.
2. 시스템 고장유형과 부품의 성능저하과정
Figure 1은 Hashemian(2011)에서 발췌한 것으로 산업장비에 대해 적용되는 보전 및 고장률의 유형과 비율을 모여주고 있다. 미 국방부 자료에 의하면 시간을 기준으로 실시하는 예방보전의 비율은 11%에 불과하며 나머지는 상태기반보전에 의존하고 있다(Nowlan and Heap, 1978). 그리고 고장률의 유형도 욕조곡선형은 4%정도밖에 되지 않으며 단기간 동안의 초기 감소 혹은 증가 단계를 논외로 한다면 89%가 일정형 고장률 범주에 속한다. 따라서 수명이 긴 시스템의 보전문제를 취급할 때 일반적인 고장률의 유형이라 알려진 욕조곡선을 가정하고 정책을 수립하는 것은 현실에 맞지 않다고 할 수 있다.
그렇다면 일정형 고장률인 경우 예방보전의 효과가 없으므로 보전활동을 하지 말고 고장 후 수리활동에 집중해야 하는가? 이 문제는 시스템의 고장과 부품의 고장을 분리해서 접근함으로써 보다 합리적인 보전정책을 정할 수 있다. 수명이 긴 시스템으로서의 장비는 일정형 고장률을 가진다고 하더라도 부품의 경우 고장원인이 발생하면 점차 기능이 저하되어 일정기간 경과 후 제 기능을 수행하지 못하는 상태(고장)가 된다. 이와 같은 과정을 잘 묘사한 것이 Figure 2의 P-F간격이다. P-F간격은 고장이 발생하는 과정을 나타낸 것으로 고장은 하나의 사건이라기보다는 진행 과정이라는 사고에 근거하고 있다. 즉, 고장은 어느 순간 갑자기 발생하는 것이 아니라 고장원인이 먼저 발생하고 그로부터 기능저하가 진행되어 고장원인의 발생을 알아차릴 수 있는 수준(potential failure: 잠재적 고장)을 거쳐 최종적으로 기능고장(functional failure)에 이르게 된다는 것이다. 여기서 잠재고장과 기능고장 사이의 기간을 P-F 간격이라고 하며 이 기간 동안에 조치를 취함으로써 고장으로 인한 중단 없이 시스템을 운영하는 것이 보전활동의 목표이다.
시스템에 문제가 발생하였음을 감지하고 보전하기 위해서는 관련 데이터의 수집이 선행되어야 한다. Hashemian(2011)은 예측 보전 혹은 온라인 보전 방식을 데이터 취득 방법에 따라 세 가지로 분류하고 있다. 첫째는 공정 관리를 위해 부착되어 있는 온도, 압력, 수준, 유량 등 기존의 센서로부터 얻어지는 데이터, 둘째는 진동, 소음, 습도 등 시험용 센서로부터 얻어지는 데이터, 셋째는 시험을 통하여 얻어지는 신호로부터 취득하는 데이터이다. 첫째와 둘째는 수동적으로 얻어지는 데이터이고 셋째는 데이터 획득을 위한 능동적인 시험 및 계측행위를 통해 얻어지는 데이터이다. 이러한 데이터들은 시스템이 정상적으로 가동되고 있는 상태에서 발생되는 여러 신호들의 측정값일 수도 있고 시스템의 특정 부분 혹은 부품이 비정상인 상태에서 발생되는 값일 수도 있다. 또, 이 데이터들은 시스템의 성능 혹은 부품의 성능변수를 직접 나타낸다기보다는 그에 관련된 대용변수의 관측치일 경우가 많다.
산업현장에서 운용되는 장비나 시스템의 고장과 성능저하과정에 관련하여 지금까지 서술한 내용을 종합해보면 다음과 같이 요약할 수 있겠다.
ⅰ) 긴 수명을 가진 대부분의 시스템은 고장률이 일정한 상태에서 운영되고 있으며 고장은 그 시스템을 구성하고 있는 부품의 고장으로 인한 것이다.
ⅱ) 부품의 고장은 순간적으로 발생하는 사건이 아니라 원인이 먼저 발생하고 점차 기능이 저하되어 결국에는 기능수행을 할 수 없게 되는 과정으로서 P-F간격으로 묘사될 수 있다.
ⅲ) 부품에 이상이 발생하면 시스템에서 비정상적인 신호를 내보내게 되고 그로부터 얻어지는 데이터들의 대부분은 시스템이나 부품 성능의 직접 측정치(성능변수의 관측치)가 아니라 간접적인 측정치(대용변수의 관측치)이다
3. 상태기반 보전정책의 결정
3.1 성능저하 모형
2절에서 살펴본 바와 같이 사용수명이 긴 수리가능시스템의 경우 대부분의 운영환경에서 고장률이 일정하다. 또한 고장은 부품의 고장으로 인한 것이며 실제 부품의 기능고장이 발생하기 전에 먼저 문제 발생원인 즉, 고장원인을 찾아 조치할 필요가 있다. 이 때 특정 부품에 고장원인이 발생했는지 여부는 센서로부터 입력되는 신호를 보고 판단한다고 하자. 신호가 정상인지 비정상인지 결정하는 기준은 사전에 정해져 있어야 한다.
여기서 이상신호임을 결정하는 기준을 정하기 전에 먼저 시스템의 성능저하모형을 살펴보자. 평균 성능저하량을 μt라 한다면 시간경과에 따른 μt의 변화는 대체로 Figure 2의 P-F 곡선을 아래위로 뒤집은 모양이 될 것이다. μt의 구체적인 형태는 고장원인이 발생한 부품의 속성에 따라 달라질 것이다. 성능저하와 관련하여 Lei et al.(2018)은 고장원인 발생시점(시스템이 건강하지 않은 상태로 진입한 시점) 이후 성능이 (a) 일정비율에 가깝게 점차적으로 저하되는 형태, (b) 증가하는 비율로 저하되는 형태, (c) 미미한 정도로 저하되다가 급격하게 저하되는 형태로 분류하고 있다. Figure 3은 이와 같은 성능저하의 형태를 도시한 것이다.
본 연구에서는 성능저하형태를 반영할 수 있는 모형으로 μt에 대해 다음 세 형태의 함수를 고려한다.
3.2 성능변수와 대용변수의 분포
현실적인 상황 하에서 시스템 운영 중에 각 부품이 제 기능을 얼마나 잘 수행하고 있는지 성능변수를 실시간으로 측정하는 경우는 거의 없고 측정하기도 어렵다. 대신 온도나 압력 혹은 진동 등의 대용변수를 실시간 혹은 주기적으로 관측함으로써 시스템의 상태를 판단하게 된다. 보전작업의 기준과 절차를 정하기 위해서는 성능변수와 대용변수의 결합분포를 유도하고 이를 토대로 각 결정에 따른 위험을 평가할 수 있어야 한다.
이 절에서는 전 절에서 기술한 상황과 가정을 토대로 성능변수와 대용변수의 결합분포를 도출한다. 먼저 특정 고장원인 발생 후 경과시간 t일 때 시스템의 성능저하량 Yt는
와 같이 나타낼 수 있다. 단, 여기서 Yt는 연속형 변수이고 평균 성능저하량 μt는 식 (1a), (1b), (1c)로 표현되는 t의 증가함수이며 εt ~ N(0, σ t 2 )라 가정한다.
한편, 대용변수 Xt는 시스템의 상태를 판단하기 위해 Yt 대신 사용되는 변수이므로, 이들 사이에는 밀접한 관계가 있는 것으로 가정할 수 있다. 여기서는 Yt = y로 주어졌을 때 Xt의 조건부 확률밀도함수를
로 가정한다. 단, g(y)는 y의 증가함수이다. (2)와 (3)으로부터 Xt와 Yt의 결합확률밀도함수는 f(x,y) = fX|Y(x|y)fY(y)로부터
이다.
3.3 위험함수
시스템의 상태를 판정하여 보전여부를 결정하는데 따르는 위험은 두 종류로 분류할 수 있다. 즉, 시스템이 정상적인 상태에 있음에도 불필요한 보전을 실시할 경우의 손실에 따른 위험(생산자 위험; α-위험)과 시스템이 비정상적인 상태에 있음에도 정상으로 판단하여 아무런 조치도 취하지 않음으로써 시스템을 고장에 이르게 할 위험(소비자 위험; β-위험)이 그것이다. 여기서 시스템이 비정상적인 상태에 있다고 함은 시스템을 구성하는 부품들 중 하나에 고장원인이 발생하여 성능의 저하가 진행되고 있는 상태를 말한다.
이제 대용변수 Xt에 대해 Xt ≥ x0이면 위험신호로 판단하고 조치를 취하며, 성능변수 Yt에 대해 Yt ≥ y0이면 실제로 조치가 필요한 상황이라고 하자. Table 1은 위험을 포함하여 보전 시행에 수반되는 결과를 표로 정리한 것이다. 여기서 y0는 알려져 있다고 하면 α-위험과 β-위험의 기대 확률은 각각
로 얻어진다. 만약, 부품별로 각 αt와 βt에 대응되는 위험의 크기를 각각 C1, C2라 한다면 특정부품의 보전 결정에 따른 위험의 기댓값(expected total risk, ETR)은
로 구할 수 있다. 여기서 y0는 알고 있으므로 ETRt는 x0와 t의 함수가 된다.
3.4 보전정책의 결정
부품의 특성을 토대로 평균 성능저하량 μt와 t의 기술적인 관계식이 (1a), (1b), (1c) 중 하나로 정해진다고 하면 y0와 μt의 관계 설정 방식을 토대로 t의 값을 결정할 수 있다. 정책적인 측면으로 볼 때, 평균적으로 성능저하량이 y0에 이르면 보전을 실시하거나 안전성을 고려하여 y0보다 작은 어떤 값에 이르면 보전을 실시한다는 방식을 생각해볼 수 있다. 전자의 경우,
후자의 경우
로부터 t의 값을 정할 수 있다. 여기서 k는 고장원인 발생 후 t시간 경과했을 때 실제 성능저하량이 y0보다 크게 될 위험을 어느 정도 감수할 것인가에 따라 달라지는 안전계수의 성격을 지니며 이 값이 클수록 위험기피적인 방식이 된다. 만약, k = 3으로 한다면 고장원인 발생 후 실제 성능저하량이 y0보다 크게 될 위험이 확률적으로 0.00135보다 크지 않은 시점에서 보전을 실시하겠다는 것이다. 따라서 t의 값은 k 값에 따라 정해지는 것이며 k 값은 안전성을 얼마나 고려할 것인가에 따라 정책적으로 결정된다고 할 수 있다.
4. 예제 및 분석
4.1 수치 예제
이해를 돕기 위해 어느 회사 기어모터의 가동 중 잠재고장 발생의 단순화된 상황을 가정해보자. 모터의 작동 중 발생 소음이 일정 크기 이상이면 비정상적인 상태로 보고 점검 및 수리 작업을 한다. 과거 경험에 비추어 이 제품의 비정상적인 소음 발생의 주된 원인에 관련된 부품은 커플링이라고 하자. 이 부품에 문제가 발생하여 케이스 장착 조임 토크가 허용범위를 벗어나면 이상소음을 발생시킨다고 한다. CBM을 적용하기 위해 성능저하량을 나타내도록 적절하게 변환된 수치들을 사용한다고 하자. 설명 도중 나오는 수치들은 현장에서 실제 관측된 데이터가 아니라 제안된 방법을 적용하는 과정을 예시하기 위해 사용된 것이다.
케이스 장착 조임 토크에 관련된 성능저하량을 적절하게 변환한 값을 Yt, 소음을 적절하게 변환한 값을 Xt로 나타내기로 하자. Yt에 적합한 성능저하형태는 각각 (1b)라 하고 모수값은 각각 (a,b) = (0.01,0.5), g (y) = y, σx = 0.2, σt = 0.1t이라 하자. 또 y0 = 1.0으로 주어져 있으며 정책적으로 k = 1.5로 정해져 있다고 하자. 위험계수는 C1 = 1.0, C2 = 10.0으로서 β-위험에 따른 손실이 α-위험에 따른 손실의 10배 정도라고 하자.
Figure 5는 부록의 R 프로그램을 사용하여 그린 ETR 곡선으로 x0 = x*0 = 0.8일 때 최솟값 ETR* = 0.154를 갖는다. 즉, 주어진 상황에서는 Xt의 값이 0.8이상이면 커플링을 점검하고 필요 시 조치를 취해야 한다. 여기서 x0의 최적값은 각 모수의 절대적인 크기보다는 상대적인 크기에 영향을 받게 된다. 예로서 식 (6)으로부터 C1, C2의 경우 C1 = 1.0, C2 = 10.0이거나 C1 = 2.0, C2 = 20.0이거나 x0의 최적값에는 영향을 주지 않으며 C2/C1 = 10.0만 주어지면 최적해 x*0를 구할 수 있다.
4.2 ETR의 변화 분석
대용변수의 점검 기준치 즉, x0의 최적값 x*0는 위험계수 C1, C2 및 센서의 계측정밀도를 반영하는 σx의 영향을 많이 받을 것으로 생각된다. 먼저 위험계수의 영향부터 살펴보면 ETR의 구성형태로 보아 x*0는 C1, C2의 절대적인 크기보다는 상대적인 크기에 의존하게 된다. Table 2는 C2/C1 = 5.0, 10.0, 15.0일 때의 x*0값 및 그에 대응되는 ETR*의 값을 정리한 것이다. 또 Figure 6은 C1 = 1.0으로 고정시켜두고 C2 = 5.0, 10.0, 15.0에 대해 ETR의 변화곡선을 도시한 것이다. Table 2와 Figure 6으로부터 알 수 있듯이 x*0는 C1에 대한 C2의 상대적인 크기가 커질수록 작아진다. C2는 실제로 기능고장이 발생할 경우의 위험의 크기를 반영하고 있으므로 C2가 커지면 고장을 예방하기 위해 보다 이른 시점에서 점검을 하는 것이 좋을 것이다. Figure 6에서 C2값이 클수록 x*0가 작아진다는 것은 이와 같은 직관적인 판단과 일치하며, 점검기준치를 낮게 설정하여 이상신호의 기미가 있을 때 보다 빨리 점검하는 것이 유리함을 의미한다.
다음으로 대용변수의 표준편차 σx의 영향을 살펴보자. σx는 대용변수의 정밀도를 반영하고 있으므로 값이 작을수록 대용변수는 성능변수에 근접하게 된다. 결과적으로 x*0의 값은 y0 값에 가까워지게 될 것이다. Table 3은 σx = 0.1, 0.2, 0.3일 때의 x*0값 및 그에 대응되는 ETR*의 값을 정리한 것이다. Figure 7은 σx = 0.1, 0.2, 0.3일 때 x0 값의 변화에 따른 ETR 값의 변화를 도시한 것이다. Table 3과 Figure 7로부터 σx 가 작을수록 x*0는 y0 = 1.0에 가까워지고, 위험의 크기 ETR*도 현저하게 감소함을 알 수 있다.
4.3 모형의 활용성에 대한 고찰
본 연구에서 제시한 모형은 CBM에서 주어진 자료들이 시스템 성능을 직접적으로 나타낸 것이 아니라 성능과 밀접한 관련성을 가진 대용변수를 관측한 결과임을 전제한다. 또한 현실문제의 복잡성을 배제하고 매우 단순화된 형태의 모형을 통해 제안된 접근방법의 간결성과 유효성을 보여주고자 하였다. 수치 예제에서 든 기어모터의 경우만 하더라도 소음과 진동에 관련된 구성품으로 전원공급 장치, 배선, 제어장치, 모터, 기어헤드, 브레이크, 커플링 등이 있으며 보다 하위 부품들로 열거하면 수십 종류에 이른다. 따라서 소음이나 진동(대용변수)을 유발하는 원인, 즉, 성능변수(각 구성품 혹은 부품의 성능 저하문제)들이 수십 개에 이르는 상황이 되는 것이다. 또한 소음이나 진동에 대한 정보 역시 단순히 하나의 수치 값이 아니라 파동이나 연속된 데이터의 흐름으로 주어질 것이므로 이것을 적절한 지표로 변환하는 과정이 필요하다.
본 연구의 결과는 현실 문제 중 상당히 제한적인 상황 하에서 그대로 적용할 수 있을 것이다. 예컨대 기어 모터의 경우 한 순간에 한 부품에서만 문제가 발생하고 부품들이 서로 독립적인 상황에서 적용해 볼 수 있다. 다만 이 경우에도 모든 부품에 대해 성능변수와 대용변수간의 관계가 규명되어 있어야 한다. 그리고 각 부품별 문제 발생에 따른 대용변수의 기준치를 표로 정리해 두면 대용변수의 이상신호가 잡혔을 때 어떤 부품부터 조사하고 조치를 취해야 할지 우선순위를 정할 수 있을 것이다.
현실적으로는 비슷한 시기에 두 부품 이상에 문제가 발생할 수도 있고 한 부품의 문제가 다른 부품의 문제를 유발하는 경우도 많이 있다. 이와 같은 상황에서는 제안된 방법을 그대로 적용할 수는 없으며 기본적은 틀은 유지하더라도 복잡한 현실 상황을 반영할 수 있도록 모형을 확장해야 할 것이다. 이에 대해서는 후속연구가 필요하며 관련된 사례연구도 함께 이루어지면 현장 적용에 지침 내지 참고가 될 것이다.
5. 결 론
과거 연구들로부터 일반적인 시스템의 고장형태가 일정형 고장률임을 조사하고, 실제 현장에서 예방 보전 시 많이 활용하는 P-F간격의 개념을 도입하여 부품에 대해 단순화된 성능저하모형을 제시하였다. 또한 시스템의 상태가 센서 등을 통해 관측되는 대용변수의 값으로 모니터링되는 상황 하에서 상태기반보전 정책을 결정하는 방안을 제시하였다. 신호의 정밀도 혹은 위험계수의 차이에 따른 보전 기준치의 변화를 직관적인 판단과 비교하여 제시한 접근방법의 유효성을 확인하였다.
본 연구에서는 대용변수로 상태가 관측되는 부품이 하나인 경우를 다루고 있다. 그러나 실제 산업현장에서는 여러 부품들 중 하나에 문제가 발생해도 동일한 대용변수로 시스템 상태를 판단하는 경우도 많이 있다. 예를 들어 소음이나 진동으로 시스템의 상태를 판단할 경우 과도한 소음이나 진동을 유발할 수 있는 부품은 여러 종류가 있을 수 있다. 이와 같은 상황에서는 부품별 특성에 따라 다른 성능저하모형을 설정하고 대용변수의 최적 기준치를 구한 다음, 결과를 표로 정리하여 부품 간 보전 우선순위 결정에 참고할 수 있다.
향후 부품별 성능저하모형 혹은 확률분포에 대한 가정들이 타당한지 산업 현장의 실제 데이터로 검증하는 연구가 필요하다. 또한 여러 부품들이 복합적으로 얽혀 시스템의 상태를 나타내는 신호를 데이터로 받을 경우 이를 해석하고 보전하는 작업을 체계화하여 제시하는 연구로 확장할 필요가 있다. 그리고 실제 산업현장에 적용하여 사례를 정리하여 현장 활용도를 높일 수 있는 연구도 기대된다.