컨조인트 분석에서 효율적인 문항 설계
Efficient designs in conjoint analysis
Article information
Trans Abstract
Purpose
A large number of attributes with mixed levels are often considered in the conjoint analysis. In the cases where attributes have two or three levels, we research on the efficient design of survey questionnaire to estimate all the main effect and two factor interaction effects with a reasonable size of it.
Methods
To reduce the number of questions in a questionnaire, the balanced incomplete block mixed level factorial design with minimum aberration was proposed by Lim and Chung (2016). Based on the number of questions and that of the respondents in that design, D-optimality criterion is adopted to find efficient designs where the main effect and two factor interaction effects are estimated.
Results
The list of the number of questions and that of the respondents in efficient designs for survey questionnaire are recommended based on the D-efficiency of each design and the proposed selection criteria for the number of both questions and the respondents. By analyzing all the respondents survey data generated by the simulation study, we find the proper model.
Conclusion
The proposed methods of designing survey questionnaires seem to perform well in the sense that how often the proper model is found in a simulation study where all the respondents survey data are generated by the simulation model.
1. 서 론
컨조인트 분석은 마케팅 분야에서 신제품 개발과 관련하여 많이 활용되는 기법이다. 신제품을 구성하는 중요한 특징들을 속성이라 하고, 그 속성들이 취할 수 있는 값인 수준들을 인위적으로 변경하고 결합하여 결정된 가상의 후보 신제품들에 대한 소비자들의 선호도를 조사한다. 이때, 가상의 후보 신제품을 컨셉이라 부르는데, 각각의 컨셉이 소비자들에게 묻는 설문 문항이 된다. 선호도 조사 자료들을 분석하여 선호도와 속성들에 대한 적절한 모형을 찾고, 각 컨셉들에 대한 평균 선호도를 추정하여 소비자들이 가장 구매할 가능성이 높은 제품을 예측한다. 본 연구에서는 선호도를 9점 척도(선호도 낮음 1점, 높음 9점)로 조사하는 것을 가정한다.
컨셉은 제품을 구성하는 속성과 그것들의 수준이 결합된 형태로 실험계획법의 처리에 해당되며, 각 설문지의 문항들은 실험점 생성 방법을 적용하여 만든다. 고전적인 분석에서는 모든 응답자들에게 동일한 문항들을 조사하고 주효과만 추정하는 것을 목적으로 주로 직교배열법에 의한 문항 설계를 하였다. 그러나, 높은 구매력을 갖춘 신제품을 출시해야하는 마케팅 실무 담당자들의 가장 큰 관심사는 속성들간의 시너지 효과 혹은 적대적(상충적)인 효과의 존재 여부를 파악하는 것이다. 따라서 주효과 뿐만 아니라 이인자 교호작용효과의 추정을 원한다. 임용빈 등(2015, 2016)에서는 모든 이인자 교호작용효과를 추정 할 수 있는 실험점 생성에 관한 연구를 전개하였다. 임용빈 등(2015, 2016)의 주요 아이디어는 블록화 요인설계를 하는 것이다. 응답자를 블록으로 간주하여 응답자들간의 설문지 문항들을 다르게 설계하는 것이다. 선호도와 속성들에 대한 적절한 모형을 찾기 위해서 모든 응답자들의 설문 자료를 모아 유의한 효과들을 선별하고 추정한다. 모든 이인자 교호작용효과까지 추정할 수 있기 위해 균형된 불완전 블록 완전요인설계(Balanced Incomplete Block Full Factorial Design) 이거나 해상도가 V인 균형된 불완전 블록 일부요인설계(Balanced Incomple Block Fractional Factorial Design)의 방법들로 문항 설계를 제안하였다. 임용빈 등(2015)에서는 속성들의 수준수가 모두 동일한 경우를, 임용빈 등(2016)에서는 속성들의 수준수가 서로 다른 경우를 가정하였다. 속성들의 수준수가 서로 다른 경우 교적 설계에 의한 블록화 혼합요인설계를 적용하다 보니, 속성수에 따라 한 응답자에게 조사해야할 문항수가 너무 많아져 응답의 정확성을 걱정하게 되었다. 이러한 문제점을 해결하기 위해 실험설계를 할 때 추정 불가능한 이인자 교호작용효과의 수를 최소로 허용하는 최소차수(minimum aberration) 블록화 혼합요인설계의 적용을 제안하였다.
본 연구에서는 문항 설계를 할 때 블록화 요인설계의 기본 아이디어는 존중하되 전체 응답자의 수와 각 응답자에게 조사해야할 문항수를 분석자가 자유로이 선택 할 수 있는 블록화 최적설계(Blocking Optimal Design)를 제안한다. 최적설계의 여러 가지 기준 중에서 SAS 소프트웨어에서는 블록화일 경우 블록화 D-최적설계를 생성하고 있다. 따라서, 2절에서는 2와 3수준의 혼합설계에서 블록화 D-최적설계를 구현하여 분석자가 선택 할 수 있는 응답자 수와 문항수에 대하여 조사한다. 3절에서는 속성수별 몇 가지 경우에 대하여 시뮬레이션으로 생성된 소비자 선호도 자료를 본페로니 보정과 BIC 방법으로 분석하여 유의한 효과들을 찾아내는 과정을 설명한다. 이때 SAS의 블록화 D-최적설계 뿐만 아니라, 실험계획법 전문 소프트웨어인 Design Expert을 실행하여 구한 블록화 D-최적설계와 I-최적설계의 효율성에 대해서도 같이 비교한다. 이때, 효율성의 잣대는 오로지 가정한 유의한 효과들만 얼마나 잘 찾는지로 정의된 Power이다.
2. 문항설계
임용빈 등(2016)에서는 속성들이 2수준과 3수준이 혼합되어 있는 경우 모든 주효과와 이인자 교호작용효과를 추정할 수 있는 2f×3g 블록화 혼합설계를 제안하였다. 2f×3g 블록화 혼합설계는 각 수준별 요인들의 설계로 모든 주효과와 이인자 교호작용효과를 추정할 수 있는 균형된 불완전 블록 완전요인설계(Balanced Incomplete Block Full Factorial Design) 이거나 해상도가 V인 균형된 불완전 블록 일부요인설계(Balanced Incomple Block Fractional Factorial Design)를 생성한 후에, 이 설계들을 교적 설계하는 방식이다. 그러나, 2수준의 속성수 f가 4이상 또는 3수준의 속성수 g가 5이상이 되면 응답자에게 묻게 되는 최소 문항수가 72개보다 많게 되어 응답의 정확성이 떨어질 것으로 예상된다. 따라서 임용빈 등(2016)에서는 추정 불가능한 일부 이인자 교호작용효과를 허용하는 최소차수(minimum aberration) 방법으로 실험점을 생성하여 최소 문항수를 36개로 제시하였다. 본 연구에서는 이러한 2와 3수준의 조합들에 대하여 모든 주효과와 이인자 교호작용효과를 추정하면서 분석자가 문항수와 응답자수를 원하는 크기만큼 정할 수 있는 블록화 D-최적설계(D-optimal Block design)를 제안한다. 블록화 D-최적설계란, 정의한 블록개수, 블록크기의 조건을 만족하는 실험설계들 중에서 주효과와 이인자 교호작용효과들로 정의된 모형의 회귀계수 추정치들에 대한 일반화 분산(generalized variance)을 최소로 하는 실험설계이다.
2.1. 후보 문항 설계를 찾기
본 연구의 대상은 임용빈 등(2016)에서 최소차수 방법으로 설문지 문항수 36개를 제시한 2 수준과 3수준 속성들에 대한 문항 설계이며, 이들에 대하여 블록크기 또는 블록개수를 줄이는 효율적인 실험설계를 찾고자 한다. 일반적으로 블록개수와 블록크기는 분석자가 자유롭게 선택할 수 있는 숫자이나, 가이드라인이 될 수 있는 후보 조합들을 찾기 위해 일정한 구간 값으로 제시한다. 블록크기는 주어진 블록 내에서 속성별 수준들의 균형성을 최대한 유지하기 위해 수준 수에 해당하는 2와 3의 최소공배수인 6의 배수로 정의한다. 즉, 최소차수 블록화 혼합설계에서 36개의 블록크기를 찾았으므로, 36 보다 작은 6의 배수들 36, 30, 24, 18, 12를 블록크기로 정한다. 블록개수는 블록크기별로 달라질 수 있는데, 속성 수준들의 모든 가능한 결합인 총 처리수를 고려하여 각 블록크기에서 총 문항수가 총 처리수 근방이 되도록 최대의 블록개수를 찾고 일정한 간격으로 감소하여 총 문항수가 총 처리수의 1/2 근처가 되도록 블록개수를 정하여 최소의 블록개수가 되도록 한다. 물론 분석자의 관심에 따라 최소의 블록개수보다 더 작은 값을 블록개수로 제안할 수도 있다.
예를 들어, 2수준과 3수준의 속성수가 모두 4개씩인 경우를 살펴보면 Table 1과 같이 가이드라인이 될 수 있는 후보 조합들을 찾아볼 수 있다. Appendix1의 SAS 프로그램을 이용하여 각 조합별로 효율지표인 D-eff를 가장 크게 하는 효율적인 블록화 설계를 찾고 D-eff를 표시한 것이다. D-eff의 값은 관측치 한 개와 모수 한 개당 회귀계수 추정치들의 일반화 분산의 크기를 D-최적설계의 크기와 비교한 효율(efficiency) 값으로 정의된다. D-eff 값이 많이 낮은 경우 후보 조합에서 제외할 수 있으나, Table 1을 살펴보면 최소 97.2%로 비교적 높은 값들을 나타내고 있다.
그 밖의 다른 속성수들에 대해서도 동일한 방법으로 접근하여 후보 조합들을 찾아볼 수 있다. 단, 2수준과 3수준의 속성수가 각각 5개인 경우는 총 실험 회수가 너무 커서 SAS로 실험설계가 불가능하여, 일부실시법(fractional design)인 2(5-1) × 3(5-1)에 대한 효율적인 블록화 설계가 되도록 조합들을 찾는다.
2.2. 추천 가능한 문항설계
앞 절에서 소개된 후보 문항 설계들 중에서 블록개수와 블록크기를 효율적으로 결정하는 간편한 기준들을 설정하여 최종적으로 분석자가 선택하기에 가장 좋은 문항설계를 추천하고자 한다. 선택된 기준들에 따라 효율적인 문항 설계의 블록개수와 블록크기의 조합이 달라질 수 있다. 2수준 속성 4개와 3수준 속성 4개인 경우를 예를 들어 구체적으로 제안된 기준들을 소개하고 살펴보도록 한다.
기준1) 최소차수방법에 의한 블록화 혼합설계의 블록개수와 블록크기 결정
임용빈 등(2016)에서 제시한 최소차수방법에 의한 블록화 혼합설계의 블록개수 36, 블록크기 36인 문항설계는 일부 이인자 교호작용효과를 추정할 수 없다. 그러나, 같은 조합으로 D-eff가 높은 블록화 설계를 구하면 모든 이인자 교호작용효과를 추정 할 수 있다. 또한, 그때의 D-eff는 100에 가까운 값으로 모든 후보 조합들 중에서 가장 큰 값이 된다.
기준2) 기준1에서 결정된 블록개수를 고정시키고 블록크기는 최소화 하는 조합
블록개수는 설문 응답자수에 해당되어 비용과 밀접한 연관성이 있는데, 블록화 혼합설계에서 계획한 비용은 변동 없이 응답의 정밀도를 높이기 위해 문항수를 최소화 하는 설계를 원할 때 추천가능하다. 예들 들어 Table 1을 보면, 블록화 혼합설계에서 제안한 블록개수 36을 고정시켰을 때 블록크기를 가장 최소화 할 수 있는 지점은 18에 해당한다.
기준3) 기준1에서 결정된 블록크기를 고정시키고, 블록개수를 최소화 하는 조합
블록화 혼합설계에서 계획한 비용을 줄이고자 할 때 추천가능하다. 예들 들어 Table 1를 보면, 블록크기는 기준1에서 결정된 36으로 고정시키고, 블록개수를 가장 최소화 할 수 있는 지점을 찾아 보면 18에 해당한다. 물론, 블록크기도 같이 줄이고자 한다면 각 경우마다 최소화 할 수 있는 블록개수가 달라진다.
기준4) Table 1에서 블록크기는 최소화 하는 값으로 고정시키고, 블록개수를 최소화 하는 조합
우선적으로 응답의 정확성인 블록크기를 최소로 하는 조건을 찾고, 그 다음에 비용에 대한 고려로 블록개수를 최소로 하는 조합을 찾는다. 예를 들어 Table 1을 보면, 블록크기가 가장 작은 값은 12이고, 그 때 블록개수를 최소로 하는 조합은 54이다.
이와 같이, 바람직한 블록화 혼합설계의 블록개수와 블록크기의 조합으로부터 출발하여 블록개수나 블록크기 한 축씩 고정시켜놓고 다른 축을 최소화 할 수 있는 조합이나, 모든 가능한 효율적인 문항설계로부터 블록크기를 가장 최소화하는 값으로 결정한 후, 블록개수를 최소화 하는 조합을 블록화 최적설계에서 추천할 수 있다.
3. Simulation 사례 분석
다양한 2와 3수준의 각기 다른 속성수별로 블록개수와 블록크기의 조합을 선택하여 블록화 최적설계를 한 후, 이 설계의 효율성을 알아보기 위해 시뮬레이션 모형을 가정하여 응답자들의 선호도 점수를 생성하고 분석을 진행한다. 선호도 점수는 9점 척도를 가정하고, 1,000번의 반복 시뮬레이션을 수행하여 오로지 가정한 유의한 속성만 정확히 찾아내는 비율을 효율성 지표인 Power로 정의한다.
3.1. 실험점 설계
2절에서 소개한 최적설계 방법은 SAS를 이용한 블록화 D-최적설계였다. SAS에서는 주어진 블록에서 속성의 수준별 실험점의 균형성(balance)은 고려되지 않고 D-최적기준을 최적화하는 설계를 찾는다. 반면, 실험계획법 전문소프트웨어인 Design Expert는 각 블록에서의 속성의 수준별 균형성을 갖는 실험설계들 중에서 블록화 D-최적설계를 찾을 수 있다. 또한 각 후보 실험점에서의 반응변수인 선호도 점수의 예측치의 분산들의 합을 최소로 하는 블록화 I-최적설계도 생성이 가능하다. 따라서, 주어진 블록개수와 블록크기에 대하여 SAS의 D-최적설계와 Design Expert의 D-/I-최적설계를 생성하고, 시뮬레이션 사례 분석을 통해 가정한 유의한 속성만 찾아내는 비율인 power의 값으로 효율성을 비교하고자 한다.
시뮬레이션 사례분석의 대상이 되는 2와 3수준의 속성개수는 Table 2에서 언급된 경우들이며, 블록개수와 블록크기는 2.2절에서 소개한 기준1(설계조합을 D1이라함), 기준2(D2) 그리고 기준4(D3)에 해당하는 조합들로 선정한다.
기준1(D1) : 블록화 혼합설계 (2와 3수준 각 4개의 경우 : 블록개수 36, 블록크기 36)
기준2(D2) : D1에서 블록개수 고정, 블록크기는 최소 (블록개수 36, 블록크기 18)
기준4(D3) : 블록크기를 최소화 하는 조합 (블록개수 54, 블록크기 12)
D3인 경우에는 블록크기가 가장 작은 값으로 고정한 상태에서 블록개수도 가장 작은 값인 조합을 추천한다. 단, 그 값이 앞의 D2 조합과 같을 경우에는 블록크기를 두 번째 작은 값으로 고정한 후, 블록개수가 가장 작은 값을 추천한다. 이런 방식으로 각 경우마다 3개의 조합을 Table 2와 같이 찾을 수 있다.
3.2. Simulation 가정 및 분석 방법
각 문항에 대한 응답자들의 선호도 점수를 시뮬레이션 모형에 의해 생성하기 위해 유의한 속성과 그의 크기를 가정한다. 예를 들어, 2수준 4개(속성 X1, X2, X3, X4)와 3수준 4개(속성 Z1, Z2, Z3, Z4)의 경우 주효과 X1, X3, Z2와 이인자 교호작용효과 X1, Z2가 유의하다고 가정하고, 주어진 문항에 대한 선호도 점수는 효용함수 식(1)과 Table 3에 주어진 가정된 효과의 크기에 따라 생성한다. 1점에서 9점까지 최종 선호도 점수는 식(1)과으로부터 생성된 모든 y값의 분포에 따라 등간격으로 나눈 후 부여한다.
이와 동일한 방법으로 다른 속성수의 경우에도 Table 4와 같이 각 경우마다 3개의 주효과와 1개의 이인자 교호작용효과를 유의하다고 가정한다. 2수준 속성은 X로, 3수준 속성은 Z로 표시한다. 또한, 가정된 각 효과의 크기는 높은 수준과 낮은 수준의 값으로 각 효과 옆에 표시되어 있다.
위 가정들로 생성된 시뮬레이션 자료에서 유의한 효과들을 찾는 기준은 임용빈 등(2017)에서 추천한 본페로니 보정(Bonferroni correction)과 BIC 모형선택기준을 적용한다. 또한, 적절한 모형 찾기를 위하여 잘 알려진 축차적인 변수 선택법인 전진적 선택법(forward selection)를 적용한다. 본페로니 보정 방법은 m개의 검정을 동시에 진행할 때(multiple comparison), 동시 검정에 대한 제1종 오류의 확률을 유의수준 α값으로 유지하기 위해 각 검정에 대한 유의수준 값으로 α/m 값을 사용한다.(Bland and Altman, 1995) 변수 선택을 할 때에도 m개의 변수 각각의 계수가 유의한지에 대한 검정을 동시에 진행하기 위해 전진적 선택법의 각 단계에서 변수를 추가할 때 본페로니 보정에 의한 수정된 유의수준 값인 α/m을 사용해서 변수를 추가할 지를 결정한다. 변수를 추가할 때 사용되는 유의수준 값이 단계마다 작아진다는 것을 제외하고 전진적 선택법과 동일하다. 모형에 포함된 변수가 많을수록 더 작은 유의수준 값으로 검정하기 때문에 해당 방법은 보수적으로 변수를 선택하게 된다.
BIC(Bayesian Information Criterion)는 식(2)와 같이 우도함수로 모형의 적합도를 평가하고, 총 실험횟수의 개수와 추정된 모수의 개수의 증가함수인 ln(n)·p만큼의 모형의 복잡성에 대한 패널티를 주어서 계산한다.
3.3. 분석 결과
Table 2의 속성수별로 D1,D2 그리고 D3의 조합에 대하여 SAS의 D-, Design Expert의 D- 와 I- 블록화 최적설계를 찾는다. 각 최적 설계들마다 Table 4의 시뮬레이션 가정으로 응답자의 선호도 점수를 얻어 본페로니 보정과 BIC 방법으로 유의한 속성을 찾는 분석을 실시한다. 이러한 과정을 1,000번 반복하여 Table 4에서 가정한 유의한 속성들만 오로지 정확히 찾아내는 비율을 계산한 결과가 Table 5에 있다. 단, Design Expert의 I-최적설계는 총 실험 횟수가 크면 실험설계가 생성되지 않아 Power값을 계산할 수 없었다.
결과를 살펴보면, 일부 경우를 제외하고는 본페로니 보정 방법의 Power가 BIC 방법보다는 높은 편이다. 그러나, 주로 총 실험횟수가 큰 경우 즉, (2수준 속성수, 3수준 속성수)로 표현하면, (4,5), (5,5) 그리고 (5,4)인 경우는 BIC 방법의 Power가 더 높은 편이다. 그 이유는 본페로니 보정이 Table 4에서 가정하지 않은 속성들도 유의한 속성에 포함시키는 false effects를 포함하기 때문에 오로지 가정한 속성들만 찾아내는 비율인 Power는 다소 떨어진다. 본페로니 보정 방법으로는 특정한 패턴이 없이 경우에 따라 SAS 설계 방법의 Power가 더 높을 수도 있고, Design Expert의 설계 방법이 더 높을 수도 있다. 또한 D-나 I-최적설계도 Power의 우월성에 특정한 패턴이 없다. 또한, SAS나 Design Expert에서 얻어진 D-최적설계들 간에는 Power의 우월성이 존재하지 않는다.
4. 결 과
블록화 2f×3g혼합설계에서 속성들의 수인 f와 g가 커짐에 따라서 블록의 크기인 응답자가 응답해야할 설문 문항수가 많아져서 응답자로부터 정확한 답변을 기대하기가 어렵게 된다. 일부 이인자 교호작용효과의 추정 불가능을 허용한 최소차수에 의한 블록화 혼합설계의 블록개수와 블록크기 값을 참고값으로 다양한 2수준과 3수준 속성개수들에 대하여 분석자가 효율적으로 블록개수와 블록크기를 간편하게 선택할 수 있는 블록화 최적설계 방법을 연구하였다. 가용한 블록개수와 블록크기 조합들 중에서 후보군이라 여길 수 있는 조합들을 찾고, 그 안에서 적절한 조합들을 선택할 수 있는 기준들을 제시하였다. 또한, 이러한 추천 가능한 조합들에 대하여 시뮬레이션 사례 분석을 통해 D- 최적기준과 I-최적기준에 의한 효율적인 블록화 최적 설계의 실험점에서 시뮬레이션 모형을 통해서 생성된 문항 자료에 대한 적절한 분석 방법을 수행하고 유의한 효과들을 선별하고, 효율을 계산하였다. 효율의 지표는 1,000번의 시뮬레이션 반복 중 가정한 유의한 속성들만 오로지 정확히 찾아내는 비율인 Power로 정의하였다. 본페로니 보정과 BIC 방법으로 분석한 결과 최적화 설계 기준에 관계없이 Power의 값이 차이가 나지 않고, SAS와 Design Expert를 활용한 D-최적설계 간에도 Power의 우월성을 찾을 수 없었다. 따라서, SAS 나 Design Expert 중 분석자가 용이하게 접근할 수 있는 소프트웨어로 D-최적설계 방식에 따라 블록화 최적 설계할 것을 추천한다. 또한 경제성과 응답의 정확성을 기대할 수 있는 D2와 D3의 Power 값이 D1과 경쟁력이 있다고 판단되어 적극 추천한다.
References
Appendices
블록화 D-최적설계 SAS 프로그램
/* 2수준 속성 4개 후보 실험점*/
proc factex;
factors x1-x4;
output out=level2;
run;
/*3수준 속성 4개 후보실험점, 2수준 속성과 교적설계*/
proc factex;
factors z1-z4 /nlev=3;
output out=mixed designrep=level2;
run;
/*D-optimal 블록화 최적설계*/
proc optex data=mixed seed=12345;
class x1-x4 z1-z4;
model x1|x2|x3|x4|z1|z2|z3|z4@2;
blocks structure=(36)36 keep=1 ; /*(블록개수)블록크기*/
output out=opt_design ;
run;