1. 보완이란?
자료의 수집이 끝난 후에는 여러 가지 사정으로 완벽한 수집을 못했을 경우 누락되거나 미수된 자료는 삭제 또는 보완하여야 합니다. 미수집 부분을 삭제하는 경우에는 사례의 수가 분석하기에 충분하다면 삭제해도 상관이 없으며, 한 두 개의 변수가 50% 이상 미수집 자료라도 해당 변수를 삭제하는 것이 좋습니다. 그러나 이와 같이 사례와 변수를 삭제하는 것은 미수집 자료의 해결책이기는 해도 적극적인 방법은 되지 못합니다. 미수집 자료를 보완하는 경우에는 미수 부분을 삭제하는 것보다 적극적인 방법에 해당하지만, 이러한 경우 보완되는 자료에서 상당한 정도의 오차가 발생할 수도 있음을 알아두어야 합니다.
2. 보완의 방법
평균치삽입법 : 평균치 삽입법은 변수의 평균치를 계산하여 누락된 사례의 변숫값으로 사용하는 방법입니다. 전 사례에 걸쳐서 오차가 무작위로 분포되어 있고, 50% 이상 미수집 자료가 있는 사례를 이미 삭제한 경우에 활용합니다. 사례나 변수에 대한 사전 지식이 충분하지 못한 경우에도 사용할 수가 있습니다.
보삽법 : 보삽법은 시계열 자료에 누락되어 사용되는 방법입니다. 수년 동안에 걸친 자료를 수집할 때는 어느 한 두 해의 자료를 수집할 수 없는 경우, 당해 연도의 보유한 자료만을 가지고 평균치를 계산하는 직선보삽법으로 추정이 가능합니다. 특히 인구나 정부의 예산처럼 심한 변동을 겪지 않는 변수를 추정할 때 유용합니다. 맥락적 사정과 당해 연도 전후의 추세를 동시에 고려해보면 확고한 결과를 얻을 수 있습니다. 여기서 맥락적 사정이란 예를 들어 당해 ㄴ연도가 다른 연도와 같이 정상적인 해였는가, 위기의 해였는가 등을 고려하는 것입니다.
3. 평가치추정법
평가치추정법은 가장 세련된 방법으로서, 평균치를 사용하기보다는 작은 오차만을 감수하면서 원래의 값을 추정해 가는 방법입니다. 맥락적 사정이나 행렬식의 자료를 고려하여 사용됩니다. 맥락적 사정에 의한 방법은 예를 들면 어떠한 집단의 특징과 관련된 조사연구에서 필요한 변수의 원래 현상이 지니고 있는 성격이나 집단의 목적, 집단의 유형 등을 종합적으로 고려하여 일반적 지식의 견지에서 평가를 내리는 것입니다. 보다 체계적인 맥락적 사정을 활용하기 위해 미수집 자료에 유사한 몇 개의 사례를 선정하여 그 사례의 전체 자료를 검토하는 과정이 필요합니다.
다른 완전한 행렬식 자료를 활용하여 미수집 자료의 행렬식에 근거한 평가를 체계적으로 할 수도 있습니다. 특히 이 경우 다회적 분석과 요인분석기법이 필요한데, 다회적 분석은 관련되는 다른 중요한 변수의 자료를 사용하여 다회적 추정을 하는 방법인 반면, 요인분석은 먼저 평균치 등의 방법으로 자료를 보충한 다음 요인부하행렬식과 요인평점행렬식으로 만들어 최종 수치를 구하는 방법입니다. 두 방법 모두 반복 계산을 통해 한 수치에 근접할 때까지 계산을 계속합니다.
4. 보완의 시기
미수집 자료를 보완하기 위해 언제 그리고 어떠한 기법을 사용할 것인가 하는 문제로서, 보통 그 시기는 맥락적 자료를 수집한 연후가 가장 적당합니다. 종속변수의 자료가 미수집일 경우 부득이 맥락적 정보에 의존해야 합니다. 만약 이것이 여의치 않은 경우 독리변수의 행렬자료를 활용하여 분석을 혼란시키는 것보다는 미수집된 종속변수의 자료가 있는 사례를 없애는 편이 낫습니다. 어떤 사건이나 상호작용에 관한 자료를 평가하는 것보다는 구조적 변수의 미수집자료를 추정하는 것이 더욱 적합합니다. 어떤 종류의 기법을 활용할 것인지는 여러 가지 사정에 따라 달라지게 됩니다.
'확률통계' 카테고리의 다른 글
부호의 종류와 소개 (0) | 2021.06.18 |
---|---|
자료를 정리하는 방법 (0) | 2021.06.17 |
자료의 편집과 정리 (0) | 2021.06.16 |
질문지의 완성과 안내문 (0) | 2021.06.16 |
질문의 형태와 형식 (0) | 2021.06.15 |