일반적으로 통계조사는 전수조사(complete enumeration survey)와 표본조사(sample survey)로 구분된다. 전수조사란 연구에 있어, 관심의 대상이 되는 집단의 안의 모든 단위들을 빠짐없이 모두 다 조사하는 방법을 가리킨다. 5년마다 전국민을 대상으로 진행하는 인구센서스, 정부의 인구주택총조사가 대표적인 전수조사의 예이다. 전수조사는 모든 대상을 조사하므로 막대한 경제적 지출이 소요된다. 그렇기 때문에 인구주택총조사와 같은 예외적인 경우를 제외한 현대 사회과학에서 진행되는 대부분의 사회조사는 표본조사로 이루어진다.
표본조사는 연구의 관심이 되는 전체에서 일부의 부분 집단을 선택한(sampling) 후 그 일부 집단을 분석하고 이를 통해 모집단(전수)의 특성을 추정하는 방법이다. 표본조사의 장점으로는 첫째 비용 절감, 둘째 신속한 결과도출, 셋째 심도있는 조사가 가능하다는 점, 넷째 제대로 된 표본을 사용했을 때, 오히려 전수조사보다 정확도가 높다는 점 등이 있다. 반면에 표본조사의 단점으로는 잘못시행 됐을 경우 심각한 오차가 발생할 수 있다는 점과, 대상집단의 세부적인 특성을 파악하기 어렵다는 점 등이 있다.
초점집단(focus group)이란 함께 모여 면접하는 피험자집단을 지칭하는 말이다. 이들은 논의의 증진을 위해 일시적으로 소집된다. 초점집단은 주로 상품평가와 같은 소비자의 의견과 경향을 파악하기 위한 시장조사자가 사용하곤 한다. 이러한 초점집단 면접은 질적 연구방법의 하나로, 이는 구조화·준구조화·구조화 되지 않은 면접에 기초한다. 예를 들어 기업에서 새로운 상품을 판매하려고 시도할 때 이런 방법을 사용하고는 하는데, 구체적으로 새로운 전자기기가 특정의 기능을 가지고 특정한 시장판매가에 사용될 때 소비자들은 이것을 어떻게 받아들일지 이러한 예측을 하는 방법으로 자주 사용된다. 주로 초점집단은 5-15명으로 이루어지고, 이 방법은 실생활을 포착하는 것, 융통성, 타당도, 빠른 결과, 비용 등의 측면에서 장점을 지니고 반면에 통제하기 어려움, 분석의 어려움, 중재자에게 기술 요구, 집단 간 차이로 인한 어려움, 모집의 어려움, 토의 환경 조성 등의 문제를 가진다.
생태학적 오류(ecological fallacy)란 집단을 관찰하여 얻을 사회과학적 결론을 개인에 적용하는 오류를 말한다. 여기서 생태학이라는 말은 집단, 무리(sets), 체제 등으로 지칭하는 말로서 개인이라는 단위보다 큰 특정의 것을 의미한다. 일례로 어떤 특정한 지역에서 한 정당이 우세한 득표율을 보인다고 해서 그 지역에 사는 개인이 꼭 득표율이 우세한 정당을 지지하는 것은 아니다. 또 사회학의 고전적인 연구인 뒤르켐의 『자살론』을 생각해볼 수 있는데, 카톨릭 국가보다 개신교 국가의 자살률이 더 높다고 하더라고, 가톨릭 교도보다 개신교도들이 더 많이 자살했다고 결론을 내리기는 어려운 것이다.
반면에 개인주의적 오류(individualistic fallacy)도 주의해야 한다. 개인주의적 오류는 제비 한 마리가 날아온다고 봄이 오는 것은 아니라는 속담을 통해 이해하기 쉽다. 예를 들어 진보정당을 지지하는 부유한 유권자를 발견했고, 이를 통해서 부유한 유권자는 진보정당을 지지한다는 결론을 내리면 이것은 개인주의적 오류를 범한것이다. 이러한 소수의 개별 사례를 발견했다고 해서 사회적으로 담지되는 전체적인 경향이 부정되는 것은 아니다.
사회학의 연구에 있어, 상관관계에서 인과관계를 찾는 것은 매우 중요하다. 구체적으로 ‘법칙정립적 설명’을 하는데 인과관계를 제대로 파악하는 것은 특별히 중요하다. 연구자 또는 조사자가 특정한 사회현상에 대해 질문을 가지고 이를 탐구하며 두 변수 사이에 인과관계를 찾는 과정 속에는 몇몇 장애물들이 존재하고 그런 장애물을 통해 잘못된 관계들이 맺어지기도 한다. 그 중에 대표적인 것들이 의사적 관계(spurious relationship)과 억압 관계(suppressor relationship) 같은 것들이다. 이후의 글에서는 이 두 개념의 의미와 예시에 대해 알아보고자 한다.
먼저 의사적(擬似的) 관계란 허위관계로 번역되기도 한다. 의사적 관계란 두 변수 사이에 인과관계가 존재하지 않을 때를 가리키며 조금 더 구체적으로는 변수 간에 우연히 발견되는 통계적 상관으로서, 어떤 제3의 변수에 의해 유발되는 것을 말한다. 다양한 예가 존재할 수 있다. 예를 들어 초등학생의 키와 수학(修學) 능력과의 관계를 생각해볼 수 있다. 이 두 변수는 키가 클수록 수학능력이 증가하는 관계를 가질 것이다. 하지만 보통 초등학생들은 키가 클수록 고학년이고 나이가 많다. 따라서 키가 커서 수학능력이 좋은 것이 아니라 고학년이기 때문에 수학능력이 좋은 것이라고 생각해볼 수 있다. 진짜 인과관계는 학년과 수학능력의 관계에 있다. 다른 예로는 지역의 소(牛)의 수와 박사학위자의 수를 생각해볼 수 있다. 아마도 소의 수가 적은 지역일수록 박사학위자의 수가 증가할 것이다. 표면적으로 이 관계는 옳다고 생각될 수 있지만 실상은 도시와 농촌의 인구구성과 산업의 차이에 있다고 볼 수 있다. 따라서 연구자가 인과관계를 올바르게 판단하기 위해서는 관찰한 상관관계에서 의사적인 관계로 설명할 수 있는 제3의 변수가 있는지 탐구해야한다.
다음으로는 억압 관계이다. 억압 관계란 실제로 두 변수 사이에 관계가 있음에도 제3의 변수의 존재로 인해 그 관계가 나타나지 않거나 약화되는 것을 가리킨다. 또한 두 변수 사이에 있는 관계를 없애는 제3의 변수를 억압변수 또는 억제변수(Suppressor Variable)라고 부른다. 예를 들어 한 연구에서는 노조원의 ‘노조원이 된 기간(4년 기준)’과 ‘유대인을 노조위원으로 임명하는 것’에 대한 태도의 관계를 연구했다. 그 연구의 최초분석에서 연구자는 두 변수 사이에 특별한 관계가 없다고 생각했다. 하지만 노조원들의 연령이 노조원이 된 기간과 유대인에 대한 태도 사이의 관계를 ‘연령’이라는 변수가 억압하고 있음을 발견했다. 대체로 젊은 노조원들이 나이 많은 노조원들에 비해 유대인에 호의적이었고, 이들은 노조의 가입한 기간이 길지 않았다. 그러나 특정 연령집단들 안에서는 노조에 가입한지 가장 오래된 사람들이 유대인 노조위원을 임명하는 데 가장 호의적이었다. 이런 경우 두 변수 사이에는 억압 관계가 있음을 알 수 있고, 연령이 억압변수로 작용함을 알 수 있다. 다른 예로 교육과 소득 사이에는 양의 상관관계가 존재한다. 하지만 연령이라는 변수가 교육과 소득에 영향을 미쳐서 연령이 높을수록 교육 수준은 낮고, 소득 수준을 높을 수가 있다. 이런 상황에서 연령은 교육과 소득이라는 변수 사이에 억압변수로 작용하며 이런 영향이 미쳤다면 이 관계는 억압 관계라고 볼 수 있다.
사회조사의 과정에서 앞서 언급한 관계들을 파악하고 이를 통제하거나 연구의 설계, 연구과정에 있어 이런 효과를 제거하는 것은 매우 중요하다. 이를 통해서만 제대로 된 상관관계, 인과관계를 탐색할 수 있기 때문이다. 이런 까닭에 연구자는 사전에 이러한 개념들을 제대로 숙지할 필요가 있으면 연구에 임하면서도 꾸준히 이를 유념해두고 성찰하면서 연구를 진행시켜야, 비로소 ‘과학적인’ 연구에 접근할 수 있을 것이다.
*본 문서를 사용하실 때는 출처를 밝혀주시기 바랍니다.
참고문헌
John Scott 엮음. 2014. 『A Dictionary of Sociology 4 Revised Edition』. Oxford Univ Pr.
Earl Babbie. 고성호 등 역. 2013. 『사회조사방법론 13판』. Cengage Learning.