교차분석의 의미

교차분석 2009/07/22 16:37 hobbits84

교차 분석은 두 개의 변수를 동시에 교차하여 표로 만들어 각각의 빈도와 비율을 작성하는 통계적 과정입니다. 예를 들어 설문조사를 통해 얻은 입력된 데이터 테이블을 바탕으로 남자와 여자 성별 학력만을 따로 정리하여 나타내는 작업이 있습니다. 교차 분석은 빈도와 비율만을 구하는 단순한 과정에서 사용하며 관계가 있는지 독립적인지 등의 과제는 카이제곱을 통해 다룹니다.
교차 분석은 독립변수와 종속변수가 모두 명목 척도와 서열 척도인 경우에 사용합니다. 만약 종속 변수가 등간 척도나 비율척도라면 집단적 평균 분석 방법을 사용합니다.

변수 이동과 옵션 기능 지정하기

테이블에 작성한 설문조사 결과에서 변수를 이동하여 행(row)에 종속 변수를 열(column)에 독립 변수를 배치합니다. 여기에서 독립 변수와 종속 변수의 관계는 인과 관계가 아닐 수도 있다는 점과 열과 행에 여러 개의 변수를 보낼 수 있다는 점을 기억할 필요가 있습니다.

 

사용자 삽입 이미지

① 수평 누적 막대도표 출력 : 열에 있는 변수를 독립 변수로 행에 있는 변수의 막대도표를 출력함
② 교차표 출력 안함 : 교차분석표를 출력하지 않고 통계량만 출력함
③ 통계량 : 카이제곱, 상관관계 등 여러 가지 통계량을 계산함
④ 셀 : 각 셀에 빈도와 기대빈도, 행과 열과 전체 비율이 표시되도록 지정함
⑤ 형식 : 행에 출력되는 비율의 순서를 오름차순 또는 내림차순으로 정렬함

사용자 삽입 이미지
① 관측빈도 : 교차분석에 이용된 빈도수를 표시함
② 기대빈도 : 영가설에 적합하게 기대되는 빈도수를 표시함
③ 행(퍼센트) : 교차분석에서 가로의 합이 100%가 됨
④ 열(퍼센트) : 교차분석에서 세로의 합이 100%가 됨
⑤ 전체 : 전체 빈도 대비 각 셀의 백분율을 표시함
⑥ 표준화하지 않음(잔차)
⑦ 표준화(잔차)
⑧ 수정된 표준화(잔차)
⑨ 정수가 아닌 가중값

이올린에 북마크하기(0) 이올린에 추천하기(0)
2009/07/22 16:37 2009/07/22 16:37
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://hobbits84.hosting.paran.com/tc/rss/response/50

댓글+트랙백 ATOM :: http://hobbits84.hosting.paran.com/tc/atom/response/50

적합도 검증을 위한 카이제곱 통계 작업에서 영가설은 각각의 범주에서 모집단의 비율 또는 퍼센트를 구체화합니다. 작업자가 영가설을 위한 비율을 선택할지라도 영가설을 서술하기 위한 정의된 기준들은 다섯 가지의 유현으로 구분합니다.

(1) 선호 없음(no preference)

영가설이 모집단의 범주가 동등하게 나뉜다고 서술하는 경우입니다. 예를 들어 대학생들은 계절에 대한 특별한 선호를 지니지 않는다는 것입니다.

 봄 여름 가을 겨울
영가설 25% 25% 25% 25%

(2) 알려진 모집단과 차이가 없음

영가설이 하나의 집단에 대한 비율이 또 다른 모집단에 대한 비율과 서로 다르지 않다는 내용을 서술합니다. 예를 들어 한국 전체에서 핸드폰에 대한 A, B, C 선호가 40%와 30% 그리고 20%라면 연구자는 이와 같은 태도가 경기 지역 20대들에게도 차이가 없는지를 알고 싶어 합니다. 결국 영가설은 차이가 없다는 것입니다.

 A B C
영가설 40% 30% 20%

(3) 과거 분포와 차이가 없음

2008년 한 지역에서 투표자의 지지 분포가 한나라당 40%, 민주당 20%, 자유선진당 15%, 기타 10% 등이었다고 가정합니다. 연구자는 현재 이 지지도 분포가 달라졌는지를 알고 싶어 한다면 영가설은 2008년에 존재하는 것과 차이가 없다는 것입니다.

 한나라당 민주당 자유선진당 기타
영가설 40% 20% 15% 10%

(4) 이론적 분포와 차이가 없음

유전자 이론이 두 가지 혈통을 가진 위를 교배하면 25%가 발작 증세를 보이고 75%가 정상이라고 설명합니다. 이 비율을 그대로 영가설에서 사용하는 것입니다.

 발작 증세 정상
영가설 25% 75%

(5) 정상분포 가정

모집단이 정상분포의 특성을 지닌다고 가정하고 정상분포가 자리키는 이론적 빈도와 관찰 빈도의 차이를 비교하는 것입니다. 100명의 대학생에게 엑셀 기능 시험을 치르게 한 결과 A, B, C로 성적으로 나누어 다음과 같이 영가설을 서술합니다. 연구자는 영가설의 기각함으로써 정상분포의 부정확함을 밝히려는 것입니다.
 
 A B C
영가설 16 68% 16%

이올린에 북마크하기(0) 이올린에 추천하기(0)
2009/07/20 00:01 2009/07/20 00:01
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://hobbits84.hosting.paran.com/tc/rss/response/49

댓글+트랙백 ATOM :: http://hobbits84.hosting.paran.com/tc/atom/response/49

많은 통계적 현상은 정규분포를 이루고 있습니다. 모집단이 정규분포를 이루고 있다는 것은 모수(parameter)를 알고 있다는 또는 알고 있다는 전제를 해도 된다는 뜻입니다. 모집단이 정규분포를 하고 있으며, 모수를 알고 있다는 가정에 따라 표본을 선택하여 모집단의 특성을 추정하는 통계 작업 모수적 통계(parametric statistics)라고 부릅니다. 예를 들어 독립적인 두 평균의 차이에 대한 t검정은 두 집단이 정상분포를 가진 분산을 가진다고 가정을 합니다.

하지만 실험 상황에서 연구 실무자들은 모집단의 특성을 미리 파악하기 힘든 경우를 자주 접하게 됩니다. 봄, 여름, 가을, 겨울 중에서 대학생들이 제일 좋아하는 계절은 어느 것일까? 판매하고 있는 핸드폰 A, B, C 중에서 경기 지역에 거주하는 20대들이 제일 좋아하는 것은 어느 것일까? 이런 질문들을 비교하는 경우에 이들은 모수를 알고 있다고 판단하기 어려우며 모집단의 특성도 가정하기 힘들지만 모두 빈도와 관련되어 있습니다. 모집단이 정규분포를 한다고 판단하기 힘들 때는 분포 특성에 대한 가정할 수 없으며, 따라서 모수를 알지 못하는 상황이 되기 때문에 대안적 방법들을 사용합니다. 이러한 통계 작업을 비모수적 통계(nonparametric statistics)라고 부르며 대표적인 방법이 카이제곱 검증방법입니다.

카이제곱 검증는 모집단 분포에 대해 가정하지 않으며 모수와 관련한 내용을 가설에 포함하지도 않습니다. 따라서 자유 분포 테스트라고도 합니다. 표본으로 선택된 150명의 대학생들 중에서 30명은 봄을 30명은 여름을 20명은 가을을 그리고 20명은 겨울을 좋아합니다. 이러한 경우에 영가설은 봄(25), 여름(25), 가을(25), 겨울(25)으로 세우고 이 가설의 적합도를 검증하는 방식으로 통계 작업을 실행합니다. 표본 데이터를 사용하여 획득된 표본 비율 또는 빈도 분포가 영가설로 구체화된 모집단 분포에 얼마나 적합한지를 검증하는 작업이 카이제곱 검증입니다.

이올린에 북마크하기(0) 이올린에 추천하기(0)
2009/07/19 23:58 2009/07/19 23:58
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://hobbits84.hosting.paran.com/tc/rss/response/48

댓글+트랙백 ATOM :: http://hobbits84.hosting.paran.com/tc/atom/response/48

표본 조사는 기술적 탐색적 목적으로 사용한다. 조사자는 응답자(respondent)의 표본을 선택하고 표준화된 설문을 가지고 조사를 실행하는데 개인을 분석 단위로 하는 연구에서 주로 사용된다. 집단이나 상호작용 같은 다②른 분석 단위에 사용되더라도 개인이 응답자가 되어야 한다.
설문지(questionnaire)는 고안된 질문들이 담겨 있는 문서로서 연구자가 분석하기 위해 설계됩니다. 표본조사 작업은 장점과 단점이 있어서 질문 고안과 설계에서 주의해야 하며 다음과 같은 점들이 지적되고 있습니다.

* 표본 조사의 장점

① 어떤 문제들을 현실적인 환경에서 조사함
② 결과 정보량에 비해 표본 조사의 비용은 적은 편임
③ 많은 양의 정보를 다양한 사람들로부터 손쉽게 수집함
④ 연구소나 정부 문서 등, 표본 조사에 도움이 되는 자료들이 많은 편임

* 표본 조사의 단점

① 독립변인을 실험실에서처럼 조작할 수 없어서 독립 변인과 종속변인의 인과관계를 밝힐 수 없음
② 질문 표현 방식이나 문항 배열이 결과를 왜곡시킬 수 있음
③ 전화 면접을 통한 표본 조사는 의도했던 사람에게 질문을 못하는 경우가 많음
④ 전화 사기로 전화 면접 실시가 제한되듯이 환경 변화가 특정 방법 실시를 어렵게 함


(1) 설문지 질문을 위한 기준

① 적합한 질문 형태를 선택한다. 척도, 개방형, 폐쇄형 중에서 적합한 형태를 선택한다.
② 문항을 명료해야 하며 애매해서는 안 된다.
③ 둘 이상의 답변이 가능한 쌍렬식 질문(double-barreled questions)을 피한다.
④ 응답자는 대답할 수 있는 능력이 있어야 한다. 특별하게 어려운 질문을 하지 않는다.
⑤ 응답자가 당황하지 않고 기꺼이 대답할 수 있는 것이어야 한다.
⑥ 질문은 응답자와 관계가 있어야 한다.
⑦ 질문은 짧게 만드는 것이 좋다.
⑧ 부정어가 있는 문항은 피한다.
⑨ 편견이 개입된 단어나 용어 또는 어휘의 사용을 피한다.
⑩ 유도 질문을 하지 않는다.

(2) 설문지의 구성 작업

① 인사말과 소개 : 설문 목적과 중요성을 담는다.
② 지시와 설명 : 설문지에 응답하는 응답자와 면접원을 위해 필요한 모든 지식과 설명이 담겨 있어야 한다.
③ 질문 순서 : 쉬운 질문은 앞으로 상대적으로 어렵거나 민감한 질문은 뒤에 배치한다.
④ 레이아웃 : 오자와 탈자 그리고 빽빽한 질문은 응답자의 의욕을 떨어뜨린다.
⑤ 설문 시간 : 자기 기입식 60분, 일대일 면접 60분, 전화 면접 20분, 우편 자기 기입식 표본 조사 15분, 길거리 돌발 면접 10분(R. 위머, J. 도미니크 『매스미디어 조사방법론』)
⑥ 면접자용 지침서 : 표본 조사에 필요한 기술적인 문제에 대한 안내, 장소와 일시 그리고 기업과 메모 내용 등 구체적인 작업 방법에 대하니 내용을 작성하여 준비한다.

(3) 설문지 사전 검사

설문지가 적절하게 설계되었는지를 알아보는 방법으로 사전 검사(pre-test)를 실행한다. 조사의 목적에 적절한지를 판단하여 질문 내용을 보완하는 과정을 거치는 것이다. 여러 방법이 있지만, 포커스 그룹(focus group)를 중심으로 가상의 응답자들과 설문지를 논의하는 방법이 있다. 전화 표본 조사에서 10명에서 20명까지 직접 전화를 걸어서 실제로 질문을 해보는 경우도 있다

(4) 조건부 질문과 행렬식 질문

① 조건부 질문(contingency question) : 설문지에서 어떤 질문은 몇몇 사람들에게 상관이 있지만 어떤 사람들에게는 아무 상관이 없는 경우가 있다. 몇몇 해당자에게만 상관 있는 질문은 그 응답에 따라 다른 다음 질문으로 이어지는데 이를 조건부 질문이라고 한다.
② 행렬식 질문 : 동일한 응답 범주를 가진 폐쇄형 질문을 모아서 제시하는 형태이다.

이올린에 북마크하기(0) 이올린에 추천하기(0)
2009/07/17 00:26 2009/07/17 00:26
TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://hobbits84.hosting.paran.com/tc/rss/response/47

댓글+트랙백 ATOM :: http://hobbits84.hosting.paran.com/tc/atom/response/47

우리가 사는 자연과 세계에는 살아남기 위해 이해해야 하는 여러 가지 지식이 있습니다. 그러한 지식들은 자연과 세계의 규칙성을 설명하고 있습니다. 예를 들어 태양과 달의 주기적인 운동은 지구에 일어나는 여러 중요한 현상들과 밀접한 관련성을 지니고 있습니다. 그러한 현상을 단순히 알고 있다는 것을 과학이라고 정의할 수는 없습니다.

사람들은 언뜻 보기에 복잡한 혼돈의 상태처럼 보이는 현상에서 규칙성을 찾아내는 지적인 능력을 지닌 개체입니다. 규칙성은 데이터에 의한 실험과 검토를 거쳐서 세워집니다. 규칙성이 증명된 자연과 세계에 대한 지식을 과학(scienc)이라고 부르며, 그런 의미에서 과학을 탐구하는 방법(method of inquiry)이라고 할 수 있습니다. 세상을 배워나가는 방식으로서의 과학은 따라서 매우 엄격하고 의식적인 작업입니다.

지금까지 많은 연구자들에 의해 사용되어온 엄격하고 의식적인 작업 방식들은 여러 가지가 있으며 그중에 하나가 바로 통계입니다. 질서와 법칙을 찾아내는 과학이 선택하는 방법 중의 하나가 현상을 숫자로 표현하는 것입니다. 그래서 통계를 사실과 숫자라고 정의하기도 합니다. 범죄율, 출산율, 평균 수입, 평균 강설양 등 통계는 숫자로 표현된 데이터들을 통해 사실과 정보 그리고 지식을 찾아내는 과정입니다.

과학적 방법으로서의 통계를 전문 분야의 학자나 연구자들만이 사용한다고 생각하면 큰 잘못입니다. 과학과 경영, 마케팅과 프로젝트와 토목과 건설에 이르기까지 다양한 분야와 사람들이 각자의 필요에 의해 통계를 사용하고 있으며 통계적 방법은 원하는 목적을 위해 탐구의 방법으로 사용됩니다. 상품을 기획할 때 시장 조사를 하고 상품을 판매한 후에 고객에게 설문 조사를 하는 과정도 실무에 서 자주 사용되는 통계 작업의 사례입니다. 통계는 숫자로 표현된 관찰 결과를 해석하고 조직하는 일련의 방법과 규칙을 의미합니다.

자연과 세계에 존재하는 모든 것은 그런 의미에서 숫자로 표현이 가능하며 통계는 관찰을 통한 방법을 사용하기 때문에 존재하는 모든 것을 측정을 통해 숫자로 표현할 수 있으며 그 데이터들을 통해 과학적 결과를 얻어냅니다.

이올린에 북마크하기(0) 이올린에 추천하기(0)
2009/07/16 22:23 2009/07/16 22:23
TAG
받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://hobbits84.hosting.paran.com/tc/rss/response/46

댓글+트랙백 ATOM :: http://hobbits84.hosting.paran.com/tc/atom/response/46