수리통계학★Mathematical Statistics★회귀분석★regression analysis
회귀분석(回歸分析, regression analysis)은
통계학에서 관찰된 연속형 변수들에 대해 독립변수와 종속변수 사이의
상관관계에 따른 수학적 모델인 선형적 관계식을 구하여 어떤 독립변수가 주어졌을 때 이에 따른 종속변수를 예측한다.
또한 이 수학적 모델이 얼마나 잘 설명하고 있는지를 판별하기 위한 적합도를 측정하는 분석 방법이다.
1개의 종속변수와 1개의 독립변수 사이의 관계를 분석할 경우를 단순회귀분석(Simple Regression Analysis),
1개의 종속변수와 여러 개의 독립변수 사이의 관계를 규명하고자 할 경우를 다중회귀분석(Multiple Regression Analysis)이라고 한다.
회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과관계의 모델링등의 통계적 예측에 이용될 수 있다.
그러나 많은 경우 가정이 맞는지 아닌지 적절하게 밝혀지지 않은 채로 이용되어 그 결과가 오용되는 경우도 있다.
특히 통계소프트웨어의 발달로 분석이 용이해져서 결과를 쉽게 얻을 수 있지만 적절한 분석방법의 선택이였는지
또한 정확한 정보분석인지 판단하는 것은 연구자에 달려 있다.
|
역사
회귀(Regress)의 원래 의미는 옛날 상태로 돌아가는 것을 의미한다.
영국의 유전학자 프란시스 갈튼(Francis Galton)은
부모의 키와 아이들의 키 사이의 연관 관계를 연구하면서
부모와 자녀의 키사이에는 선형적인 관계가 있고 키가 커지거나 작아지는 것보다는
전체 키 평균으로 돌아가려는 경향이 있다는 가설을 세웠으며 이를 분석하는 방법을 "회귀분석"이라고 하였다.
이러한 경험 적 연구 후에 칼 피어슨(Karl Pearson)은 아버지와 아들의 키를 조사한 결과를 바탕으로 함수 관계를 도출하여 수학적 전개를 정립하였다.
회귀분석의 표준 가정
회귀분석은 다음의 가정을 바탕으로 한다.
- 잔차(Residuals)는 모든 독립변수 값에 대하여 동일한 분산을 갖는다.
- 잔차의 평균은 0이다.
- 수집된 데이터의 분산은 정규분포를 이루고 있다.
- 독립변수 상호간에는 상관관계가 없어야 한다.
- 시간에 따라 수집한 데이터들은 잡음의 영향을 받지 않아야 한다.
독립변수들간에 상관관계가 나타나는 경우 다중공선성문제라고 한다.
회귀모형 적합도
회귀모형이 적합한지 확인하기 위해 결정계수 R2을 사용한다.
이는 회귀모형의 독립변수가 종속변수 변동의 몇%를 설명하고 있는지를 나타내는 지표이다.