상관계수와 결정계수는 데이터 분석과 통계학에서 중요한 개념으로, 두 변수 간의 관계를 이해하고 모델의 설명력을 평가하는 데 사용됩니다. 이 포스팅에서는 상관계수와 결정계수의 정의, 계산 방법, 해석, 그리고 각각의 한계점과 유용성을 다룰 것입니다.
1. 상관계수 (Correlation Coefficient)
정의
상관계수는 두 변수 간의 선형적 관계를 측정하는 지표로, -1에서 1 사이의 값을 가집니다. 주로 피어슨 상관계수(Pearson Correlation Coefficient)가 사용되며, 이는 두 변수의 공분산을 각각의 표준편차로 나눈 값으로 계산됩니다. 상관계수의 값에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다:
- +1: 완벽한 양의 상관관계 (두 변수는 동일한 방향으로 완벽히 변화)
- 0: 상관 관계없음 (두 변수 간에 선형적 관계가 없음)
- -1: 완벽한 음의 상관관계 (두 변수는 반대 방향으로 완벽히 변화)
계산 방법
2024.01.21 - [데이터 공부/통계 공부] - [통계공부] 11. 공분산 및 피어슨 상관계수 기본 개념 (공분산 공식)
해석
상관계수는 변수 간의 관계 방향과 강도를 나타내며, 그 크기가 1에 가까울수록 강한 선형적 관계를 의미합니다.
그러나 상관계수는 선형 관계만을 반영하며, 비선형 관계를 제대로 설명하지 못하는 한계가 있습니다.
보통 절대값이 0.65 이상일 때 의미가 있다고 판단합니다.
2. 결정계수 (Coefficient of Determination)
정의
결정계수는 회귀 모델에서 독립변수가 종속변수를 얼마나 잘 설명하는지를 나타내는 지표로, \( R^2 \)로 표현됩니다. 결정계수는 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다는 것을 의미합니다.
계산 방법
해석
R^2이 0에 가까울수록 의미 없는 회귀선, 1에 가까울수록 의미 있는 회귀선으로 해석, 보통 0.65 이상을 판단.
결정계수는 회귀 모델의 설명력을 나타내며, R^2 값이 0.8이라면, 독립변수가 종속변수의 변동성 중 80%를 설명한다고 해석할 수 있습니다. 하지만 R^2가 높다고 해서 반드시 모델이 좋다고 할 수는 없습니다.
너무 높은 R^2는 과적합(Overfitting)의 신호일 수 있으며, 모델의 복잡도를 고려한 조정 결정계수(Adjusted R^2)를 함께 살펴보는 것이 필요합니다.
3. 상관계수와 결정계수의 비교 및 한계점
공통점/차이점/한계점
공통점: 두 지표 모두 변수 간의 관계를 평가하는 데 사용됩니다.
차이점: 상관계수는 주로 두 변수 간의 관계 강도와 방향을 평가하는 데 사용되는 반면, 결정계수는 회귀 모델의 설명력을 평가합니다.
한계점
상관계수는 두 변수 간의 선형 관계만을 측정하며, 비선형 관계가 있는 경우 오해를 불러일으킬 수 있습니다. 결정계수는 모델의 설명력을 나타내지만, 독립변수의 개수가 늘어나면 과적합 문제가 발생할 수 있습니다.
이 때문에 모델의 품질을 평가할 때는 결정계수와 함께 다른 지표도 고려해야 합니다.
4. 결론
상관계수와 결정계수는 데이터 분석에서 매우 중요한 도구입니다. 상관계수는 두 변수 간의 관계를 빠르게 파악할 수 있도록 도와주며, 결정계수는 회귀 모델의 설명력을 평가하는 데 필수적입니다.
그러나 이 지표들이 가진 한계점을 이해하고, 다양한 분석 도구와 함께 사용하는 것이 중요합니다. 이를 통해 보다 정확하고 유의미한 분석 결과를 도출할 수 있습니다.
'데이터 공부 > 통계 공부' 카테고리의 다른 글
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - F검정과 t검정의 목적과 차이점 (0) | 2024.08.24 |
---|---|
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - F-검정이란?, F-검정과 P-value의 관계 (0) | 2024.08.23 |
[통계공부] 14. 중심극한정리란? 엑셀로 알아보는 중심극한정리(엑셀 파일 첨부) (1) | 2024.01.27 |
[통계공부] 13. 이항분포란? 이항분포의 공식과 정규분포와의 관계 (0) | 2024.01.24 |
[통계공부] 12. 엑셀수식으로 알아보는 정규분포 및 t-분포 (0) | 2024.01.23 |