본문 바로가기
데이터 공부/통계 공부

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 상관계수와 결정계수 이론 살펴보기

by 으잇짜 2024. 8. 22.
반응형

 

상관계수와 결정계수는 데이터 분석과 통계학에서 중요한 개념으로, 두 변수 간의 관계를 이해하고 모델의 설명력을 평가하는 데 사용됩니다. 이 포스팅에서는 상관계수와 결정계수의 정의, 계산 방법, 해석, 그리고 각각의 한계점과 유용성을 다룰 것입니다.

 

1. 상관계수 (Correlation Coefficient)

정의

 

상관계수는 두 변수 간의 선형적 관계를 측정하는 지표로, -1에서 1 사이의 값을 가집니다. 주로 피어슨 상관계수(Pearson Correlation Coefficient)가 사용되며, 이는 두 변수의 공분산을 각각의 표준편차로 나눈 값으로 계산됩니다. 상관계수의 값에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다:

 

  • +1: 완벽한 양의 상관관계 (두 변수는 동일한 방향으로 완벽히 변화)
  • 0: 상관 관계없음 (두 변수 간에 선형적 관계가 없음)
  • -1: 완벽한 음의 상관관계 (두 변수는 반대 방향으로 완벽히 변화)

 

계산 방법

 

피어슨 상관계수에 관한 공식입니다.
피어슨 상관계수

 

2024.01.21 - [데이터 공부/통계 공부] - [통계공부] 11. 공분산 및 피어슨 상관계수 기본 개념 (공분산 공식)

 

[통계공부] 11.공분산 및 피어슨 상관계수 기본 개념 (공분산 공식)

1. 공분산이란? 공분산은 통계적으로 두 변수 간의 관계를 측정하는 지표로, 두 변수가 함께 어떻게 변하는지를 나타냅니다. 이것은 데이터 분석 및 통계 모델링에서 중요한 역할을 합니다. 2023.1

informyun.com

 

 

해석


상관계수는 변수 간의 관계 방향과 강도를 나타내며, 그 크기가 1에 가까울수록 강한 선형적 관계를 의미합니다.

 

그러나 상관계수는 선형 관계만을 반영하며, 비선형 관계를 제대로 설명하지 못하는 한계가 있습니다.

 

보통 절대값이 0.65 이상일 때 의미가 있다고 판단합니다.

 

2. 결정계수 (Coefficient of Determination)

정의


결정계수는 회귀 모델에서 독립변수가 종속변수를 얼마나 잘 설명하는지를 나타내는 지표로, \( R^2 \)로 표현됩니다. 결정계수는 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터를 잘 설명한다는 것을 의미합니다.

 

계산 방법

 

결정계수 계산
결정계수 계산

 

해석

 

R^2이 0에 가까울수록 의미 없는 회귀선, 1에 가까울수록 의미 있는 회귀선으로 해석, 보통 0.65 이상을 판단.


결정계수는 회귀 모델의 설명력을 나타내며, R^2 값이 0.8이라면, 독립변수가 종속변수의 변동성 중 80%를 설명한다고 해석할 수 있습니다. 하지만 R^2가 높다고 해서 반드시 모델이 좋다고 할 수는 없습니다.

 

너무 높은 R^2는 과적합(Overfitting)의 신호일 수 있으며, 모델의 복잡도를 고려한 조정 결정계수(Adjusted R^2)를 함께 살펴보는 것이 필요합니다.

 

3. 상관계수와 결정계수의 비교 및 한계점

공통점/차이점/한계점

 

공통점: 두 지표 모두 변수 간의 관계를 평가하는 데 사용됩니다.


차이점: 상관계수는 주로 두 변수 간의 관계 강도와 방향을 평가하는 데 사용되는 반면, 결정계수는 회귀 모델의 설명력을 평가합니다.

 

한계점
상관계수는 두 변수 간의 선형 관계만을 측정하며, 비선형 관계가 있는 경우 오해를 불러일으킬 수 있습니다. 결정계수는 모델의 설명력을 나타내지만, 독립변수의 개수가 늘어나면 과적합 문제가 발생할 수 있습니다.

이 때문에 모델의 품질을 평가할 때는 결정계수와 함께 다른 지표도 고려해야 합니다.

 

4. 결론


상관계수와 결정계수는 데이터 분석에서 매우 중요한 도구입니다. 상관계수는 두 변수 간의 관계를 빠르게 파악할 수 있도록 도와주며, 결정계수는 회귀 모델의 설명력을 평가하는 데 필수적입니다.

 

그러나 이 지표들이 가진 한계점을 이해하고, 다양한 분석 도구와 함께 사용하는 것이 중요합니다. 이를 통해 보다 정확하고 유의미한 분석 결과를 도출할 수 있습니다.

 

반응형

loading