데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2.

으잇짜 2024. 8. 29. 17:11
반응형

1. 전체 상관관계 분석

Data Relationships

 

이전에 했던 상관관계 분석은 종속변수 mpg(연비)에 대해서 다른 integer 항목들과의 상관관계를 살펴봤습니다.

이번에는 종속변수와, 독립변수를 1:1로 매칭시켜서 상관관계를 Heat map 형태로 확인해 보겠습니다.

종속변수와, 독립변수 입력
종속변수와, 독립변수 입력

위와 같이 종속변수 Y칸에도 mpg 이외 항목도 전부 추가, 독립변수 X칸에도 mpg를 추가.

각 항목에 따른 상관관계 결과
각 항목에 따른 상관관계 결과

2. Heat map 생성

 

아래와 같이 Heat map을 3개 생성했습니다. X축에는 X값, Y축에는 Y값, Cell Value 값에는 각각 p-value, R값, R^2 값을 넣었습니다. p-value는 모두 매우 작은 값이 나왔으며, 이는 상관관계가 있음을 확인했습니다. (인관관계는 증명 X)

 

R값에 경우는 음/양 의 상관관계를 확인하기 위해 color option을 positive/negative로 설정했습니다.

(Positive는 연두색, Negative는 붉은색)

 

R^2 값은 모든 값이 양수이므로 Min값부터 Max 값까지 Gradiant로 표현해 줬습니다.

 

좌측부터 p-value, R값, R^2값 에 대한 Heat map
좌측부터 p-value, R값, R^2값 에 대한 Heat map

 

R값 Heat map에서 사용한 Color option
R값 Heat map에서 사용한 Color option

3. 상관관계 결과 살펴보기

 

상관관계 분석 결과표에서 p-value를 오름차순, R^2를 내림차순으로 정렬해서 가장 관계가 높은 3개 항목을 확인.

사실상 p-value값은 모두 극히 낮으므로 R^2 값으로만 비교해도 충분할 것 같다. ( R값 모두 양의 상관관계를 가지고 있음을 확인)

 

1등 : cyliners Vs displacement

2등 : weight Vs displacement

3등 : weight Vs cylinders

p-value를 오름차순, R^2을 내림차순
p-value를 오름차순, R^2을 내림차순
Heat map에 마킹된 모습
Heat map에 마킹된 모습

1. Displacement와 Cylinders (R² = 0.904065)

해석: displacement (배기량)와 cylinders(실린더 수) 간의 R² 값이 0.904065라는 것은 이 두 변수 사이에 매우 강한 선형 관계가 있음을 의미합니다. 일반적으로, 자동차의 실린더 수가 많아지면, 배기량이 증가하는 경향이 있다. 이 높은 R² 값은 배기량이 실린더 수를 매우 잘 설명할 수 있다는 것을 나타냅니다.

 

2. Displacement와 Weight (R² = 0.870479)

해석: displacement(배기량)와 weigt(차량 무게) 간의 R² 값이 0.870479라는 것은 이 두 변수 사이에도 강한 선형 관계가 있음을 보여줍니다. 일반적으로, 배기량이 큰 차량은 더 무거운 경향이 있습니다. 이 높은 R² 값은 배기량이 차량의 무게를 상당 부분 설명할 수 있다는 것을 의미합니다. 즉, 더 큰 배기량을 가진 차량일수록 무거울 가능성이 큽니다.

 

3. Weight와 Cylinders (R² = 0.805555)

해석: weigt (차량 무게)와 cylinders (실린더 수) 간의 R² 값이 0.805555라는 것은 이 두 변수 사이에 강한 선형 관계가 있음을 나타냅니다. 일반적으로 실린더 수가 많은 차량은 더 무거운 경향이 있습니다. 

 

4. 결론

 

Heat map을 이용해서 각 요소별 상관관계에 대해 살펴봤습니다. 다음에는 Heat map에서 활용할 수 있는 계층적 군집 분석에 대해 학습해 보겠습니다.

 

반응형