본문 바로가기
데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2.

by 으잇짜 2024. 8. 29.
반응형

1. 전체 상관관계 분석

Data Relationships

 

이전에 했던 상관관계 분석은 종속변수 mpg(연비)에 대해서 다른 integer 항목들과의 상관관계를 살펴봤습니다.

이번에는 종속변수와, 독립변수를 1:1로 매칭시켜서 상관관계를 Heat map 형태로 확인해 보겠습니다.

종속변수와, 독립변수 입력
종속변수와, 독립변수 입력

위와 같이 종속변수 Y칸에도 mpg 이외 항목도 전부 추가, 독립변수 X칸에도 mpg를 추가.

각 항목에 따른 상관관계 결과
각 항목에 따른 상관관계 결과

2. Heat map 생성

 

아래와 같이 Heat map을 3개 생성했습니다. X축에는 X값, Y축에는 Y값, Cell Value 값에는 각각 p-value, R값, R^2 값을 넣었습니다. p-value는 모두 매우 작은 값이 나왔으며, 이는 상관관계가 있음을 확인했습니다. (인관관계는 증명 X)

 

R값에 경우는 음/양 의 상관관계를 확인하기 위해 color option을 positive/negative로 설정했습니다.

(Positive는 연두색, Negative는 붉은색)

 

R^2 값은 모든 값이 양수이므로 Min값부터 Max 값까지 Gradiant로 표현해 줬습니다.

 

좌측부터 p-value, R값, R^2값 에 대한 Heat map
좌측부터 p-value, R값, R^2값 에 대한 Heat map

 

R값 Heat map에서 사용한 Color option
R값 Heat map에서 사용한 Color option

3. 상관관계 결과 살펴보기

 

상관관계 분석 결과표에서 p-value를 오름차순, R^2를 내림차순으로 정렬해서 가장 관계가 높은 3개 항목을 확인.

사실상 p-value값은 모두 극히 낮으므로 R^2 값으로만 비교해도 충분할 것 같다. ( R값 모두 양의 상관관계를 가지고 있음을 확인)

 

1등 : cyliners Vs displacement

2등 : weight Vs displacement

3등 : weight Vs cylinders

p-value를 오름차순, R^2을 내림차순
p-value를 오름차순, R^2을 내림차순
Heat map에 마킹된 모습
Heat map에 마킹된 모습

1. Displacement와 Cylinders (R² = 0.904065)

해석: displacement (배기량)와 cylinders(실린더 수) 간의 R² 값이 0.904065라는 것은 이 두 변수 사이에 매우 강한 선형 관계가 있음을 의미합니다. 일반적으로, 자동차의 실린더 수가 많아지면, 배기량이 증가하는 경향이 있다. 이 높은 R² 값은 배기량이 실린더 수를 매우 잘 설명할 수 있다는 것을 나타냅니다.

 

2. Displacement와 Weight (R² = 0.870479)

해석: displacement(배기량)와 weigt(차량 무게) 간의 R² 값이 0.870479라는 것은 이 두 변수 사이에도 강한 선형 관계가 있음을 보여줍니다. 일반적으로, 배기량이 큰 차량은 더 무거운 경향이 있습니다. 이 높은 R² 값은 배기량이 차량의 무게를 상당 부분 설명할 수 있다는 것을 의미합니다. 즉, 더 큰 배기량을 가진 차량일수록 무거울 가능성이 큽니다.

 

3. Weight와 Cylinders (R² = 0.805555)

해석: weigt (차량 무게)와 cylinders (실린더 수) 간의 R² 값이 0.805555라는 것은 이 두 변수 사이에 강한 선형 관계가 있음을 나타냅니다. 일반적으로 실린더 수가 많은 차량은 더 무거운 경향이 있습니다. 

 

4. 결론

 

Heat map을 이용해서 각 요소별 상관관계에 대해 살펴봤습니다. 다음에는 Heat map에서 활용할 수 있는 계층적 군집 분석에 대해 학습해 보겠습니다.

 

반응형

loading