본문 바로가기
데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 선형회귀 (Linear Regression) 숫자형 Vs 숫자형 1.

by 으잇짜 2024. 8. 28.
반응형

1. Auto-MPG 데이터셋

Auto-MPG 데이터 분석 리포트

 

https://www.kaggle.com/datasets/uciml/autompg-dataset?resource=download

 

Auto-mpg dataset

Mileage per gallon performances of various cars

www.kaggle.com

 

이 리포트는 Auto-MPG 데이터셋을 기반으로 한 분석 결과를 요약한 것입니다. Auto-MPG 데이터셋은 1970년대와 1980년대 초에 미국에서 판매된 자동차의 연비(MPG, Miles Per Gallon)와 관련된 다양한 변수들을 포함하고 있습니다. 이 데이터셋은 차량 성능과 연비 간의 관계를 분석하는 데 유용하며, 총 398개의 레코드와 9개의 변수를 포함하고 있습니다.

 

데이터셋의 주요 변수

 

  • mpg: 연비(Miles Per Gallon)를 나타내는 숫자형 변수
  • cylinders: 엔진 실린더 수를 나타내는 숫자형 변수
  • displacement: 엔진 배기량을 나타내는 숫자형 변수
  • horsepower: 엔진의 마력을 나타내는 숫자형 변수
  • weight: 차량의 무게를 나타내는 숫자형 변수
  • acceleration: 0에서 60마일(약 96.5 km/h)까지 도달하는 데 걸리는 시간을 나타내는 숫자형 변수
  • model year: 차량의 제조 연도를 나타내는 숫자형 변수
  • origin: 차량의 제조국을 나타내는 범주형 변수
  • car name: 차량의 이름과 모델을 나타내는 범주형 변수

2. 상관관계 분석 Data relationships

 

Spotfire에 Data relationship 기능을 사용했습니다. Comparsion Method는 숫자형 Data Vs 숫자형 Data를 비교하므로 Linear Regression으로 진행했습니다. 종속변수로는 연비인 mpg를 선택했으며, 독립변수는 mpg를 제외한 값을 모두 넣었습니다.

 

Spotfire > Tools > Data relationships
Spotfire > Tools > Data relationships

 

종속변수와 독립변수 설정
종속변수와 독립변수 설정
종속변수와 독립변수 설정
종속변수와 독립변수 설정

 

상관관계 분석 결과
상관관계 분석 결과

 

결괏값에는 기본적으로 p-value, Fstat, R^2, R, Df, n 값을 제공합니다.

 

p-value 값은 모두 0.05 이하 이므로, 서로 상관관계가 존재한다고 판단. 

R^2 값을 내림차순으로 봤을 때 Weight, displacement, model year가 높은 상관관계를 보임

 

  • weight (차량 무게)mpg 간에는 강한 음의 상관관계(-0.83)가 존재합니다. 이는 차량의 무게가 증가할수록 연비가 감소하는 경향이 있음을 나타냅니다.
  • displacement (엔진 배기량)mpg 간에도 강한 음의 상관관계(-0.80)가 관찰되었습니다.
  • model year (모델 연도)mpg 간에는 양의 상관관계(0.58)가 나타났습니다. 이는 최신 모델일수록 연비가 향상된다는 것을 의미합니다.

3. 데이터 시각화 (산점도)

 

연비와 자동차무게의 상관관계 산점도
연비와 자동차무게의 상관관계 산점도
연비와 배기량의 상관관계 산점도
연비와 배기량의 상관관계 산점도
연비와 실리더의 상관관계 산점도
연비와 실리더의 상관관계 산점도

 

상관관계 분석 결과를 기반으로 각 변수 간의 상관관계를 시각적으로 표현하였습니다. weightdisplacementmpg에 미치는 영향이 매우 강하다는 것을 확인할 수 있습니다.

 

4. 결론 

 

Auto-MPG 데이터셋에 대한 분석을 통해, 연비에 가장 큰 영향을 미치는 요인은 차량의 무게(weight)와 엔진 배기량(displacement)이라는 것을 알 수 있었습니다. 또한, 모델 연도가 최근일수록 연비가 개선되는 경향이 있음을 확인할 수 있었습니다. 

 

지금까지는 mpg를 종속변수로 설정하고 상관관계를 알아봤습니다. 다음 포스팅에서는 종속변수와 매개변수에 숫자형 data를 모두 넣고 Heat map을 만들어서 상관관계를 분석해 보겠습니다.

반응형

loading