본문 바로가기
데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가)

by 으잇짜 2024. 8. 25.
반응형

1. Box plot의 구성 요소

2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습

 

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습

1. Box plot 만들기 데이터는 이전 포스팅 첨부파일에 있던 bmi 데이터를 활용해서 만들어 보겠습니다.bmi 데이터로 box plot 차트를 생성하면 기본적으로 아래와 같이 생성되는 모습을 확인할 수 있

informyun.com

 

상자(Box)

중앙값(Median): 상자의 내부에 있는 가로선으로, 데이터의 중앙값을 나타냅니다. 데이터셋을 정렬했을 때 전체 값의 중간에 위치한 값입니다.
1 사분위수(Q1): 상자의 하단 경계선으로, 데이터의 하위 25% 지점을 나타냅니다. 
3 사분위수(Q3): 상자의 상단 경계선으로, 데이터의 상위 75% 지점을 나타냅니다. 

수염(Whiskers)

상자의 위아래로 뻗어 있는 선들은 "수염"이라고 불립니다. 수염은 보통 Q1에서 1.5 IQR(Interquartile Range) 아래, 또는 Q3에서 1.5 IQR 위의 지점까지 확장됩니다.
IQR: Q3과 Q1의 차이를 나타내며, 데이터의 중앙 50%가 얼마나 퍼져 있는지를 나타냅니다.

 

2023.11.11 - [데이터 공부/통계 공부] - [통계공부] 8. 기초통계량의 종류(중심경향성, 퍼짐 정도, 왜도, 첨도)

 

[통계공부] 8. 기초통계량의 종류(중심경향성, 퍼짐정도, 왜도, 첨도)

1. 중심경향성 (Measures of Central Tendency) 중심경향성은 데이터의 중심이 어디에 있는지를 나타내는 통계량을 말합니다. 대표적인 중심경향성 지표로는 평균, 중앙값, 최빈값이 있습니다. 1.1. 평균 (

informyun.com

 

이상값(Outliers)

수염 밖에 위치한 데이터 포인트들은 이상값으로 간주됩니다. 이는 데이터의 주요 분포에서 벗어난 값들로, Box plot에서 점이나 작은 원으로 표시됩니다.

 

box plot에 여러 통계적 의미
box plot에 여러 통계적 의미

 

2. Box plot의 해석

  • 데이터의 중심: 중앙값이 상자의 중간에 위치하는지 여부로 데이터의 중심을 알 수 있습니다.
  • 데이터의 분산: 상자의 크기(즉, IQR)가 클수록 데이터가 더 넓게 퍼져 있음을 의미합니다.
  • 비대칭성(Skewness): 상자와 수염의 비대칭성을 통해 데이터의 비대칭성을 파악할 수 있습니다. 예를 들어, 상자의 위쪽이 길다면 데이터가 오른쪽으로 치우쳐 있음을 나타냅니다.
  • 이상값: 이상값의 수와 위치를 통해 데이터의 이상치를 파악할 수 있습니다.

3. Box plot의 장점

  • 시각적 비교: 여러 그룹 간의 데이터 분포를 직관적으로 비교할 수 있습니다.
  • 이상값 탐지: 이상값을 쉽게 식별할 수 있습니다.
  • 데이터 분포 파악: 데이터의 분포 특성을 간단하게 요약해 보여줍니다.

4. Box plot와 산점도

아래 그래프는 bmi data를 각각 산점도와 box plot으로 나타낸 모습입니다. (실습 예제 파일은 아래 있습니다.)

산점도에서 가로축을 성별, 세로축을 몸무게로 설정했으며, box plot은 따로 설정하지 않은 기본 모습입니다.

 

보시다시피 box plot은 결국 산점도에서 여러 통계적 해석을 더한 형태를 한 것이라고 알 수 있습니다.

다음 포스팅에서는  Box plot 그리는 법과, 속성에 포함된 여러 Reference Points를 학습해 보겠습니다.

산점도와 Box plot의 모습
산점도와 Box plot

 

 

2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선

 

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선

1. 데이터 추출산점도 데이터 시각화에서는 가장 많이 사용하는 bmi 데이터셋을 가지고 해 보겠습니다.임의로 chat GPT에게 1000명의 bmi 데이터를 만들어달라고 요청했습니다. 2. 산점도 만들기 (키

informyun.com

 


bmi_data.csv
0.31MB

반응형

loading