1. Box plot의 구성 요소
2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습
상자(Box)
중앙값(Median): 상자의 내부에 있는 가로선으로, 데이터의 중앙값을 나타냅니다. 데이터셋을 정렬했을 때 전체 값의 중간에 위치한 값입니다.
1 사분위수(Q1): 상자의 하단 경계선으로, 데이터의 하위 25% 지점을 나타냅니다.
3 사분위수(Q3): 상자의 상단 경계선으로, 데이터의 상위 75% 지점을 나타냅니다.
수염(Whiskers)
상자의 위아래로 뻗어 있는 선들은 "수염"이라고 불립니다. 수염은 보통 Q1에서 1.5 IQR(Interquartile Range) 아래, 또는 Q3에서 1.5 IQR 위의 지점까지 확장됩니다.
IQR: Q3과 Q1의 차이를 나타내며, 데이터의 중앙 50%가 얼마나 퍼져 있는지를 나타냅니다.
2023.11.11 - [데이터 공부/통계 공부] - [통계공부] 8. 기초통계량의 종류(중심경향성, 퍼짐 정도, 왜도, 첨도)
이상값(Outliers)
수염 밖에 위치한 데이터 포인트들은 이상값으로 간주됩니다. 이는 데이터의 주요 분포에서 벗어난 값들로, Box plot에서 점이나 작은 원으로 표시됩니다.
2. Box plot의 해석
- 데이터의 중심: 중앙값이 상자의 중간에 위치하는지 여부로 데이터의 중심을 알 수 있습니다.
- 데이터의 분산: 상자의 크기(즉, IQR)가 클수록 데이터가 더 넓게 퍼져 있음을 의미합니다.
- 비대칭성(Skewness): 상자와 수염의 비대칭성을 통해 데이터의 비대칭성을 파악할 수 있습니다. 예를 들어, 상자의 위쪽이 길다면 데이터가 오른쪽으로 치우쳐 있음을 나타냅니다.
- 이상값: 이상값의 수와 위치를 통해 데이터의 이상치를 파악할 수 있습니다.
3. Box plot의 장점
- 시각적 비교: 여러 그룹 간의 데이터 분포를 직관적으로 비교할 수 있습니다.
- 이상값 탐지: 이상값을 쉽게 식별할 수 있습니다.
- 데이터 분포 파악: 데이터의 분포 특성을 간단하게 요약해 보여줍니다.
4. Box plot와 산점도
아래 그래프는 bmi data를 각각 산점도와 box plot으로 나타낸 모습입니다. (실습 예제 파일은 아래 있습니다.)
산점도에서 가로축을 성별, 세로축을 몸무게로 설정했으며, box plot은 따로 설정하지 않은 기본 모습입니다.
보시다시피 box plot은 결국 산점도에서 여러 통계적 해석을 더한 형태를 한 것이라고 알 수 있습니다.
다음 포스팅에서는 Box plot 그리는 법과, 속성에 포함된 여러 Reference Points를 학습해 보겠습니다.
2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선
'데이터 공부 > 데이터 시각화' 카테고리의 다른 글
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2. (0) | 2024.08.29 |
---|---|
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 선형회귀 (Linear Regression) 숫자형 Vs 숫자형 1. (1) | 2024.08.28 |
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 (0) | 2024.08.27 |
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 종류 살펴보기 (0) | 2024.08.26 |
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선 (0) | 2024.08.21 |