반응형
1. 계층적 군집 분석의 기본 개념
계층적 군집 분석(Hierarchical Clustering)은 데이터 포인트들 간의 유사성 또는 거리를 기반으로 데이터를 계층적으로 그룹화하는 방법입니다. 이 기법은 탑다운 방식(Divisive, 분할법) 또는 바텀업 방식(Agglomerative, 집합법)으로 수행될 수 있습니다.
- 탑다운 방식: 전체 데이터를 하나의 큰 군집으로 보고, 점차 분할하여 개별 데이터 포인트로 나뉩니다.
- 바텀업 방식: 모든 데이터 포인트를 각각 하나의 군집으로 시작하고, 가장 유사한 것들끼리 병합해 나가면서 하나의 큰 군집으로 합쳐집니다. Spotfire에서 주로 사용하는 방식은 바텀업 방식입니다.
2. 계층적 군집 방법의 종류
군집 비교 방법 | 군집 간 거리 정의 방식 | 장점 | 단점 |
---|---|---|---|
★평균 연결법 (Average Linkage) |
두 군집 간의 모든 데이터 포인트 쌍의 평균 거리를 계산하여 정의 | 균형 잡힌 군집 형성이 가능하며, 데이터의 노이즈에 비교적 강함 | 계산 비용이 높을 수 있으며, 복잡한 구조를 잘 포착하지 못할 수 있음 |
가중거리 연결법 (Centroid Linkage) |
각 군집의 중심점(센트로이드) 간의 거리를 계산하여 정의 | 군집의 중심을 고려하여 직관적으로 이해하기 쉬움 | 두 군집 간 병합 시 왜곡된 결과를 초래할 수 있음(반드워프 현상) |
와드 연결법 (Ward's Method) |
군집 내 데이터의 분산 증가를 최소화하는 방식으로 거리 정의 | 작은 군집의 형성을 방지하고, 보다 균일한 크기의 군집을 생성 | 복잡한 계산을 요구하며, 노이즈에 민감할 수 있음 |
최단 연결법 (Single Linkage) |
두 군집 간 가장 가까운 두 데이터 포인트 간의 거리를 정의 | 군집화 계산이 단순하고, 긴 연쇄형 군집을 형성 가능 | 연쇄적 군집 형성으로 인해 "사슬 효과"가 발생할 수 있음 |
최장 연결법 (Complete Linkage) |
두 군집 간 가장 먼 두 데이터 포인트 간의 거리를 정의 | 보다 응집력 있는 군집을 형성, 군집 간 구분이 명확함 | 노이즈에 민감하며, 이상값에 의해 군집의 거리가 과도하게 영향을 받을 수 있음 |
3. 계층적 군집 생성 방법
Spotfire에서 계층적 군집을 생성하는 방법에는 2가지가 있다.
먼저 Tools > Hierachical Clustering에서 생성하는 방법 (생성 시 세밀한 세팅 가능)
두 번째로는 Heat map을 만들고 속성> Dendrograms에서 설정하는 방법 (직관적이고 추천하는 방법)
이번 포스팅에서는 두번째 방법으로 생성해 보겠습니다.
4. 생성한 계층적 군집 살펴보기
이전 포스팅에서 생성한 Heat map에 Dendrogram을 활성화시킨 모습이다. 자연스럽게 정렬된 모습을 확인할 수 있다.
Dendrogram을 활성화시키면 군집이 형성되어 가지(branch)가 생성된 모습을 확인할 수 있다. 가운데 분홍선은 Pruning Line (가지치기 선)이라 칭하며 마우스 커서로 움직일 수 있다. 아래 있는 Pruning Line을 보면 #7 0.125라고 표시 되어 있다. 이는 현재 커서 위치에서 7개의 가지가 있으며, 거리는 0.125라는 것을 의미한다.
반응형
'데이터 공부 > 데이터 시각화' 카테고리의 다른 글
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Line Similarity (라인 유사성), Trellis 활용 (0) | 2024.09.01 |
---|---|
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 유형에 따른 분석 기법 (0) | 2024.08.31 |
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2. (0) | 2024.08.29 |
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 선형회귀 (Linear Regression) 숫자형 Vs 숫자형 1. (1) | 2024.08.28 |
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 (0) | 2024.08.27 |