본문 바로가기
데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Dendrogram 숫자형 Vs 숫자형 3.

by 으잇짜 2024. 8. 30.
반응형

 1. 계층적 군집 분석의 기본 개념

 

계층적 군집 분석(Hierarchical Clustering)은 데이터 포인트들 간의 유사성 또는 거리를 기반으로 데이터를 계층적으로 그룹화하는 방법입니다. 이 기법은 탑다운 방식(Divisive, 분할법) 또는 바텀업 방식(Agglomerative, 집합법)으로 수행될 수 있습니다.

  • 탑다운 방식: 전체 데이터를 하나의 큰 군집으로 보고, 점차 분할하여 개별 데이터 포인트로 나뉩니다.
  • 바텀업 방식: 모든 데이터 포인트를 각각 하나의 군집으로 시작하고, 가장 유사한 것들끼리 병합해 나가면서 하나의 큰 군집으로 합쳐집니다. Spotfire에서 주로 사용하는 방식은 바텀업 방식입니다.

 

2. 계층적 군집 방법의 종류

군집 비교 방법 군집 간 거리 정의 방식 장점 단점
★평균 연결법
(Average Linkage)
두 군집 간의 모든 데이터 포인트 쌍의 평균 거리를 계산하여 정의 균형 잡힌 군집 형성이 가능하며, 데이터의 노이즈에 비교적 강함 계산 비용이 높을 수 있으며, 복잡한 구조를 잘 포착하지 못할 수 있음
가중거리 연결법
(Centroid Linkage)
각 군집의 중심점(센트로이드) 간의 거리를 계산하여 정의 군집의 중심을 고려하여 직관적으로 이해하기 쉬움 두 군집 간 병합 시 왜곡된 결과를 초래할 수 있음(반드워프 현상)
와드 연결법
(Ward's Method)
군집 내 데이터의 분산 증가를 최소화하는 방식으로 거리 정의 작은 군집의 형성을 방지하고, 보다 균일한 크기의 군집을 생성 복잡한 계산을 요구하며, 노이즈에 민감할 수 있음
최단 연결법
(Single Linkage)
두 군집 간 가장 가까운 두 데이터 포인트 간의 거리를 정의 군집화 계산이 단순하고, 긴 연쇄형 군집을 형성 가능 연쇄적 군집 형성으로 인해 "사슬 효과"가 발생할 수 있음
최장 연결법
(Complete Linkage)
두 군집 간 가장 먼 두 데이터 포인트 간의 거리를 정의 보다 응집력 있는 군집을 형성, 군집 간 구분이 명확함 노이즈에 민감하며, 이상값에 의해 군집의 거리가 과도하게 영향을 받을 수 있음

 

3. 계층적 군집 생성 방법

Spotfire에서 계층적 군집을 생성하는 방법에는 2가지가 있다.

먼저 Tools > Hierachical Clustering에서 생성하는 방법 (생성 시 세밀한 세팅 가능)

두 번째로는 Heat map을 만들고 속성> Dendrograms에서 설정하는 방법 (직관적이고 추천하는 방법)

 

이번 포스팅에서는 두번째 방법으로 생성해 보겠습니다.

계층적 군집 생성 방법 (우측 방법 사용)
계층적 군집 생성 방법 (우측 방법 사용)

 

show dendrogram을 check해야 보임
show dendrogram을 check해야 보임

 

Cluestering 연결방법 상세 설정 가능
Cluestering 연결방법 상세 설정 가능

 

4. 생성한 계층적 군집 살펴보기

이전 포스팅에서 생성한 Heat map에 Dendrogram을 활성화시킨 모습이다. 자연스럽게 정렬된 모습을 확인할 수 있다.

Dendrogram을 활성화 한 모습 입니다.
Dendrogram을 활성화 한 모습

 

Dendrogram을 활성화시키면 군집이 형성되어 가지(branch)가 생성된 모습을 확인할 수 있다. 가운데 분홍선은 Pruning Line (가지치기 선)이라 칭하며 마우스 커서로 움직일 수 있다. 아래 있는 Pruning Line을 보면 #7 0.125라고 표시 되어 있다. 이는 현재 커서 위치에서 7개의 가지가 있으며, 거리는 0.125라는 것을 의미한다.

Pluning Line
Pluning Line

반응형

loading