본문 바로가기
데이터 공부/데이터 시각화

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Line Similarity (라인 유사성), Trellis 활용

by 으잇짜 2024. 9. 1.
반응형

1. 데이터셋 살펴보기

 

데이터셋은 2023년 서울 아파트 매매 실거래가 데이터를 사용했습니다.

 

2023년 서울 아파트 매매 실거래가
2023년 서울 아파트 매매 실거래가

 

 

2. Line Chart Visualization

 

위 데이터를 가지고 Line Chart를 그렸습니다. X축은 예약년월로 했으며, Y축은 단지명을 이용해 UniqueCount를 사용하여, 해당 계약일에 계약건수를 확인할 수 있도록 했습니다. Line과 Color 구분은 "시군구" 칼럼을 사용했습니다.

2023년 서울 아파트 매매 실거래가 Line chart
2023년 서울 아파트 매매 실거래가 Line chart

 

 

2023년 계약건수 중 가장 눈에 띄는 "노원구 상계동"과 가장 유사한 지역을 찾아보겠습니다.

2023년 서울 아파트 거래중 최상위
2023년 서울 아파트 거래중 최상위

 

 

3. Line Similarity

3.1. Marking 된 Line을 기준으로 유사성 판단

 

Tools > Line similarity 클릭, 위에서 노원구 상계동을 마킹한 상태로 들어오면 자동 지정되어 있음. 결과를 넣을 칼럼명을 설정.

 

Distance Measure(거리 측정값)은 기본 설정이 Correlation Similarity(상관 유사성)으로 설정. 

Correlation Similarity(상관 유사성)
 - 두 데이터 간의 선형 관계를 측정하는 방법으로 -1에서 +1 값을 가진다.
 - 일반적으로 피어슨 상관계수를 사용합니다.
 +1 : 완전한 양의 상관관계
 0 : 상관관계가 없음
 -1 : 완전한 음의 상관관계

Euclidean Distance(유클리드 거리)
 - 두 데이터 간의 직선거리를 측정하는 방법으로 항상 0보다 큰 값을 가짐
 - 유클리드 거리의 특징은 비정규화로, 데이터의 크기나 단위에 영향을 받음 (데이터의 정규화나 표준화가 필요)

Line Similarity setting
Line Similarity setting

 

위 Line Similarity를 실행시키면 아래와 같이 필터에 두 가지 항목이 추가됩니다. 

  • 노원구 : 라인 유사성을 계산 한 값으로 범위가 -0.502부터 1까지 나온 것을 확인할 수 있습니다. (1은 노원구 자신)
  • 노원구(rank) : 라인 유사성이 가장 높은 값부터 내림차순으로 rank 값을 부여한 값 (1은 노원구 자신)

Filter > Line Similarity Result
Filter > Line Similarity Result

 

속성에 Trellis 기능을 활용하여 차트를 분리해 보겠습니다. Trellis에서 Panels를 활성화시키고, Split 기준을 설정해 보겠습니다. 첫 번째로, 노원구(rank)로 Split을 하여 "노원구 상계동"의 Line과 유사한 순으로 정렬해 주고, 각 차트에 라인 유사성값과, 시군구 칼럼을 보기 위해 추가해 줬습니다.

 

Manual layout은 선택사항이며, 기호에 맞게 조정 가능

Trellis 설정
Trellis 설정

 

Trellis를 적용시키면 아래와 같이 차트가 분리되게 됩니다. 분리된 차트에 제목에는 순서대로, 노월구 상계동과 비슷한 rank, 라인 유사성값, 해당 값에 시군구 (Scale은 Multiple Scale을 적용)

 

라인 유사성 결과 2023년 "노원구 상계동"과 아파트 매매 추이가 비슷한 지역 2등은 "동대문구 장안동"으로 유사성 점수가 0.908이 나왔습니다. 세 번째로는 0.868의 값을 가지는 "성동구 성수동 2가" 지역이 나왔습니다.

 

Trellis Line Chart (Multiple Scale)
Trellis Line Chart (Multiple Scale)

 

3.2. Custom Line을 기준으로 유사성 판단

 

3.1. 에서는 직접 Marking을 통해 유사한 Line을 찾고 싶은 부분을 선택해서 Line Similarity에 들어갔다면, 이번에는 따로 Marking을 하지 않고 Tools > Line similarity로 들어가 보겠습니다.

 

들어가면 아래와 같이 창이 생성됩니다. 아까와 다른 점은 Master line에서 Custom이 자동으로 선택된 모습입니다.

Custom 설정에는 총 8가지 가 있으며, 그림 예제를 통해 어떤 추이를 가지는 Line을 찾을 것인지 선택할 수 있습니다.

 

이번 챕터에서는 "Accending"을 선택하여 상반기에서 하반기로 갈수록 계약건수가 늘어난 지역을 찾아보겠습니다.

 

Custom lins similarity
Custom lins similarity

 

"Accending"을 선택하고 "OK"를 누르면 동일하게, 라인 유사성값과, rank값이 나옵니다. 이것을 활용해서 Trellis를 하면 아래 차트와 같이 나오게 됩니다.

 

서울에서 하반기로 갈수로 "Accending"된 지역을 살펴보면 0.744 유사성을 가지는 "종로구 숭인동"이며 두 번째로는 0.695 값을 가지는 "성동구 금호동 4가"입니다. 세 번째로는 0.684 값을 가지는 "용산구 이촌동"입니다.

Trellis Result
Trellis Result

반응형

loading