반응형 데이터 시각화7 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Dendrogram 숫자형 Vs 숫자형 3. 1. 계층적 군집 분석의 기본 개념 계층적 군집 분석(Hierarchical Clustering)은 데이터 포인트들 간의 유사성 또는 거리를 기반으로 데이터를 계층적으로 그룹화하는 방법입니다. 이 기법은 탑다운 방식(Divisive, 분할법) 또는 바텀업 방식(Agglomerative, 집합법)으로 수행될 수 있습니다.탑다운 방식: 전체 데이터를 하나의 큰 군집으로 보고, 점차 분할하여 개별 데이터 포인트로 나뉩니다.바텀업 방식: 모든 데이터 포인트를 각각 하나의 군집으로 시작하고, 가장 유사한 것들끼리 병합해 나가면서 하나의 큰 군집으로 합쳐집니다. Spotfire에서 주로 사용하는 방식은 바텀업 방식입니다. 2. 계층적 군집 방법의 종류군집 비교 방법군집 간 거리 정의 방식장점단점★평균 연결법(Ave.. 2024. 8. 30. [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2. 1. 전체 상관관계 분석Data Relationships 이전에 했던 상관관계 분석은 종속변수 mpg(연비)에 대해서 다른 integer 항목들과의 상관관계를 살펴봤습니다.이번에는 종속변수와, 독립변수를 1:1로 매칭시켜서 상관관계를 Heat map 형태로 확인해 보겠습니다.위와 같이 종속변수 Y칸에도 mpg 이외 항목도 전부 추가, 독립변수 X칸에도 mpg를 추가.2. Heat map 생성 아래와 같이 Heat map을 3개 생성했습니다. X축에는 X값, Y축에는 Y값, Cell Value 값에는 각각 p-value, R값, R^2 값을 넣었습니다. p-value는 모두 매우 작은 값이 나왔으며, 이는 상관관계가 있음을 확인했습니다. (인관관계는 증명 X) R값에 경우는 음/양 의 상관관계를 확인하기 .. 2024. 8. 29. [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 선형회귀 (Linear Regression) 숫자형 Vs 숫자형 1. 1. Auto-MPG 데이터셋Auto-MPG 데이터 분석 리포트 https://www.kaggle.com/datasets/uciml/autompg-dataset?resource=download Auto-mpg datasetMileage per gallon performances of various carswww.kaggle.com 이 리포트는 Auto-MPG 데이터셋을 기반으로 한 분석 결과를 요약한 것입니다. Auto-MPG 데이터셋은 1970년대와 1980년대 초에 미국에서 판매된 자동차의 연비(MPG, Miles Per Gallon)와 관련된 다양한 변수들을 포함하고 있습니다. 이 데이터셋은 차량 성능과 연비 간의 관계를 분석하는 데 유용하며, 총 398개의 레코드와 9개의 변수를 포함하고 있습니다.. 2024. 8. 28. [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 1. Box plot 만들기 2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선1. 데이터 추출산점도 데이터 시각화에서는 가장 많이 사용하는 bmi 데이터셋을 가지고 해 보겠습니다.임의로 chat GPT에게 1000명의 bmi 데이터를 만들어달라고 요청했습니다. 2. 산점도 만들기 (키informyun.com 2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가) [데이터 시각화] Spotfire로 데이터 시각화 해보기.. 2024. 8. 27. [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 종류 살펴보기 데이터는 다양한 형태로 존재하며, 이를 이해하기 위해 데이터의 유형을 분류하는 것이 중요합니다. 데이터의 주요 유형에는 연속형 자료, 이산형 자료, 순위형 자료, 명목형 자료가 있습니다. 각 유형의 특징과 예시는 다음과 같습니다. 1. 연속형 자료 (Continuous Data)특징연속형 자료는 특정 범위 내에서 무한히 많은 값을 가질 수 있는 데이터입니다. 이는 보통 실수(real number)로 표현되며, 측정 단위에 따라 소수점까지 포함할 수 있습니다. 연속형 자료는 주로 물리적, 시간적, 양적 측정에서 나타납니다. 두 점 사이에 존재하는 값들을 포함할 수 있으며, 변수가 정해진 범위 내에서 모든 값을 취할 수 있습니다. 예시키 : 160.5 cm, 175.3 cm 등과 같이 측정된 키는 특정 범.. 2024. 8. 26. [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가) 1. Box plot의 구성 요소2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습1. Box plot 만들기 데이터는 이전 포스팅 첨부파일에 있던 bmi 데이터를 활용해서 만들어 보겠습니다.bmi 데이터로 box plot 차트를 생성하면 기본적으로 아래와 같이 생성되는 모습을 확인할 수 있informyun.com 상자(Box)중앙값(Median): 상자의 내부에 있는 가로선으로, 데이터의 중앙값을 나타냅니다. 데이터셋을 정렬했을 때 전체 값의 중간에 위치한 값입니다.1 사분위수(Q1): 상자의 하단 경계선으로, 데이터의 하위 25% 지.. 2024. 8. 25. [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 상관계수와 결정계수 이론 살펴보기 상관계수와 결정계수는 데이터 분석과 통계학에서 중요한 개념으로, 두 변수 간의 관계를 이해하고 모델의 설명력을 평가하는 데 사용됩니다. 이 포스팅에서는 상관계수와 결정계수의 정의, 계산 방법, 해석, 그리고 각각의 한계점과 유용성을 다룰 것입니다. 1. 상관계수 (Correlation Coefficient)정의 상관계수는 두 변수 간의 선형적 관계를 측정하는 지표로, -1에서 1 사이의 값을 가집니다. 주로 피어슨 상관계수(Pearson Correlation Coefficient)가 사용되며, 이는 두 변수의 공분산을 각각의 표준편차로 나눈 값으로 계산됩니다. 상관계수의 값에 따라 두 변수 간의 관계를 다음과 같이 해석할 수 있습니다: +1: 완벽한 양의 상관관계 (두 변수는 동일한 방향으로 완벽히 변화.. 2024. 8. 22. 이전 1 다음 반응형