본문 바로가기
반응형

전체글153

[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Line Similarity (라인 유사성), Trellis 활용 1. 데이터셋 살펴보기 데이터셋은 2023년 서울 아파트 매매 실거래가 데이터를 사용했습니다.   2. Line Chart Visualization 위 데이터를 가지고 Line Chart를 그렸습니다. X축은 예약년월로 했으며, Y축은 단지명을 이용해 UniqueCount를 사용하여, 해당 계약일에 계약건수를 확인할 수 있도록 했습니다. Line과 Color 구분은 "시군구" 칼럼을 사용했습니다.  2023년 계약건수 중 가장 눈에 띄는 "노원구 상계동"과 가장 유사한 지역을 찾아보겠습니다.  3. Line Similarity3.1. Marking 된 Line을 기준으로 유사성 판단 Tools > Line similarity 클릭, 위에서 노원구 상계동을 마킹한 상태로 들어오면 자동 지정되어 있음. 결과.. 2024. 9. 1.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 유형에 따른 분석 기법 1. 데이터셋 준비 이번 데이터셋은 다양한 유형이 있는 데이터 셋으로 준비했습니다. 쇼핑몰별 고객들에 관한 데이터셋입니다.  https://www.kaggle.com/datasets/mehmettahiraslan/customer-shopping-dataset?resource=download Customer Shopping Dataset - Retail Sales DataExploring Market Basket Analysis in Istanbul Retail Datawww.kaggle.com 2. 데이터셋 살펴보기 데이터셋은 총 99457행으로 이루어져 있으며, 칼럼은 10개로 숫자형 칼럼과 범주형 칼럼이 섞여있습니다. 대표적인 숫자형 컬럼은 나이와, 물건구매수량, 물건 가격이며, 범주형 칼럼으로는 성.. 2024. 8. 31.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Dendrogram 숫자형 Vs 숫자형 3. 1. 계층적 군집 분석의 기본 개념 계층적 군집 분석(Hierarchical Clustering)은 데이터 포인트들 간의 유사성 또는 거리를 기반으로 데이터를 계층적으로 그룹화하는 방법입니다. 이 기법은 탑다운 방식(Divisive, 분할법) 또는 바텀업 방식(Agglomerative, 집합법)으로 수행될 수 있습니다.탑다운 방식: 전체 데이터를 하나의 큰 군집으로 보고, 점차 분할하여 개별 데이터 포인트로 나뉩니다.바텀업 방식: 모든 데이터 포인트를 각각 하나의 군집으로 시작하고, 가장 유사한 것들끼리 병합해 나가면서 하나의 큰 군집으로 합쳐집니다. Spotfire에서 주로 사용하는 방식은 바텀업 방식입니다. 2. 계층적 군집 방법의 종류군집 비교 방법군집 간 거리 정의 방식장점단점★평균 연결법(Ave.. 2024. 8. 30.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Heat map 숫자형 Vs 숫자형 2. 1. 전체 상관관계 분석Data Relationships 이전에 했던 상관관계 분석은 종속변수 mpg(연비)에 대해서 다른 integer 항목들과의 상관관계를 살펴봤습니다.이번에는 종속변수와, 독립변수를 1:1로 매칭시켜서 상관관계를 Heat map 형태로 확인해 보겠습니다.위와 같이 종속변수 Y칸에도 mpg 이외 항목도 전부 추가, 독립변수 X칸에도 mpg를 추가.2. Heat map 생성 아래와 같이 Heat map을 3개 생성했습니다. X축에는 X값, Y축에는 Y값, Cell Value 값에는 각각 p-value, R값, R^2 값을 넣었습니다. p-value는 모두 매우 작은 값이 나왔으며, 이는 상관관계가 있음을 확인했습니다. (인관관계는 증명 X) R값에 경우는 음/양 의 상관관계를 확인하기 .. 2024. 8. 29.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 선형회귀 (Linear Regression) 숫자형 Vs 숫자형 1. 1. Auto-MPG 데이터셋Auto-MPG 데이터 분석 리포트 https://www.kaggle.com/datasets/uciml/autompg-dataset?resource=download Auto-mpg datasetMileage per gallon performances of various carswww.kaggle.com 이 리포트는 Auto-MPG 데이터셋을 기반으로 한 분석 결과를 요약한 것입니다. Auto-MPG 데이터셋은 1970년대와 1980년대 초에 미국에서 판매된 자동차의 연비(MPG, Miles Per Gallon)와 관련된 다양한 변수들을 포함하고 있습니다. 이 데이터셋은 차량 성능과 연비 간의 관계를 분석하는 데 유용하며, 총 398개의 레코드와 9개의 변수를 포함하고 있습니다.. 2024. 8. 28.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 1. Box plot 만들기 2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - 산점도, 3D 산점도, 회귀선1. 데이터 추출산점도 데이터 시각화에서는 가장 많이 사용하는 bmi 데이터셋을 가지고 해 보겠습니다.임의로 chat GPT에게 1000명의 bmi 데이터를 만들어달라고 요청했습니다. 2. 산점도 만들기 (키informyun.com 2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가) [데이터 시각화] Spotfire로 데이터 시각화 해보기.. 2024. 8. 27.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - 데이터의 종류 살펴보기 데이터는 다양한 형태로 존재하며, 이를 이해하기 위해 데이터의 유형을 분류하는 것이 중요합니다. 데이터의 주요 유형에는 연속형 자료, 이산형 자료, 순위형 자료, 명목형 자료가 있습니다. 각 유형의 특징과 예시는 다음과 같습니다.  1. 연속형 자료 (Continuous Data)특징연속형 자료는 특정 범위 내에서 무한히 많은 값을 가질 수 있는 데이터입니다. 이는 보통 실수(real number)로 표현되며, 측정 단위에 따라 소수점까지 포함할 수 있습니다. 연속형 자료는 주로 물리적, 시간적, 양적 측정에서 나타납니다. 두 점 사이에 존재하는 값들을 포함할 수 있으며, 변수가 정해진 범위 내에서 모든 값을 취할 수 있습니다. 예시키 : 160.5 cm, 175.3 cm 등과 같이 측정된 키는 특정 범.. 2024. 8. 26.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot이란?(실습데이터 추가) 1. Box plot의 구성 요소2024.08.21 - [데이터 공부/데이터 시각화] - [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습 [데이터 시각화] Spotfire로 데이터 시각화 해보기 - Box plot 실습1. Box plot 만들기 데이터는 이전 포스팅 첨부파일에 있던 bmi 데이터를 활용해서 만들어 보겠습니다.bmi 데이터로 box plot 차트를 생성하면 기본적으로 아래와 같이 생성되는 모습을 확인할 수 있informyun.com 상자(Box)중앙값(Median): 상자의 내부에 있는 가로선으로, 데이터의 중앙값을 나타냅니다. 데이터셋을 정렬했을 때 전체 값의 중간에 위치한 값입니다.1 사분위수(Q1): 상자의 하단 경계선으로, 데이터의 하위 25% 지.. 2024. 8. 25.
[데이터 시각화] Spotfire로 데이터 시각화 해보기 - F검정과 t검정의 목적과 차이점 F검정과 t검정의 차이점1. 목적F검정: 주로 두 개 이상의 집단 간의 분산 비교를 위해 사용됩니다. 분산분석(ANOVA)에서 집단 간의 평균 차이를 평가할 때도 사용됩니다. 예를 들어, 두 교육 프로그램의 효과를 비교할 때 각 프로그램의 성적 분산이 동일한지 평가합니다. t검정: 두 집단 간의 평균 차이를 비교하는 데 사용됩니다. 독립 표본 t검정(두 개의 독립적인 집단 간 비교)과 대응 표본 t검정(같은 집단에서 시간에 따른 변화 또는 쌍으로 된 데이터의 비교)으로 나뉩니다. 예를 들어, 신약과 기존 약물의 평균 효과 차이를 비교하는 데 사용됩니다.  2. 검정 대상F검정: 두 집단 간 또는 다수의 집단 간 분산의 차이를 검정합니다. 예를 들어, 서로 다른 세 그룹의 성적 변동성을 비교합니다.t검정:.. 2024. 8. 24.
반응형

loading