데이터분석/TIL

240614 TIL

Freely_ 2024. 6. 14. 17:15
728x90
반응형

ADsP

 

데이터마트

데이터 웨어하우스로부터 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스


데이터 전처리

요약변수 - 원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수

파생변수 - 의미(목적)를 부여한 변수


데이터 탐색

탐색적 데이터 분석(EDA) Exploratory Data Analysis

데이터의 대략적인 특성을 파악하고 의미 있는 관계를 찾아내기 위해 다각도로 접근하는 것

 

 

결측값 (Missing data)
결측값 대치 방법
- 단순 대치법 (Single Imputation)

결측값이 존재하는 데이터를 삭제
- 평균 대치법 (Mean Imputation)

데이터의 평균으로 결측값을 대치

- 단순 확률 대치법 -K군집(KNN)

- 다중대치법


이상값 (Outlier)

이상값 판단 방법
- ESD (Extreme Studentized Deviation)

평균으로부터 3 표준편차 만큼 떨어진 값을 이상값으로 인식

전체 데이터의 0.3퍼센트를 이상값으로 구분
- 사분위수

IQR (Interquartile Range)

1분위 수(Q1)부터 3분위 수(Q3)까지의 범위

Q1 - 1.5 X IQR(하한 최솟값) 보다 작거나 Q3 + 1.5 IQR(상한 최댓값)보다 큰 값을 이상값으로 간주


모집단
통계 자료 획득 방법
- 전수조사 (Census)
- 표본조사 (Sample)


표본추출 방법
- 단순 랜덤 추출법 (simple random sampling)
- 계통 추출법 (systematic sampling)
- 집락(군집) 추출법 (cluster sampling)
- 층화 추출법 (stratified sampling)

비례 층화 추출법, 불비례 층화 추출법


척도 구분

- 명목척도

측정 대상이 어느 집단에 속하는지 분류

 

- 순서척도(서열척도)

측정 대상의 특성이 가지는 서열 관계를 관측하는 척도

 

- 구간척도(등간척도)

측정 대상이 갖고 있는 속성의 양을 측정, 두 구간 사이의 간격이 의미가 있는 자료

 

- 비율척도

절대적 기준인 0값이 존재하고 모든 사칙연산 가능


기술 통계 (Descriptive Statistic)

얻어진 데이터에서 특징을 뽑아내기 위한 기술

 

추리 통계/통계적 추론 (Inference Statistics)


독립사건

두 사건이 서로 영향을 미치지 않음

 

배반사건

두 사건 A와 B가 동시에 발생할 수 없는 경우

확률변수

어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과를 수치적 값으로 표현하는 변수


확률분포
이산확률분포
-베르누이 분포 (Bernoulli Distribution)

확률 변수가 0 또는 1 두개의 결과만 갖는 분포


-이항분포 (Binomial Distribution)

n번의 베르누이 시행에서 k번 성공할 확률의 분포


-기하분포 (Geometric Distribution)

성공 확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 k번 실패할 확률


-다항분포 (Multinomial Distribution)

n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률 분포


-포아송 분포 (Poisson Distribution)

시간과 공간 내에서 발생하는 사건의 발생 획수에 대한 확률 분포

728x90
반응형