240614 TIL
ADsP
데이터마트
데이터 웨어하우스로부터 데이터들을 주제별, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
데이터 전처리
요약변수 - 원래 데이터로부터 기본적인 통계 자료를 추출한 데이터 마트에서 가장 기본적인 변수
파생변수 - 의미(목적)를 부여한 변수
데이터 탐색
탐색적 데이터 분석(EDA) Exploratory Data Analysis
데이터의 대략적인 특성을 파악하고 의미 있는 관계를 찾아내기 위해 다각도로 접근하는 것
결측값 (Missing data)
결측값 대치 방법
- 단순 대치법 (Single Imputation)
결측값이 존재하는 데이터를 삭제
- 평균 대치법 (Mean Imputation)
데이터의 평균으로 결측값을 대치
- 단순 확률 대치법 -K군집(KNN)
- 다중대치법
이상값 (Outlier)
이상값 판단 방법
- ESD (Extreme Studentized Deviation)
평균으로부터 3 표준편차 만큼 떨어진 값을 이상값으로 인식
전체 데이터의 0.3퍼센트를 이상값으로 구분
- 사분위수
IQR (Interquartile Range)
1분위 수(Q1)부터 3분위 수(Q3)까지의 범위
Q1 - 1.5 X IQR(하한 최솟값) 보다 작거나 Q3 + 1.5 IQR(상한 최댓값)보다 큰 값을 이상값으로 간주
모집단
통계 자료 획득 방법
- 전수조사 (Census)
- 표본조사 (Sample)
표본추출 방법
- 단순 랜덤 추출법 (simple random sampling)
- 계통 추출법 (systematic sampling)
- 집락(군집) 추출법 (cluster sampling)
- 층화 추출법 (stratified sampling)
비례 층화 추출법, 불비례 층화 추출법
척도 구분
- 명목척도
측정 대상이 어느 집단에 속하는지 분류
- 순서척도(서열척도)
측정 대상의 특성이 가지는 서열 관계를 관측하는 척도
- 구간척도(등간척도)
측정 대상이 갖고 있는 속성의 양을 측정, 두 구간 사이의 간격이 의미가 있는 자료
- 비율척도
절대적 기준인 0값이 존재하고 모든 사칙연산 가능
기술 통계 (Descriptive Statistic)
얻어진 데이터에서 특징을 뽑아내기 위한 기술
추리 통계/통계적 추론 (Inference Statistics)
독립사건
두 사건이 서로 영향을 미치지 않음
배반사건
두 사건 A와 B가 동시에 발생할 수 없는 경우
확률변수
어떤 확률 실험이나 상황에서 발생할 수 있는 각각의 결과를 수치적 값으로 표현하는 변수
확률분포
이산확률분포
-베르누이 분포 (Bernoulli Distribution)
확률 변수가 0 또는 1 두개의 결과만 갖는 분포
-이항분포 (Binomial Distribution)
n번의 베르누이 시행에서 k번 성공할 확률의 분포
-기하분포 (Geometric Distribution)
성공 확률이 p인 베르누이 시행에서 첫 번째 성공이 있기까지 k번 실패할 확률
-다항분포 (Multinomial Distribution)
n번의 시행에서 각 시행이 3개 이상의 결과를 가질 수 있는 확률 분포
-포아송 분포 (Poisson Distribution)
시간과 공간 내에서 발생하는 사건의 발생 획수에 대한 확률 분포