02.데이터마이닝(Data Mining)기법

HongSamm 2017. 3. 8. 21:18

2017. 3. 8. 21:18

728x90

Data mining 기법

- classification : *decision Tree, random forest, naive bayer, *suppost vactor machine, *artificial Neural network

- clustering

- Association role discovery

- regression

Data란?

information about study(data mining) participants

Attributes의 종류

Attributes = variable 중 성격,속성 이 초점인 것

- Nominal : 분리형(=categorical)

- Ordinal : 순서형

- interval : 일반적으로 쓰이는 숫자

- Ratio : 0, 분수형태로 표현가능, 가장유연

Discrete Attribute : 이산형 ex)나이 0 , 1, 2의 속성들 사이에 값이 없음

Continuous Attribute : 연속형 ex) 0, 0.1, 0.0001, ... , 0.99999 , 1처럼 0과1사이에 값이 무수히 많음.

Record : 기록을 모아둔 데이터

Data quality problem의 종류

-Noise and Outliers

-Outliers : 평균값과의 차이가 커서 평균값의 오차를 만드는 값

순서형 변수에선 답변이 한쪽에 몰릴 수 있는 경향이 있음.

-Missing values : 측정값이 없는 값

중위수나 평균값으로 체우거나, 결집체가 작으면 참여자를 지워버림. 단, 지운뒤에도 충분한 참여자가 있어야함.

-Duplicate data : 데이터가 모자라면 데이터를 복사하여 사용.

type of sampling

-simple random sampling : 샘플을 랜덤으로 뽑음

-sampling without replacement : 샘플링을 여러번 할때 한번 사용한 대상은 다시 대상이 될수 없음.

-sampling with replacement : 사용한 대상도 다시사용 가능

-stratified sampling : 구역을 나눠서 각 구역별로 랜덤샘플링을 함.

sample size : 변수 1개당 최소 10건의 데이터가 필요

Principle Component Analysis

두개 이상 차원의 관련정보를 가장 적은 차원관련 정보로 변환해줌

홍쌈's