728x90

Data mining 기법

 

- classification : *decision Tree, random forest, naive bayer, *suppost vactor machine, *artificial Neural network

      - clustering

      - Association role discovery

      - regression

 

Data?

 

 information about study(data mining) participants

 

 

 

 

Attributes의 종류

 

Attributes = variable 중 성격,속성 이 초점인 것

 

       - Nominal : 분리형(=categorical)

           - Ordinal : 순서형

           - interval : 일반적으로 쓰이는 숫자

           - Ratio : 0, 분수형태로 표현가능, 가장유연

 

 

Discrete Attribute : 이산형 ex)나이 0 , 1, 2의 속성들 사이에 값이 없음

Continuous Attribute : 연속형 ex) 0, 0.1, 0.0001, ... , 0.99999 , 1처럼 01사이에 값이 무수히 많음.

Record : 기록을 모아둔 데이터

 

 

 

 

 

Data quality problem의 종류

 

           -Noise and Outliers

           -Outliers : 평균값과의 차이가 커서 평균값의 오차를 만드는 값

           순서형 변수에선 답변이 한쪽에 몰릴 수 있는 경향이 있음.

           -Missing values : 측정값이 없는 값

중위수나 평균값으로 체우거나, 결집체가 작으면 참여자를 지워버림. , 지운뒤에도 충분한 참여자가 있어야함.

           -Duplicate data : 데이터가 모자라면 데이터를 복사하여 사용.

 

 

 

 

 

type of sampling

          

-simple random sampling : 샘플을 랜덤으로 뽑음

-sampling without replacement : 샘플링을 여러번 할때 한번 사용한 대상은 다시 대상이 될수 없음.

           -sampling with replacement : 사용한 대상도 다시사용 가능

           -stratified sampling : 구역을 나눠서 각 구역별로 랜덤샘플링을 함.

          

sample size : 변수 1개당 최소 10건의 데이터가 필요

 

 

 

 

 

Principle Component Analysis

 

두개 이상 차원의 관련정보를 가장 적은 차원관련 정보로 변환해줌

 

+ Recent posts