Data mining 기법
- classification : *decision Tree, random forest, naive bayer, *suppost vactor machine, *artificial Neural network
- clustering
- Association role discovery
- regression
Data란?
information about study(data mining) participants
Attributes의 종류
Attributes = variable 중 성격,속성 이 초점인 것
- Nominal : 분리형(=categorical)
- Ordinal : 순서형
- interval : 일반적으로 쓰이는 숫자
- Ratio : 0, 분수형태로 표현가능, 가장유연
Discrete Attribute : 이산형 ex)나이 0 , 1, 2의 속성들 사이에 값이 없음
Continuous Attribute : 연속형 ex) 0, 0.1, 0.0001, ... , 0.99999 , 1처럼 0과1사이에 값이 무수히 많음.
Record : 기록을 모아둔 데이터
Data quality problem의 종류
-Noise and Outliers
-Outliers : 평균값과의 차이가 커서 평균값의 오차를 만드는 값
순서형 변수에선 답변이 한쪽에 몰릴 수 있는 경향이 있음.
-Missing values : 측정값이 없는 값
중위수나 평균값으로 체우거나, 결집체가 작으면 참여자를 지워버림. 단, 지운뒤에도 충분한 참여자가 있어야함.
-Duplicate data : 데이터가 모자라면 데이터를 복사하여 사용.
type of sampling
-simple random sampling : 샘플을 랜덤으로 뽑음
-sampling without replacement : 샘플링을 여러번 할때 한번 사용한 대상은 다시 대상이 될수 없음.
-sampling with replacement : 사용한 대상도 다시사용 가능
-stratified sampling : 구역을 나눠서 각 구역별로 랜덤샘플링을 함.
sample size : 변수 1개당 최소 10건의 데이터가 필요
Principle Component Analysis
두개 이상 차원의 관련정보를 가장 적은 차원관련 정보로 변환해줌