728x90
데이터 마이닝(Data mining) 이란?
기존 데이터 셋을 사용하여 학습, 비즈니스 또는 정부 목적으로 예측 모델을 구축 및 평가하는 것.
기존 데이터 셋은 1. Training set (build) 을 포함한다.
2. Test set (evaluating)
3. Target variable
다음은 기존 데이터 셋으로 Target variable의 알 수 없는 값을 예측하는 과정이다.
1. Training Set(아주 많은 데이터)을 사용하여 Learn classifier를 만든다.
2. learn classifier로 예측한 예측연봉과 Test set(많지 않은 데이터)에있는 연봉을 비교하여 오차값을 구한다.
3. 여러 Training Set을 사용하여 오차값이 가장 작은 모델을 적용하여 Target variable의 모르는 값을 도출한다.
'딥러닝 스터디' 카테고리의 다른 글
06.랜덤포레스트(RandomForest) in R (0) | 2017.06.10 |
---|---|
05.의사결정트리(Decision Tree) in R (2) (2) | 2017.04.15 |
04.의사결정트리(Decision Tree) in R (1) (0) | 2017.04.15 |
03. 의사결정트리(Decision Tree) 란? (0) | 2017.03.19 |
02.데이터마이닝(Data Mining)기법 (0) | 2017.03.08 |