728x90

데이터 마이닝(Data mining) 이란?

기존 데이터 셋을 사용하여 학습, 비즈니스 또는 정부 목적으로 예측 모델을 구축 및 평가하는 것.

 

 기존 데이터 셋은     1. Training set (build)      을 포함한다.

                                  2. Test set (evaluating)

                                  3. Target variable

 

 

 

다음은 기존 데이터 셋으로 Target variable의 알 수 없는 값을 예측하는 과정이다.

1. Training Set(아주 많은 데이터)을 사용하여 Learn classifier를 만든다.

2. learn classifier로 예측한 예측연봉과 Test set(많지 않은 데이터)에있는 연봉을 비교하여 오차값을 구한다.

3. 여러 Training Set을 사용하여 오차값이 가장 작은 모델을 적용하여 Target variable의 모르는 값을 도출한다.

 

 

+ Recent posts