의사결정트리(Decision Tree)
의사결정트리(Decision Tree) 정의
결정 트리(decision tree)는 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다.
결정 트는 운용 과학, 그 중에서도 의사 결정 분석에서 목표에 가장 가까운 결과를 낼 수 있는 전략을 찾기 위해 주로 사용된다.
의사결정트리(Decision Tree) 알고리즘
결정 트리를 구성하는 알고리즘에는 주로 하향식 기법이 사용되며, 각 진행 단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택된다.
서로 다른 알고리즘들은 ”분할의 적합성"을 측정하는 각자의 기준이 있다.
이러한 기준들은 보통 부분 집합 안에서의 목표 변수의 동질성을 측정하며, 아래는 그 예시들이다.
이 기준들은 가능한 데이터 집합 분할의 경우의 수마다 적용되며, 그 결과 값들은 병합되어, 즉 평균 값이 계산되어, 데이터 집합의 분할이 얼마나 ”적합한지" 측정하는데 사용된다.
Decision Tree algorithm
(Decision Tree) 강점
결과를 해석하고 이해하기 쉽다.
자료를 가공할 필요가 거의 없다.
수치 자료와 범주 자료 모두에 적용할 수 있다.
화이트박스 모델을 사용한다.
안정적이다.
대규모의 데이터 셋에서도 잘 동작한다.
의사결정트리(Decision Tree)의 약점
각 노드에서의 최적값을 찾아내는 탐욕 알고리즘 같은 휴리스틱 기법법을 기반으로 하고 있어 최적 결정 트리를 알아낸다고 보장할 수는 없다.
훈련 데이터를 제대로 일반화하지 못할 경우 너무 복잡한 결정 트리를 만들 수 있다.
배타적 논리합이나 패리티,멀티플렉서와 같은 문제를 학습하기 어렵다.
약간의 차이에 따라 트리의 모양이 많이 달라질 수 있다.
'딥러닝 스터디' 카테고리의 다른 글
06.랜덤포레스트(RandomForest) in R (0) | 2017.06.10 |
---|---|
05.의사결정트리(Decision Tree) in R (2) (2) | 2017.04.15 |
04.의사결정트리(Decision Tree) in R (1) (0) | 2017.04.15 |
02.데이터마이닝(Data Mining)기법 (0) | 2017.03.08 |
01.데이터 마이닝(data mining) 이란? (0) | 2017.03.07 |