728x90

02.R 언어 기본문법(집합, matrix, data frame)

 

R을 사용하는데 있어서, 데이터를 삽입하고 수정을 하는 간단한 문법과 조작법을 배워보겠습니다.

 

 

1. 변수를 선언하고 데이터를 삽입하기

 

 

 

2. 두 변수값의 합집합, 차집합, 교집합 구하기

 

union()

setdiff()

intersect()

 

 

 

3.행렬만들고 합치기

 

matrix()

rbind()

cbind()

 

4.data frame만들고 병합하기

 

data.frame()

subset()

merge()

 

728x90

의사결정트리(Decision Tree)




의사결정트리(Decision Tree) 정의

결정 트리(decision tree) 의사 결정 규칙과 결과들을 트리 구조 도식화한 의사 결정 지원 도구의 일종이다

결정 트는 운용 과학, 중에서도 의사 결정 분석에서 목표에 가장 가까운 결과를 있는 전략을 찾기 위해 주로 사용된다.



                                                 의사결정트리(Decision Tree) 알고리즘                                                                         

결정 트리를 구성하는 알고리즘에는 주로 하향식 기법이 사용되며, 진행 단계에서는 주어진 데이터 집합을 가장 적합한 기준으로 분할하는 변수값이 선택된다. 

서로 다른 알고리즘들은분할의 적합성" 측정하는 각자의 기준이 있다.

이러한 기준들은 보통 부분 집합 안에서의 목표 변수의 동질성을 측정하며, 아래는 예시들이다.

기준들은 가능한 데이터 집합 분할의 경우의 수마다 적용되며, 결과 값들은 병합되어, 평균 값이 계산되어, 데이터 집합의 분할이 얼마나적합한지" 측정하는데 사용된다.

 

Decision Tree algorithm


(Decision Tree) 강점


결과를 해석하고 이해하기 쉽다.

자료를 가공할 필요가 거의 없다.

수치 자료와 범주 자료 모두에 적용할 수 있다.

화이트박스 모델을 사용한다.

안정적이다.

대규모의 데이터 셋에서도 잘 동작한다.



의사결정트리(Decision Tree)의 약점


각 노드에서의 최적값을 찾아내는 탐욕 알고리즘 같은 휴리스틱 기법법을 기반으로 하고 있어 최적 결정 트리를 알아낸다고 보장할 수는 없다.

훈련 데이터를 제대로 일반화하지 못할 경우 너무 복잡한 결정 트리를 만들 수 있다.

배타적 논리합이나 패리티,멀티플렉서와 같은 문제를 학습하기 어렵다.

약간의 차이에 따라 트리의 모양이 많이 달라질 수 있다.

 

728x90

R언어

-통계분석과 자료의 시각화를 위한 공개용 소프트웨어

 

 

R의 특징

- 객체지향 언어

- 고속 메모리 처리

- 다양한 자료구조

- 최신 패키지 제공

- 시각화

 

 

패키지

- R에서는 data set, function, Algorithm등이 하나의 꾸러미 형태로 제공되어 누구든지 무료로 사용 할 수 있어, R언어가 교육업계나 산업형장 그리고 데이터 분석가와 일반 사용자까지 지속적으로 관힘을 받을 수 있는 매우 큰 장점을 지니고 있다.

 

- 아래의 형식으로 패키지를 설치하고 불러와 사용 할 수 있다.

 

 

변수

-변수의 첫 자는 영문자로 시작하고, 다음부턴 숫자,콤마,점,언더바를 사용할수 있다.

- 아래와 같이 변수를 사용 할 수 있으며, 자바나 c언어처럼 자료형을 따로 선언해 줄 필요가 없다. 

 

 

자료형

- numeric : 정수,실수 (ex. 123, 123.1)

- character : 문자,문자열 (ex. "홍길동")

- logical : 참,거짓 (

ex. TRUE, FALSE)

- 결측치 : 값이 없음, NA

 

자료구조

- vector : 연석된 선형구조의 형태로 index를통해 접근가능 (자바의 array와 비슷 하지만 index가 1부터 시작), 동일한 타입의 데이터만 저장가능

- matrix : 2차원의 배열구조를 갖는다. 동일한 타읩의 데이터만 저장가능

- list : 서로 다른 자료구조를 중첩하여 객채를 생성하는 자료구조.

        c언어의 구조체와 비슷하며, key와 value값을 한 쌍으로 갖는다.

- data.frame : 열 단위로 서로 다른 자료형을 포함할 수 있다.

 벡터와 행렬을 이용하여 데이터프레임 객체를 생성할 수 있다.

728x90

Data mining 기법

 

- classification : *decision Tree, random forest, naive bayer, *suppost vactor machine, *artificial Neural network

      - clustering

      - Association role discovery

      - regression

 

Data?

 

 information about study(data mining) participants

 

 

 

 

Attributes의 종류

 

Attributes = variable 중 성격,속성 이 초점인 것

 

       - Nominal : 분리형(=categorical)

           - Ordinal : 순서형

           - interval : 일반적으로 쓰이는 숫자

           - Ratio : 0, 분수형태로 표현가능, 가장유연

 

 

Discrete Attribute : 이산형 ex)나이 0 , 1, 2의 속성들 사이에 값이 없음

Continuous Attribute : 연속형 ex) 0, 0.1, 0.0001, ... , 0.99999 , 1처럼 01사이에 값이 무수히 많음.

Record : 기록을 모아둔 데이터

 

 

 

 

 

Data quality problem의 종류

 

           -Noise and Outliers

           -Outliers : 평균값과의 차이가 커서 평균값의 오차를 만드는 값

           순서형 변수에선 답변이 한쪽에 몰릴 수 있는 경향이 있음.

           -Missing values : 측정값이 없는 값

중위수나 평균값으로 체우거나, 결집체가 작으면 참여자를 지워버림. , 지운뒤에도 충분한 참여자가 있어야함.

           -Duplicate data : 데이터가 모자라면 데이터를 복사하여 사용.

 

 

 

 

 

type of sampling

          

-simple random sampling : 샘플을 랜덤으로 뽑음

-sampling without replacement : 샘플링을 여러번 할때 한번 사용한 대상은 다시 대상이 될수 없음.

           -sampling with replacement : 사용한 대상도 다시사용 가능

           -stratified sampling : 구역을 나눠서 각 구역별로 랜덤샘플링을 함.

          

sample size : 변수 1개당 최소 10건의 데이터가 필요

 

 

 

 

 

Principle Component Analysis

 

두개 이상 차원의 관련정보를 가장 적은 차원관련 정보로 변환해줌

 

+ Recent posts