728x90

R언어

-통계분석과 자료의 시각화를 위한 공개용 소프트웨어

 

 

R의 특징

- 객체지향 언어

- 고속 메모리 처리

- 다양한 자료구조

- 최신 패키지 제공

- 시각화

 

 

패키지

- R에서는 data set, function, Algorithm등이 하나의 꾸러미 형태로 제공되어 누구든지 무료로 사용 할 수 있어, R언어가 교육업계나 산업형장 그리고 데이터 분석가와 일반 사용자까지 지속적으로 관힘을 받을 수 있는 매우 큰 장점을 지니고 있다.

 

- 아래의 형식으로 패키지를 설치하고 불러와 사용 할 수 있다.

 

 

변수

-변수의 첫 자는 영문자로 시작하고, 다음부턴 숫자,콤마,점,언더바를 사용할수 있다.

- 아래와 같이 변수를 사용 할 수 있으며, 자바나 c언어처럼 자료형을 따로 선언해 줄 필요가 없다. 

 

 

자료형

- numeric : 정수,실수 (ex. 123, 123.1)

- character : 문자,문자열 (ex. "홍길동")

- logical : 참,거짓 (

ex. TRUE, FALSE)

- 결측치 : 값이 없음, NA

 

자료구조

- vector : 연석된 선형구조의 형태로 index를통해 접근가능 (자바의 array와 비슷 하지만 index가 1부터 시작), 동일한 타입의 데이터만 저장가능

- matrix : 2차원의 배열구조를 갖는다. 동일한 타읩의 데이터만 저장가능

- list : 서로 다른 자료구조를 중첩하여 객채를 생성하는 자료구조.

        c언어의 구조체와 비슷하며, key와 value값을 한 쌍으로 갖는다.

- data.frame : 열 단위로 서로 다른 자료형을 포함할 수 있다.

 벡터와 행렬을 이용하여 데이터프레임 객체를 생성할 수 있다.

728x90

Data mining 기법

 

- classification : *decision Tree, random forest, naive bayer, *suppost vactor machine, *artificial Neural network

      - clustering

      - Association role discovery

      - regression

 

Data?

 

 information about study(data mining) participants

 

 

 

 

Attributes의 종류

 

Attributes = variable 중 성격,속성 이 초점인 것

 

       - Nominal : 분리형(=categorical)

           - Ordinal : 순서형

           - interval : 일반적으로 쓰이는 숫자

           - Ratio : 0, 분수형태로 표현가능, 가장유연

 

 

Discrete Attribute : 이산형 ex)나이 0 , 1, 2의 속성들 사이에 값이 없음

Continuous Attribute : 연속형 ex) 0, 0.1, 0.0001, ... , 0.99999 , 1처럼 01사이에 값이 무수히 많음.

Record : 기록을 모아둔 데이터

 

 

 

 

 

Data quality problem의 종류

 

           -Noise and Outliers

           -Outliers : 평균값과의 차이가 커서 평균값의 오차를 만드는 값

           순서형 변수에선 답변이 한쪽에 몰릴 수 있는 경향이 있음.

           -Missing values : 측정값이 없는 값

중위수나 평균값으로 체우거나, 결집체가 작으면 참여자를 지워버림. , 지운뒤에도 충분한 참여자가 있어야함.

           -Duplicate data : 데이터가 모자라면 데이터를 복사하여 사용.

 

 

 

 

 

type of sampling

          

-simple random sampling : 샘플을 랜덤으로 뽑음

-sampling without replacement : 샘플링을 여러번 할때 한번 사용한 대상은 다시 대상이 될수 없음.

           -sampling with replacement : 사용한 대상도 다시사용 가능

           -stratified sampling : 구역을 나눠서 각 구역별로 랜덤샘플링을 함.

          

sample size : 변수 1개당 최소 10건의 데이터가 필요

 

 

 

 

 

Principle Component Analysis

 

두개 이상 차원의 관련정보를 가장 적은 차원관련 정보로 변환해줌

 

728x90

데이터 마이닝(Data mining) 이란?

기존 데이터 셋을 사용하여 학습, 비즈니스 또는 정부 목적으로 예측 모델을 구축 및 평가하는 것.

 

 기존 데이터 셋은     1. Training set (build)      을 포함한다.

                                  2. Test set (evaluating)

                                  3. Target variable

 

 

 

다음은 기존 데이터 셋으로 Target variable의 알 수 없는 값을 예측하는 과정이다.

1. Training Set(아주 많은 데이터)을 사용하여 Learn classifier를 만든다.

2. learn classifier로 예측한 예측연봉과 Test set(많지 않은 데이터)에있는 연봉을 비교하여 오차값을 구한다.

3. 여러 Training Set을 사용하여 오차값이 가장 작은 모델을 적용하여 Target variable의 모르는 값을 도출한다.

 

 

+ Recent posts