아직 어려움 ㅋㅋㅋ


선형 회귀


종속변수Y와설명변수집합X1, X2, ..., Xp사이의관계를선형으로가정하고이를가장잘설명할수있는회귀계수(regression coefficients)를추정


데이터 탐색 목적 뿐만 아니라 예측을 위해서도 사용됨


전진 선택법

- 많은 것에서 줄여감

후진 소거법

- 적은 것에서 추가해감

단계적 선택법

- 변수의 개수를 줄였다 늘렸다 하면서 최적의 개수를 선택한다.

중복된 변수 제거가 중요하다.


최소 자승법을 이용해서 coefficient 찾는 법

데이터 전처리 - 문자로 된 것을 숫자로 변경해서 처리함

p-value : ??


성능 평가 방법 

데이터를 받으면 70%는 training data로 사용하고 

30%는 validation data로 사용함


R실습

full_model <- lm(Price ~ ., data = trn_data)

Price ~ : Price가 타겟변수이고 나머지는 설명변수로 한다.
# Split the data into the training/validation sets
trn_idx <- sample(1:nCar, round(0.7*nCar))
trn_data <- mlr_data[trn_idx,]
val_data <- mlr_data[-trn_idx,]

sample : random 하는 함수


선형 회귀 기본 함수를 사용할 수 있다.

lm 이용


# 검증 데이터에 대한 각 변수선택 결과의 예측 정확도 비교

full_haty <- predict(full_model, newdata = val_data)




신고

'R Programming > Machine Learning in Action' 카테고리의 다른 글

2일차 선형 회귀 실습  (2) 2016.05.23
Posted by 공놀이나하여보세


티스토리 툴바