각종 도구로 선형회귀(Linear Regression)해보기

오다카 토모히로의 만들면서 배우는 기계학습에 나오는 예제를 여러가지 도구로 각각 간단히 선형회귀(Linear regression)을 하는 방법을 적어봅니다.
(이 정도는 뭐로 하든 한가지만 잘해도 충분한겠습니다만)
선형회귀는 간단히 설명하면 독립변수 X에 대한 종속변수 Y의 값들을 이용해 제곱합이 최소가 되도록 하는 1차식을 도출하는 방법입니다.
예측을 하거나 추이를 살펴보기 위한 방법으로 가장 쉬운 방법 중 하나인데
보통 입력값은 X값들, Y값들이고 출력은 절편(Intercept)과 기울기(Slope)이고 추가로 몇가지를 더 도출할 수도 있습니다.
최소자승법으로 결과를 구하기 위해서 1차식을 제곱합을 구하는 것으로 바꾼다음 각 항을 편미분해서 나온 식에 입력값들을 대입해서 절편과 기울기를 구하게 됩니다.
식은 구글에서 검색해 보시거나 책들을 참조하시면 되겠습니다.

C로 하는 Linear Regression

C로 구현한 예제는 scanf를 이용해서 입력값을 키보드로 입력받고 절편과 기울기로 바로 출력하는 간단한 예제입니다.
아래에 있는 코드는 책에 있는 예제 그대로입니다.
[github_cv url=”https://github.com/euriion/TomorrowWorks/blob/master/snippets/lsm/lsm.c”]

실행을 하고 아래와 같이 진행합니다.

/* 입력 값들은 이렇게 넣고 구분은 X값과 Y값의 구분은 TAB으로 합니다.*/
// 1 2.1
// 3 3.7
// 2.5 3.4
// 3.9 3.1
/* 출력된 결과 입니다. */
// 2.010294
// 0.409502

R코드 및 플로팅

R은 이런 것은 너무 쉽습니다.
간단하게 패키지를 이용합니다.
요점은 데이터를 data.frame으로 만들어주고 lm을 이용해서 모델을 구한 뒤 화면에 결과를 출력하고 plotting 해버리면 끝입니다.
물론 plotting은 더 미려하게 할 수 있습니다만 정성과 시간이 필요합니다.
[github_cv url=”https://github.com/euriion/TomorrowWorks/blob/master/snippets/lsm/lsm.R”]

R 플로팅 결과입니다.
r_plot_lsm

Excel로 하는 선형회귀

Excel도 이런 간단한 것은 무척 쉽습니다.
값들을 sheet에 입력하고 마우스로 scatter plot을 차트에서 선택해서 quick chart를 선택하면 추이선이 그대로 그려집니다.
차트의 옵션에서 display equation을 선택하면 절편과 기울기까지 차트에 표시됩니다.
물론 절편과 기울기만 따로 구해서 식을 재적용하게 할 수 있겠지만 그렇게 하려면 조금 복잡해 집니다.
lsm.xlsx

Datagraph로 선형회귀하기

Datagraph는 Mac에서 사용하는 작은 graphing 툴입니다. 가벼우면서도 싸고 괜찮고 아주 유용한 툴입니다.
Datagraph로 하는 방법은 엑셀과 비슷할 것인데 엑셀보다는 더 쉽습니다.
Datagraph에서는 data를 입력한 후 scatter plot을 그리고 fit function으로 linear를 선택해서 넣으면 그대로 나옵니다.

fit function에서 절편과 기울기가 구해져 있는 것을 알 수 있습니다.
다른 그래프 툴에서도 비슷할 것이라고 생각됩니다.

lsm.dgraph

Python으로 선형회귀하기

Python으로 하는 방법은 직접구하는 방법과 공학용 패키지인 scipy를 이용하는 방법이 있는데 이 scipy라는 패키지가 설치하기가 무척 어렵습니다.
scipy가 제가 사용하는 mac에 잘 설치가 되지 않아서 코드를 테스트를 해보지는 못했고 대략 아래와 같이 구하게 될 것 같습니다.
복잡하지 않습니다.
[github_cv url=”https://github.com/euriion/TomorrowWorks/blob/master/snippets/lsm/lsm.py”]

댓글 남기기