카테고리 보관물: 컴퓨터언어

데이터 과학을 위한 R과 Python

데이터 과학을 할 때 사용할 컴퓨터 언어로 R이 좋은지 Python이 좋은지에 대한 비교글은 구글 검색을 하면 비교적 많은 자료를 얻을 수 있을 것입니다. 사람들이 논쟁하기에 딱 좋은 주제이기 때문입니다. 어차피 사람마다 차이가 있기 때문에 명확하게 결론을 내기는 어려우니 대충 하기 나름이다라고 하면 욕먹을 일도 없습니다.

그래서 이 주제도 R과 SAS 비교와 같이 결론이 잘 나지 않고 애매모호하게 끝을 맺게 됩니다만.

R은 표준어법에 따르면 “아르”로 읽는 것이 맞습니다. 그래서 글을 쓸때도 “R는”, “R가” 처럼 조사를 맞춰서 써야 하는 것이 맞습니다만 이게 너무 어색해서 그냥 “알”로 하겠습니다.

무엇을 선택하는 것이 유리한가?

데이터사이언스(Data science) 또는 데이터분석( Data Analysis)같은 것을 하려고하는데 아니면 이제 막 시작하려고 하는데 요즘 유행인 R, Python같은 것들 중에서 “무엇을 배워야 하는가? ” 또는 “무엇을 선택해야 나중에 유리한가?”라는 것입니다.

대세는 Python인 것 같은데 Python을 해야 하는지 아니면 좀 더 통계 분석가나 과학자들이 쓸 것 같아 보이는 R을 선택할 것인지 말입니다.

어떤 도구를 선택하느냐에 대해서 물어보면 전문가 또는 경험자들의 대답은 언제나 사용하는 사람에 따라 다르고 환경에 따라 다르다고 합니다. 그게 답이라는 것은 누구나 압니다.

하지만 사람들이 원하는 답은 그것이 아닐 것입니다. 뭔가를 선택하게 해주는 것입니다.

랭귀지를 선택할 때 고려할 것

데이터 분석이나 데이터 과학을 하는데 있어 컴퓨터 랭귀지를 선택할 때 고려할 것들에 대해서 몇가지를 적어봅니다.

  • 범용성이 높은 것을 선택
  • 사람들이 많이 쓰는 것을 선택
  • 가격이 비싸지 않은 것을 선택
  • 쉽게 구할 수 있고 쉽게 사라지지 않을 솔루션을 선택 (의존성이 적은 것을 선택)

범용성이 높다는 것은 여기저기 다양한 용도로 쓸 수 있는가를 말합니다. Python이 범위가 가장 넓고 좋습니다. R은 범용적으로 쓸 수 없는 것은 아니지만 실제로는 통계 또는 데이터분석에만 적합하다고 보는 것이 맞습니다. 사실 R은 범용적으로 쓸 수 없다고 해야 더 정직한 답변일 것입니다.

현재 데이터과학자들이 많이 쓰는 컴퓨터 언어는 Python, R순입니다. SAS나 Julia같은 것도 많이 씁니다만 Julia는 아직 사용자 층이 두텁지 않습니다. 그 외에 다른 일반 컴퓨터 랭귀지는 데이터 분석, 데이터 과학을 하는데 적합하지 않습니다.

그래서 결국 선택할 것은 Python과 R로 좁혀집니다.

결국 이대로라면 Python을 쓰는 것이 좋습니다.

혹시 Java나 C++ 같은 저수준 랭귀지로는 데이터분석이나 데이터과학을 못하는가?

우선 이것부터 얘기하면 컴퓨터 랭귀지 중에 범용성이 가장 좋은 Java, C++, C# 같은 것들을 배우면 Python이나 R을 배우지 않아도 되는것 아닌가? 라는 의문일 것입니다.

결론을 말씀드리면 생산성이 너무 떨어져서 이 언어들로는 데이터 분석이나 데이터 과학을 빠르게 하기 어렵습니다.

못하는 것은 아닙니다만 효율이 떨어집니다.

그래도 저수준에 조금이라도 가까운 것은 Python입니다.

만약 C++를 할 수 있거나 후에 반드시 익히겠다면 R이든 Python이든 뭘 고르더라도 좋습니다. C++로 만든 모듈을 붙여 넣어서 R과 Python을 직접 강화시킬 수 있으니까요.

데이터 과학에서의 R과 Python의 공통점, 차이점, 장단점

대화형 작업의 중요성

대화형 작업(interactive working mode)이란 어떤 분석이나 모델을 만드는 코드를 처음부터 끝까지 다 작성한 후에 일괄 실행하는 것이 아니라 부분부분 완성해 가면서 완성한 부분 또는 일부만 실행해서 그 결과를 계속해서 확인하고 고치는 방식을 말합니다.

데이터 분석과 모델링에서는 이 대화명 작업이 필수입니다. 잘못된 것, 예상한 것과 다르게 된 것, 데이터에 클린징 작업, 모델링 작업은 처음부터 끝까지 주욱 흐름에 따라 코딩하고 한 두번 훑어 보고실행한다고 다 끝나지 않습니다. 계속해서 같은 코드를 반복해서 고치고 수정하고 결과를 보고는 것을 반복해서 보정해 나간 후 최종 완성합니다.

이 작업을 효율적으로 하려면 코드를 분할해서 작성한 부분까지 완성을 하고 다음 부분으로 넘어가는 것을 지원하는 것이 좋습니다.

여기에서는 R의 손을 들어주고 싶습니다.

R과 Python중 하나를 선택

아직도 선택을 못했겠지만 이 2개 중 하나를 선택해야 합니다.

앞서 설명한 바 있습니다만 R과 Python은 둘 다 모두 스크립트(script) 언어이면서 둘다 대화형 언어(Interpretor)이기도 합니다.

스크립트 언어라는 것은 C++이나 Java 처럼 컴파일을 하거나 중간코드를 빌드하지는 않는 것을 말하는 것이고 대화형 언어라는 것은 코드를 입력하고 그 결과를 즉시 확인할 수 있다는 것입니다.

그래서 가능하다면 R과 Python을 둘 다 하는 것이 훨씬 좋습니다. 하지만 R이 PYthon보다는 학습장벽이 매우 높기 때문에 둘 중에 어떤 것을 먼저해야 하냐고 묻는다면 Python을 먼저 선택하는 것이 대체로 유리합니다.

선택할 때 고려할 것

위에서 말씀드린 몇 개의 중요한 항목을

선택을 할 때 이렇게 하시면 됩니다.

  • 앞으로 통계 분석을 더 많이 하게 될 것 같다. R
  • 시각화가 편하고 빠르면 좋겠다. R
  • 일괄 처리 작업이나 텍스트마이닝 같은 처리도 하고 싶다. Python
  • 기계학습 모델을 자주 만들고 많이 만들것 같다. Python
  • 데이터 전처리와 이관, 자동화 같은 것도 해야 한다. Python
  • 최신 통계 패키지가 많아야 한다. R
  • 최신 기계학습 패키지가 많아야 한다. Python
  • 딥러닝을 해야 한다. Python
  • IOT도 해야 한다. Python
  • 시계열 분석, 수리 통계, 금융 분석 이런 고급 통계나 수학과 관련된 것을 할 것이다. R
  • 빅데이터 플랫폼들에 접속해서 비정형 데이터를 가져오거나 처리해야 한다. Python
  • 웹개발도 좀 해야 한다. Python
  • 웹개발도 해야 하지만 위젯 정도나 간단한 시각화 수준이면 된다. R (Shiny가 있으므로)
  • 주로 연구하고 논문쓰는 일을 많이 할 것 같다. R
  • 나는 의사이고 실험을 많이 한다. R
  • 분석 리포트를 많이 쓰거나 논문을 많이 써야 한다. R
  • 바이오인포메틱스이고 유전자 데이터 이런 일과 관련이 있다. Python
  • 클라우드의 자원 활용모 하게될 것 같다. Python

대부분 R과 Python 둘다 가능한 것이지 둘 중에 더 유리한 것 하나를 답으로 했습니다.

자 대체로 PYthon을 선택하면 된다는 쪽으로 보여집니다만 위에 열거한 것들에서 선택된 것의 숫자만 보고 그렇게 판단하시면 안됩니다.

R의 좋은 점

R을 옹호하는 입장이 되서 장점을 어필해보면.

R의 강점은 커뮤니티와 커뮤니티에서 제공되는 패키지가 있습니다. 최신 통계 분석, 알고리즘이나 기법들이 패키지가 가장 빨리 제공되고 있으며 품질도 상당히 좋습니다.

대부분 패키지를 만들어서 제공하시는 분들이 그 분야의 석박사이거나 교수들입니다. 100% 믿을 수 있는 것은 아니지만 보통은 쓰는 사라들보다 그 부분에 대해서는 훨씬 전문적인 분들이라서 믿고 쓸 수 있습니다.

또 패키지가 중앙집중식으로 엄격하게 관리되고 있습니다. 패키지가 등록될 때 절차도 까다롭고 검증도 까다롭습니다. 그래서 패키지가 작동하지 않는다거나 하는일이 거의없고 오래된 패키지들도 비교적 관리가 잘됩니다.

Python의 좋은 점

PYthon을 옹호하는 입장에서 장점을 어필해보면.

쓰는 사람이 워낙 많아서 자료를 구하기 쉽고 샘플 코드를 구하기도 쉽습니다.

랭귀지가 배우기 쉬운 편입니다. 물론 그렇다고 해서 책 한 권 읽고 바로 할 수 있을 만큼 젼짜 쉽다는 얘기는 아닙니다.

그래서 어떻게 뭘 하면 되는데?

“하는 일” 또는 “하려고 하는 일”의 직군이

  • 엔지니어, 개발자 쪽에 가깝다면 Python
  • 분석가, 연구원에 가깝다면 R
  • 과학자는 둘 다 해당됩니다. 둘 다 하면 좋고 둘 중 하나만 해도 됩니다. 적어도 지금은 말이죠.

작성한 코드의 실행 속도 문제

구현체의 성능은 Python이 R보다 빠릅니다. 단순하게 비교할 수는 없지만 작성한 코드의 실행 속도가 대부분 Python이 R보다 빠릅니다.

텍스트 데이터, 음성, 비디오 같은 비정형 처리는 Python도 느립니다만 R은 정말 느립니다. 물론 해결책이 없는 것은 아니지만 이런 것은 순수하게 R로 해결하기 어려운 경우가 많습니다.

물론 코드의 실행 속도가 데이터과학에 가장 중요한 요소는 아닙니다. 그리고 어차피 속도가 요구되는 고속 모듈들은 Python이나 R모두 C++작성된 것을 호출해서 사용하는 방식이 대부분입니다.

R은 편리를 위한 언어이지 처리 속도를 고려한 언어는 아닙니다. 물론 Python도 처리 속도가 빠른 언어가 아닙니다. 계산 속도가 빠른 것도 아닙니다.

계산 속도가 빠른 것은 Julia가 있습니다. 새로운 도전을 좋아하고 이렇 신문물에 선구자로 깃발꽂기를 좋아한다면 Julia를 해보는 것도 좋겠습니다.

Excel, Tableau, SAS, SPSS 같은 것들로는 데이터 과학을 할 수 없는가?

할 수 있습니다.

어떤 종류의 작업에 더 적합하고, 능숙한지에 따라 다릅니다. 중요한 사실은 훈련된 능숙한 데이터 과학자 일수록 사용할 수 있는 랭귀지가 툴이 많다는 것입니다.

데이터 과학은 데이터 과학 도구 사용법을 익히는 것이 아니라 데이터에서 원하는 사실을 찾고 그것을 토대로 좋은 결정을 하기 위해서 필요한 도구는 뭐든 가져다 쓰고 과학적인 결과를 얻어 내는 것입니다.

R과 Python 중 하나를 먼저 배우고 다른 것을 마저 배울때

두 언어는 만들어진 철학이 매우 다릅니다. 그래서 하나를 배우고 나면 다른 하나를 배우기가 어렵습니다. 배울 때나 사용할 때 각각 의 언어에 따라 사용자가 관점을 많이 바꿔야 이해할 수 있는 것들이 많기 때문입니다.

즉, 하나를 배우고 다른 하나를 배울 때 이점이 별로 없습니다. 오히려 방해가 될 수 있습니다.

그래서 R과 Python을 둘 다 배우는 것은 매우 어렵습니다.

Fatal Python error: _PySys_BeginInit: can't initialize sys module

Linux에서 Python을 소스코드로 빌드해서 설치하려고 할 때 위와 같은 메시지가 보이면서 빌드가 안될때가 있습니다.

원인은 랭귀지 설정이나 환경설정이 빌드에 맞지 않기 때문에 발생하는 것인데 일일히 원인을 찾아서 해결하기가 매우 번거롭습니다. 로케일 설정(locale)같은 것이나 몇개를 수정하면 된다는 글을 찾아 볼 수 있지만 생각만큼 잘 되지 않고 많은 시간을 허비해야 합니다.

가장 간단한 해결책은 root로 로그인 또는 su로 root 전환을 해서 빌드하면 됩니다. 빌드할 때 sudo를 사용해도 잘 되지 않으므로 확실하게 root로 로그인해서 빌드하면 됩니다.

Python 소스 컴파일에서 Error in `python': corrupted size vs. prev_size 에러

리눅스에 문제가 있거나 너무 오래된 버전의 리눅스 배포판을 사용할 때 Python source를 다운로드 받아서 빌드해야 하는 경우가 있습니다

이때 configure를 실행한 뒤 make 를 실행하면 다음과 같은 에러가 나올 수 있습니다.

Error in `python': corrupted size vs. prev_size

해결책은 다음과 같이 하면 됩니다.

sudo apt-get install libtcmalloc-minimal4
export LD_PRELOAD="/usr/lib/libtcmalloc_minimal.so.4"

Ubuntu 14.04에 Python 3.7 설치하기

오래된 Ubuntu 14.04에 Python 3.7을 설치할 때 필요한 간단한 절차입니다. 이 글을 쓰는 시점에서의 최신 Ubuntu 18.04이고 곧 20.04 버전이 나올 예정입니다.

그리고 현재 Python은 3.7.x가 최신 버전인데 Ubuntu 14.04에는 3.6.x가 설치되어 있고 14.04에 3.7.x는 그냥은 설치되지 않습니다.

3.6.x를 그냥 쓰면 되지 않겠냐고 하겠지만 3.6과 3.7은 마이너 버전 하나의 차이로 보이지만 실제로는 많은 부분에서 차이가 있습니다. 성능, 보안, 문법과 같은 것들입니다. 최신 패키지들도 3.6에서는 오작동하는 사례가 많습니다.
3.7을 설치해서 사용하는 것이 좋습니다.

sudo apt update  # 깨끗하게 한번 apt 정보 갱신
sudo apt install software-properties-common  # add-apt-repository 명령어를 설치하기 위한 것
sudo add-apt-repository ppa:deadsnakes/ppa  # 레파지토리를 등록합니다.
sudo apt update  # apt에 정보를 업데이트합니다.
sudo apt install python3.7  # python 3.7을 설치합니다.

DiagrammeR – R 다이어그램 그리기

R 패키지중에 DiagrammeR라는 다이어그램(diagram)을 그릴 수 있게 해주는 것이 있습니다. 다이어그램은 플로우차트(flow chart), 간트 차트(gantt chart), 시퀀스 다이어그램 (sequence diagram)같은 것입니다.

RStudio의 DiagrammeR 스크린샷

다이어그램을 그릴 때 쓰는 도구는 Visio (Windows 쓰시는 분들) 아니면 OmniGraffle (Mac 쓰시는 분들) 아니면 PowerPoint 와 같이 손으로 그리는 것들이 있고 GraphViz 또는 Mermaid와 같이 정해진 문법을 텍스트로 입력하면 해석해서 시각적으로 표현해주는 도구가 있습니다.

DiagrammeR는 GraphViz와 Mermaid를 묶어서 연동해 놓은 패키지인데 3가지 방식으로 그래프를 그리게 해줍니다.

  1. Mermaid 문법을 텍스트로 입력한 후 텍스트를 해석해서 렌더링
  2. GraphViz 문법을 텍스트로 입력한 후 텍스트를 해석해서 렌더링
  3. R함수를 사용해서 노드와 엣지를 구성하고 렌더링

패키지를 사용하던 중 GraphViz는 원래 C로 만들어진 binary이므로 R에서 연동해서 사용할 수 있습니다만 Mermaid는 Javascript로 만들어져서 이 두가지를 어떻게 한꺼번에 연동해서 그래프를 시각적으로 표현하게 했는지 갑자기 궁금했습니다.
그래서 살펴봤더니 GraphViz.js와 Mermaid.js를 가져다 연동한 것이고 렌더링된 결과를 표현할 때는 htmlwidgets 패키지를 사용하는 것입니다.
그러니까 결국 웹브라우저를 열고 Javascript를 이용해서 렌더링하는 방식입니다.

그래서 R-GUI에서 렌더링을 하게 되면 웹브라우저가 열립니다.  RStudio에서 렌더링을 시도하면 연동이 되어서 웹브라우저가 실행되지 않고 그래프 패널에 바로 렌더링된 결과를 표현해 줍니다.  위에 넣어 놓은 스크린샷 이미지에서 확인할 수 있습니다.

앞서 말한 렌더링을 하는 세가지 방식중에 Mermaid 문법을 사용하는 것과 GraphViz 문법을 사용하는 것은  RStudio에 연동되어서 파일을 편집할 수 있게 제공하고 있기때문에 R 코드에서 DiamgrammeR 패키지를 로딩할 일이 없게 만들기도 합니다.

RStudio는 DiagrammeR를 연동해서 .mmd 확장자를 가지는 Mermaid 파일과 .dot 확장자를 가지는 Graphviz dot 파일을 바로 편집하고 코드 하일라이트도 되고 렌더링할 수 있도록 해줍니다.
아래의 링크에서 내용을 확인할 수 있습니다.

https://blog.rstudio.com/2015/05/01/rstudio-v0-99-preview-graphviz-and-diagrammer/

위의 3가지 방식 중 2가지는 앞서 말씀드린 것 처럼 RStudio와 연동으로 인해 DiagrammeR 패키지의 함수를 사용할 일이 없게 만들지만  DiagrammeR 함수를 이용한 방식의 렌더링을 사용하면 data.frame에 있는 데이터를 연동해서 그래프를 그릴 수 있습니다. 이게 가장 큰 장점이지요.

아래는 각각의 방법으로 만든 간단한 장난감 예제입니다. 

Mermaid 문법을 이용한 렌더링

Mermaid 문법을 이용한 예제입니다.

library(DiagrammeR)

DiagrammeR('
graph LR
subgraph ""
   N01[H] --- N02
   N02[E] --- N03
   N03[L] --- N04
   N04[L] --- N05
   N05[O] --- N06
   N06[!]
end
N06 --> N07
subgraph ""
   N07((M)) --- N08
   N08((E)) --- N09
   N09((R)) --- N10
   N10((M)) --- N11
   N11((A)) --- N12
   N12((I)) --- N13
   N13((D))
end

classDef box1 color:white,fill:#eee,stroke:#000,stroke-width:5px 
classDef box2 color:white,fill:#fff,stroke:#33d,stroke-width:5px

class N01,N02,N03,N04,N05,N06 box1
class N07,N08,N09,N10,N11,N12,N13 box2

linkStyle 0 stroke:#ddd,stroke-width:20px
linkStyle 1 stroke:#ddd,stroke-width:20px
linkStyle 2 stroke:#ddd,stroke-width:20px
linkStyle 3 stroke:#ddd,stroke-width:20px
linkStyle 4 stroke:#ddd,stroke-width:20px

linkStyle 6  stroke:#99d,stroke-width:20px
linkStyle 7  stroke:#99d,stroke-width:20px
linkStyle 8  stroke:#99d,stroke-width:20px
linkStyle 9  stroke:#99d,stroke-width:20px
linkStyle 10 stroke:#99d,stroke-width:20px
linkStyle 11 stroke:#99d,stroke-width:20px
')

GraphViz 문법을 이용한 렌더링

GraphViz 문법을 이용한 예제입니다.

grViz('
digraph boxes_and_circles {
  graph [overlap = true, fontsize = 12]
  rankdir="LR"

  subgraph cluster_2 {
    node [shape = circle,
      fixedsize = true,
      width = 0.9]
      color=none
      rank=same
      N07[label="G"]
      N08[label="R"]
      N09[label="A"]
      N10[label="P"]
      N11[label="H"]
      N12[label="V"]
      N13[label="I"]
      N14[label="Z"]
      N07->N08->N09->N10->N11->N12->N13->N14
      }
      
  
  subgraph cluster_1 {
    node [shape = box,
          fontname = Helvetica]
  	color=none
    rank=same
    N01[label="H"]
    N02[label="E"]
    N03[label="L"]
    N04[label="L"]
    N05[label="O"]
    N06[label="!"]
    N01->N02->N03->N04->N05->N06
  }
}
')

GrammerR의 R 함수를 이용한 렌더링

전통적인 스타일의 R 함수를 사용한 예제입니다. 아래의 함수들은 DiagrammeR 최신 패키지를 설치해야만 됩니다. 최근에 함수 이름에 변화가 있었던 모양입니다.

library(DiagrammeR)

nodes <-
  create_node_df(
    n = 7,
    type = "number")

edges <-
  create_edge_df(
    from = c(1, 1, 1, 1, 1, 1),
    to = c(2, 3, 4, 5, 6, 7),
    rel = "related")

graph <-
  create_graph(
    nodes_df = nodes,
    edges_df = edges)

render_graph(graph)

dplyr와 연동한 DiagrammeR

역시 RStudio에서 만은 부분을 기여한 패키지인 만큼 dplyr 스타일의 매우 스타일리쉬한 파이프라인 형태의 코딩도 지원합니다.

library(DiagrammeR)

example_graph <-
  create_graph() %>%
  add_pa_graph(
    n = 50,
    m = 1,
    set_seed = 23) %>%
  add_gnp_graph(
    n = 50,
    p = 1/100,
    set_seed = 23) %>%
  join_node_attrs(
    df = get_betweenness(.)) %>%
  join_node_attrs(
    df = get_degree_total(.)) %>%
  colorize_node_attrs(
    node_attr_from = total_degree,
    node_attr_to = fillcolor,
    palette = "Greens",
    alpha = 90) %>%
  rescale_node_attrs(
    node_attr_from = betweenness,
    to_lower_bound = 0.5,
    to_upper_bound = 1.0,
    node_attr_to = height) %>%
  select_nodes_by_id(
    nodes = get_articulation_points(.)) %>%
  set_node_attrs_ws(
    node_attr = peripheries,
    value = 2) %>%
  set_node_attrs_ws(
    node_attr = penwidth,
    value = 3) %>%
  clear_selection() %>%
  set_node_attr_to_display(
    attr = NULL)
#> `select_nodes_by_id()` INFO: created a new selection of 34 nodes
#> `clear_selection()` INFO: cleared an existing selection of 34 nodes
example_graph %>%
  render_graph(layout = "nicely")

추가로 네트워크 분석 관련 패키지인 igraph에서 생성한 객체를 DiagrammeR 형태로 변환하는 함수들도 제공합니다.  사용해 보지는 않았습니다. ^^;