무료 책 – R 패키지 제작 방법

R패키지는 만드는 것이 까다롭습니다.

패키지를 코딩해서 만드는 것도 어렵지만 CRAN에 등록할 때 어려운 점이 많습니다.

R패키지를 만들때 어려운 점

  • 여러가지 제약 사항과 고려 사항을 미리 처리해 둬야 해서 경험이 많아야 함
  • CRAN의 관리자에게서 잦은 지적사항과 관리자의 고압적인 지시사항으로 인한 스트레스와 감정 소포

R패키지를 만들어서 혼자만 쓰거나 특정 그룹 또는 회사내에서만 쓰는 것이면 CRAN에 등록하지 않아도 됩니다.

하지만 예전부터 R패키지를 만드는 사람들은 명예의 징표처럼 만든 패키지를 CRAN에 등록하는것이 목표이며 자랑거리로 생각해 왔습니다.

CRAN에 등록하기 전에 패키지를 만드는 법을 배우려면 공부가 필요합니다.

그래서 소개해 드릴 책은해들리 위캠이 쓴 R 패키지 책입니다. 온라인 버전은 무료입니다. 해들리 위캠 교수는 ggplot2를 만든 R언어의 대스타입니다.

https://r-pkgs.org/

이 책은 R언어로 패키지를 만들 때 알아야 할 내용을 간결하게 설명하고 있습니다.

R 패키지 제작에 관심이 있다면 읽기를 추천합니다.

영어로 작성되어 있어 영어 울렁증이 있다며 안 볼 수도 있지만 크롬에서 열어서 한글 번역 버튼을 눌러서 보면 내용을 그럭저럭 볼 수 있습니다. 요즘 구글 번역기가 정말 많이 좋아졌다고 생각합니다. 영어에 자신이 없어도 시도해 보세요.

빅데이터는 사기?

“빅데이터는 사기다”라고 구체적인 근거없이 맹목적으로 비난하는 분이 많아서 이 글을 포스팅합니다.

두괄식으로 말하면

빅데이터는 그 자체로는 사기가 아닙니다.

빅데이터로 사기를 치면 그게 사기이지요

빅데이터는 사기라고 말하는 사람이 많습니다. 실제 현장의 실정을 알기 때문에 이런 말 을 하는 분들이 무슨 뜻으로 하는 얘기인지 이해가 됩니다만 하지만 그렇다고 해서 그 모든 것이 다 사실이 아니거나 너무 왜곡하는 경향도 많습니다.

빅데이터가 사기라고 말하는 이유는 아마도

다음과 같이 일을 처리했거나 그걸 옆에서 지켜본 뒤의 경험을 얘기했을 것입니다.

  • 빅데이터 프로젝트 또는 PoC를 진행 했는데 뭘 했는지 모를 결과가 나왔을 때
  • 빅데이터의 성과보다는 ”빅데이터 프로젝트”라는것을 해보고 싶은 목적으로 프로젝트를 진행했을때
  • 할일이 없어서 “이거라도 해보자고 하자”라고 막연히 진행했을 때
  • 예산과 리소스를 사용하고도 실제로 비즈니스나 매출에 영향이 전혀 없을 때

빅데이터는 과정 또는 수단이지 결과가 아니다.

빅데이터 자체가 목표인 비즈니스는 빅데이터 플랫폼, 솔루션을 판매하거나 기술지원 상품을 판매하는 회사가 아니라면 많은 회사들에게 빅데이터는 “수단”입니다.

대부분의 회사, 연구소에게 빅데이터는 목표가 아닙니다. 차분히 새각해보면 그런 말이 많이 이상하다는 생각에 동의하실 것입니다.

빅데이터의 가장 활용도는 빅데이터를 이용해서 비즈니스를 개선하거나, 비즈니스 아이템을 발굴하거나, 비즈니스에 중요한 결정을 하는데 필요한 데이터를 처리하고 인사이트를 찾는 것을 돕는 것입니다.

디때 데이터 사이즈가 작고 처리하기 어렵지 않으면 그냥 통계분석이나 데이터과학이 되는 것이고 데이터 사이즈가 매우 크고 처리량도 많고 일도 많다면 빅데이터 분석, 빅데이터를 사용한 데이터 과학이 되는 것입니다.

물론 잘 아시다시피 인공지능, 기계학습에 필요한 데이터를 처리하는데도 빅데이터가 필요합니다.

빅데이터 그거 해봤는데 결과가 안좋드라.

어느날 대형 이커머스 A사와 미팅에 들어갔는데 빅데이터 해봤더니 결과가 안좋아서 우리는 사기라고 생각한다고 하더군요.

그래서 무슨 결과가 어떻게 안 좋았냐고 물었습니다. 담당자가 그냥 밑도끝도 없이 좋은 결과가 안 나왔다는 말만 되풀이하는 것이었습니다.

이 회사 뿐만은 아니고 다른 회사들과 비팅에서도 다수가 비슷한 반응이었습니다. 넘겨짚어 해석을 해보면 대부분 다음과 같은 이유입니다. 사실은 결정권자 진행자 들이 빅데이터 자체를 못마땅해 하는 것입니다.

그냥 하기 싫은 것이지요.

  1. 회사의 매출에 도움이 되는 전술을 빅데이터 프로젝트로 도출을 못했다. 즉 사업개선 아이템이나 사업확장 아이템을 못 내놨다.
  2. 인프라로 구축한 빅데이터가 돈만 쓰고 매출이나 이익을 올리는데 기여를 못한다. 돈만쓰고 돈을 못벌었다.
  3. 기술우위를 논할만큼 대단한 기술이 아니다.
  4. PoC를 했는데 결과물(산출물)이 소프트웨어가 아니고 문서쪼가리다.

이 외에도 더 많습니다만 위의 것만 하나씩 대답을 해보자면

1번 회사의 매출은 경영진이 책임져야지

회사의 매출을 올리는 것은 영업, 기획, 마케팅, 경영진이 하는겁니다. 빅데이터는 과학적 근거를 찾거나 인사이트를 찾는데 사용하는 도구입니다. 빅데이터가 그걸 해주면 그 회사 대표이사와 기획부서는 왜 필요한가요?

2번 인프라인데 돈만 쓰고 나오는게 없어

그럼 회사에서 사용하는 데이터베이스, 더존 회계, IT지원부서, 인사팀 사람들은 왜 필요한가요?

인프라는 효율을 위해서 필요한거지 당장의 매출을 올리려고 하는 것이 아닙니다.

이 질문 하는 사람들은 99%가 기술이나 생산부서 사람들입니다.

3번 그게 뭐 대단한 기술인가?

태초에는 대단한 기술이었지만 지그은 그렇게 대단한 기술이 아닌 것은 사실입니다. 누구나 다 하니까요.

그렇다고해서 전혀 쓸모 없는 것은 아닙니다. 여러분이 사용하는 대부분의 최신 데이터 처리, 분석 시스템은 빅데이터 플랫폼입니다.

4번 빅데이터를 했으면 어떻게 작동하는지 보여줘봐

대부분의 빅데이터 프로젝트는 빅데이터 플랫폼 도입 아니면 인사이트 도출입니다.

플랫폼 도입는 PoC를 해서 요건은 만족하면 도입하는 것이고 안시이트 도출은 인사이트가 나올 수도 있고 안나올 수도 있고 나왔는데 뻔한 것일 수도 있습니다.

빅데이터 프로젝트는 대부분 소프트웨어 개발이 아닙니다.

빅데이터 사기란 무엇인가?

”빅데이터를 하면 무조건 회사 매출이 오르고 주식이 2배로 뜁니다.” 라고 말하면 사기입니다.

대부분 그렇게 말하지 않지요. 진짜 사기꾼이라도 그렇게는 말 안합니다.

사기는 사기 행위가 드러나야 사기인 것입니다. 자기 마음에 들지 않거나 자기가 프로젝트에서 소외되고 회사가 헛돈 쓰는 것 같아서 마음에 들지 않는다고 사기라고 말하는 것도 올바른 생각은 아닙니다.

“빅데이터라는사탕발림으로 경영진과 결정권자를 홀려서 눈먼 돈을 뜯어간 것이 아니냐?” 라고 물을 수도 있을 것입니다.

이럿게 되물을 수 있습니다.

  • 그렇다면 대부분의 경영 컨설턴트들은 그렇지 않단 말입니까? 그들도 말로 사탕발림하는 것은 똑같지 않습니까?
  • 그렇다손 치더라도 과연 경영진과 결정권자들이 그걸 몰랐을까요? 그렇게 멍청할까요?

대부부 이 질문에 대한 답을 하지 못합니다.

빅데이터는 사기다라고 말하는 사람의 두 부류

두 부류입니다.

  • 빅데이터를 전혀 모르는 사람
  • 빅데이터를 너무 잘하는 사람

개인적인 통계를 내보면 99%가 빅데이터를 전혀 모르는 사람입니다.

옆에서 지켜보는 것이 전부는 아니라는 말을 해두고 싶습니다.

특히 소프트웨어 개발자들은 데이터 활용에 대해서 무지한 사람이 매우 많습니다. 본인들은 이런 말을 들으면 매우 불쾌해 하지만 현실은 그렇습니다.

그 사람들은 데이터과학자들이 자신들보다 높은 급여를 받으며 결정권자와 친밀하고 말로 자신들을 압도하는 것에 대해서 매우 불편해 합니다.

경험으로 볼 때 보통 빅데이터는 사기다라고 말하는 사람들의 90%가 개발자들이고 나머지 10% 자기가 할 일이 늘어나는 일하기 싫어하는 회사 직원들입니다.

구글 빅쿼리 – Google BigQuery

빅쿼리 BigQuery를 짤막한 문장으로 쉽게 설명해 봤습니다.

개념

  • 구글이 만들어서 제공하는 서비스입니다.
  • 유료입니다.
  • 데이터베이스라고 이해하면 됩니다.
  • 빅데이터 플랫폼입니다.
  • SQL 언어를 사용해서 사용할 수 있습니다. (이름에 Query가 들어간 것을 볼 수 있음)
  • 초대량 데이터 분석용 솔루션입니다.
  • 실시간 데이터베이스 솔루션은 아닙니다. 하지만 실시간 지원을 일부 합니다.
  • BI/DW의 엔진으로 많이 씁니다.

요금

  • 사용료는 종량제와 정량제로 나눌 수 있는데 기본은 종량제 즉 쓰는 만큼 지불합니다.
  • 데이터를 스캔한 만큼. 즉, 스토리지에서 빅쿼리가 데이터를 읽은 만큼 과금합니다. 1Tb를 읽어들이게 하면 5달러정도의 요금을 지불
  • 합니다.

누가 쓰나?

  • 데이터 과학자 Data Scientist
  • 데이터 분석가 Data Analyst
  • 데이터 엔지니어 Data Engineer

좋은점

  • 많은 사용자들이 빅쿼리 데이터 집계나 처리가 매우 빠르다고 말합니다. 하둡, 스파트 등의 다른 빅데이터 플랫폼에 비해서 말입니다.
  • 쓰는 만큼만 요금을 내면 됩니다.

나쁜점

  • 아무생각없이 쓰면 요금이 매우 많이 나올 수도 있습니다. 1회 쿼리에 수십만원에서 수백만원을 쓰는 경우도 있습니다.
  • 사용법 및 다루는 법이 어렵지는 않지만 훈련과 연습이 필요합니다.

그외에

  • 대부분의 데이터과학자가 선호하는 솔루션입니다.
  • 데이터 엔지니어들은 좋아하는 사람과 싫어하는 사람들이 반반정도 되는 것 같습니다.

Python 에러 해결 – TypeError: a bytes-like object is required, not ‘str’

이 에러는 아는 사람에게는 너무 쉽고 해결하기에 간단한 것이지만 모르면 삽질하기 쉬운 에러입니다.

참고를 위해서 포스팅합니다.

파이썬에서 문자열을 다루다 보면 이런 에러가 나올 때가 있습니다.

TypeError: a bytes-like object is required, not ‘str’

이 에러는 사용하려고 하는 곳에는 bytes-likes 오브젝트가 필요하니 str 타입을 넣지 말고 bytes 타입의 변수를 넣으라는 뜻입니다.

즉 bytes 타입의 변수를 전달해줘야 하는 곳에 str 타입을 줬기 때문입니다.

이 에러는 DB나 다른 플랫폼, 시스템에서 당겨온 데이터안의 문자열을 처리하다보면 만날 때가 있습니다.

bytes와 str은 다음과 같은 관계가 있습니다. 바꾸는 방법입니다.

  • str –> 디코딩 –> bytes
  • bytes –> 인코딩 –> str

코드로 바꾸면 이렇게 하면 됩니다.

text = "안녕"  # text는 str이 됩니다.
text_byte = text.encode('utf-8')
text_str = text_byte.decode('utf-8')

에러메세지에 bytes라는 단어가 보이면 대부분 문자열 인코딩, 디코딩과 관련이 있을 것이라고 기억하면 됩니다.

VS code나 Pycharm 같은 개발툴에서 지원하는 힌트를 보고 어떤 타입의 변수가 필요한지 확인하고 적절한 에러를 처리해 주는 것도 좋은 습관입니다.

리눅스에서 코맨드라인으로 구글 드라이브 사용하기 – Using Google Drive in command-line

리눅스에서 구글드라이브를 사용하는 방법입니다.

리눅스에서 구글드라이브를 사용하려면 여러가지 방법을 쓸 수 있지만 이 글에서는 GUI나 네트워크드라이브 마운트 방식이 아닌 코맨드라인(command line) 명령어를 사용하는 방법입니다.

즉 리눅스 서버에서 Google Drive를 연결해서 파일을 업로드하거나 다운로드 하기위한 것입니다.

리눅스에서 Google Drive를 사용하는데는 여러 용도가 있습니다.

용도

배치 프로세싱

구글 드라이브에서 데이터를 받아서 AI/기계학습 모델을 만들때 씁니다. 학습 데이터는 대부분 용량이 큽니다.

만들어진 추출된 데이터를 누군가에게 전달해야 할 때 씁니다. 데이터 분석을 위해서 추출한 데이터 중에 사이즈가 상당히 큰 것도 있습니다. 이걸 리눅스 서버에서 처리한 뒤에 결과물을 업로드할 때 씁니다.

데이터 백업을 잠시 할 때도 씁니다. 물론 더 안전하고 괜찮은 데이터 백업 방법이 많이 있습니다만 임시 작업이나 급한 작업을 할 때는 꽤 유용합니다.

설치

gdrive 다운로드받기

코맨드라인에서 쓸 수 있는 구글드라이브 공식패키지는 없습니다.

대신 아래의 github에서 받으면 됩니다.
https://github.com/prasmussen/gdrive

실행파일은 위의 페이지를 읽다보면 밑의 페이지로 이동해서 받으라고 합니다. 적당한 것을 받습니다.

https://github.com/prasmussen/gdrive/releases

저는 vm을 사용하기 때문에 32bit 버전을 받습니다. vm들이 보통 32bit OS이기 때문입니다. 64bit라면라면 AMD64가 이름에 포함된 것을 받으세요. 만약 실행이 안되면 32bit버전을 64bit os에서 그냥 쓰셔도 됩니다. 그리고 압축을 풀고 나온 gdrive실행파일을 /usr/local/bin 아래로 옮겨줍니다.

wget https://github.com/prasmussen/gdrive/releases/download/2.1.1/gdrive_2.1.1_linux_386.tar.gz

구글 인증하고 백업 파일을 업로드하기

이제 gdrive 실행을 해봅니다.
먼저 구글드라이브에 있는 파일 리스트를 봅니다.

gdrive list

Google 인증을 하라는 메세지가 나오게 됩니다.

Authentication needed# Go to the following url in your browser:# https://accounts.google.com/o/oauth2/auth?access_type=offline&client_id=367116221053-7n0vf5akeru7on6o2fjinrecpdoe99eg.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&response_type=code&scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive&state=state

웹브라우저를 실행하고 위에서 나온 URL을 주소창에 붙이고 인증을 합니다. 그러면 아래처럼 코드를 줍니다. 코드를 다시 코맨드 창으로 돌아와서 붙여 넣으면 됩니다.

이제 파일을 구글 드라이브에 폴더를 만들어서 백업해 봅니다.

gdrive mkdir __백업
# Directory 1l0nTwWhHSONxltMbplI9XEhR2TxnPf45 created

디렉토리를 생성하고 디렉토리 아이디를 알려주는데 업로드할 때 폴더명을 사용하지 않고 디렉토리ID를 사용하므로 저것을 복사해 둡니다. 나중에 gdrive list 코맨드로 알아낼 수도 있습니다.

아래와 같이 파일을 업로드 하면 됩니다. backup.tgz이라는 파일을 “__백업”이라는 구글드라이브 폴더에 업로드하는 것입니다.

gdrive upload --parent 1l0nTwWhHSONxltMbplI9XEhR2TxnPf45 backup.tgz

참조

Using Google Drive from the Linux Command Line