Hong의 모든 글

구글 빅쿼리 – Google BigQuery

빅쿼리 BigQuery를 짤막한 문장으로 쉽게 설명해 봤습니다.

개념

  • 구글이 만들어서 제공하는 서비스입니다.
  • 유료입니다.
  • 데이터베이스라고 이해하면 됩니다.
  • 빅데이터 플랫폼입니다.
  • SQL 언어를 사용해서 사용할 수 있습니다. (이름에 Query가 들어간 것을 볼 수 있음)
  • 초대량 데이터 분석용 솔루션입니다.
  • 실시간 데이터베이스 솔루션은 아닙니다. 하지만 실시간 지원을 일부 합니다.
  • BI/DW의 엔진으로 많이 씁니다.

요금

  • 사용료는 종량제와 정량제로 나눌 수 있는데 기본은 종량제 즉 쓰는 만큼 지불합니다.
  • 데이터를 스캔한 만큼. 즉, 스토리지에서 빅쿼리가 데이터를 읽은 만큼 과금합니다. 1Tb를 읽어들이게 하면 5달러정도의 요금을 지불
  • 합니다.

누가 쓰나?

  • 데이터 과학자 Data Scientist
  • 데이터 분석가 Data Analyst
  • 데이터 엔지니어 Data Engineer

좋은점

  • 많은 사용자들이 빅쿼리 데이터 집계나 처리가 매우 빠르다고 말합니다. 하둡, 스파트 등의 다른 빅데이터 플랫폼에 비해서 말입니다.
  • 쓰는 만큼만 요금을 내면 됩니다.

나쁜점

  • 아무생각없이 쓰면 요금이 매우 많이 나올 수도 있습니다. 1회 쿼리에 수십만원에서 수백만원을 쓰는 경우도 있습니다.
  • 사용법 및 다루는 법이 어렵지는 않지만 훈련과 연습이 필요합니다.

그외에

  • 대부분의 데이터과학자가 선호하는 솔루션입니다.
  • 데이터 엔지니어들은 좋아하는 사람과 싫어하는 사람들이 반반정도 되는 것 같습니다.

Python 에러 해결 – TypeError: a bytes-like object is required, not ‘str’

이 에러는 아는 사람에게는 너무 쉽고 해결하기에 간단한 것이지만 모르면 삽질하기 쉬운 에러입니다.

참고를 위해서 포스팅합니다.

파이썬에서 문자열을 다루다 보면 이런 에러가 나올 때가 있습니다.

TypeError: a bytes-like object is required, not ‘str’

이 에러는 사용하려고 하는 곳에는 bytes-likes 오브젝트가 필요하니 str 타입을 넣지 말고 bytes 타입의 변수를 넣으라는 뜻입니다.

즉 bytes 타입의 변수를 전달해줘야 하는 곳에 str 타입을 줬기 때문입니다.

이 에러는 DB나 다른 플랫폼, 시스템에서 당겨온 데이터안의 문자열을 처리하다보면 만날 때가 있습니다.

bytes와 str은 다음과 같은 관계가 있습니다. 바꾸는 방법입니다.

  • str –> 디코딩 –> bytes
  • bytes –> 인코딩 –> str

코드로 바꾸면 이렇게 하면 됩니다.

text = "안녕"  # text는 str이 됩니다.
text_byte = text.encode('utf-8')
text_str = text_byte.decode('utf-8')

에러메세지에 bytes라는 단어가 보이면 대부분 문자열 인코딩, 디코딩과 관련이 있을 것이라고 기억하면 됩니다.

VS code나 Pycharm 같은 개발툴에서 지원하는 힌트를 보고 어떤 타입의 변수가 필요한지 확인하고 적절한 에러를 처리해 주는 것도 좋은 습관입니다.

리눅스에서 코맨드라인으로 구글 드라이브 사용하기 – Using Google Drive in command-line

리눅스에서 구글드라이브를 사용하는 방법입니다.

리눅스에서 구글드라이브를 사용하려면 여러가지 방법을 쓸 수 있지만 이 글에서는 GUI나 네트워크드라이브 마운트 방식이 아닌 코맨드라인(command line) 명령어를 사용하는 방법입니다.

즉 리눅스 서버에서 Google Drive를 연결해서 파일을 업로드하거나 다운로드 하기위한 것입니다.

리눅스에서 Google Drive를 사용하는데는 여러 용도가 있습니다.

용도

배치 프로세싱

구글 드라이브에서 데이터를 받아서 AI/기계학습 모델을 만들때 씁니다. 학습 데이터는 대부분 용량이 큽니다.

만들어진 추출된 데이터를 누군가에게 전달해야 할 때 씁니다. 데이터 분석을 위해서 추출한 데이터 중에 사이즈가 상당히 큰 것도 있습니다. 이걸 리눅스 서버에서 처리한 뒤에 결과물을 업로드할 때 씁니다.

데이터 백업을 잠시 할 때도 씁니다. 물론 더 안전하고 괜찮은 데이터 백업 방법이 많이 있습니다만 임시 작업이나 급한 작업을 할 때는 꽤 유용합니다.

설치

gdrive 다운로드받기

코맨드라인에서 쓸 수 있는 구글드라이브 공식패키지는 없습니다.

대신 아래의 github에서 받으면 됩니다.
https://github.com/prasmussen/gdrive

실행파일은 위의 페이지를 읽다보면 밑의 페이지로 이동해서 받으라고 합니다. 적당한 것을 받습니다.

https://github.com/prasmussen/gdrive/releases

저는 vm을 사용하기 때문에 32bit 버전을 받습니다. vm들이 보통 32bit OS이기 때문입니다. 64bit라면라면 AMD64가 이름에 포함된 것을 받으세요. 만약 실행이 안되면 32bit버전을 64bit os에서 그냥 쓰셔도 됩니다. 그리고 압축을 풀고 나온 gdrive실행파일을 /usr/local/bin 아래로 옮겨줍니다.

wget https://github.com/prasmussen/gdrive/releases/download/2.1.1/gdrive_2.1.1_linux_386.tar.gz

구글 인증하고 백업 파일을 업로드하기

이제 gdrive 실행을 해봅니다.
먼저 구글드라이브에 있는 파일 리스트를 봅니다.

gdrive list

Google 인증을 하라는 메세지가 나오게 됩니다.

Authentication needed# Go to the following url in your browser:# https://accounts.google.com/o/oauth2/auth?access_type=offline&client_id=367116221053-7n0vf5akeru7on6o2fjinrecpdoe99eg.apps.googleusercontent.com&redirect_uri=urn%3Aietf%3Awg%3Aoauth%3A2.0%3Aoob&response_type=code&scope=https%3A%2F%2Fwww.googleapis.com%2Fauth%2Fdrive&state=state

웹브라우저를 실행하고 위에서 나온 URL을 주소창에 붙이고 인증을 합니다. 그러면 아래처럼 코드를 줍니다. 코드를 다시 코맨드 창으로 돌아와서 붙여 넣으면 됩니다.

이제 파일을 구글 드라이브에 폴더를 만들어서 백업해 봅니다.

gdrive mkdir __백업
# Directory 1l0nTwWhHSONxltMbplI9XEhR2TxnPf45 created

디렉토리를 생성하고 디렉토리 아이디를 알려주는데 업로드할 때 폴더명을 사용하지 않고 디렉토리ID를 사용하므로 저것을 복사해 둡니다. 나중에 gdrive list 코맨드로 알아낼 수도 있습니다.

아래와 같이 파일을 업로드 하면 됩니다. backup.tgz이라는 파일을 “__백업”이라는 구글드라이브 폴더에 업로드하는 것입니다.

gdrive upload --parent 1l0nTwWhHSONxltMbplI9XEhR2TxnPf45 backup.tgz

참조

Using Google Drive from the Linux Command Line

Ubuntu 18.04, 20.04에 PHP 8.0 설치하기

웹은 node.js 의 전성시대가 되었지만 PHP는 여전히 웹프로그램을 작성하는데 상당히 괜찮은 솔루션입니다. 개발자에게도 데이터과학자에게도 말입니다.

PHP 7.4는 그 이 버전에 비해 비약적인 성능 향상이 있었습니다. 7.2나 7.3에 비해서 말입니다.

그리고 PHP 8.0도 그 만큼은 아니지만 성능향상이 있습니다. 그래서 다른 이유가 없다면 PHP 8.0을 설치하거나 업그레이드를 해주는 것이 좋습니다. 그런데 오래된 리눅스 버전에 PHP의 최산 버전을 설치하는 것은 항상 문제가 있었습니다.

오래된 Ubuntu에 PHP 8.0을 설치하는 방법입니다.

레파지토리 등록 후 업데이트

sudo add-apt-repository ppa:ondrej/php
sudo apt-get update

끝입니다.

추가로 제 서버에는 워드프레스 때문에 php 7.4 패키지가 몇개 설치되어 있습니다.

php7.4-bz2
php7.4-cli
php7.4-common
php7.4-curl
php7.4-fpm
php7.4-gd
php7.4-json
php7.4-mbstring
php7.4-mysql
php7.4-opcache
php7.4-readline

저것들을 다 삭제하고 PHP 8.0과 저 패키지에 대응하는 8.0 패키지를 설치해 주면 됩니다.
주의 할 것은 php7.4-json는 있지만 php8.0-json이라는 패키지는 없으니 설치를 시도하지 마세요. PHP 8.0에 json 패키지가 내장되었다고 합니다.

apt install php8.0-bz2 php8.0-cli php8.0-common php8.0-curl php8.0-fpm php8.0-gd php8.0-mbstring php8.0-mysql php8.0-opcache php8.0-readline

참고자료

[책 소개] 데이터 분석가의 숫자유감 – 만화로 배우는 업무 데이터 분석 상식

오랜만에 책 추천입니다.

데이터 분석가의 숫자유감

“만화로 배우는” 이라는 타이틀이 붙은 통계, 수학, 공학 책들 중에 쉬운책은 사실 없었습니다.

만화로 배우든, 글로 배우든, 동영상으로 배우든 어려운 내용은 그냥 어려운 것입니다. 형식과는 관련이 없습니다. 콘텐츠가 쉽고 이하기 좋은지 아닌지에 따라 다른 것입니다.

이 책은 현업에서 오랫동안 다양한 경험을 한 저자의 스토리를 작가가 예쁜 그림체로 풀어냅니다.

어렵거나 난해하지 않습니다.

오랜만에 좋은책이 나온 것 같아서 추천합니다.

http://www.yes24.com/Product/Goods/102958933