데이터과학자가 되려면 뭘 배워야 하나?

데이터과학자가 되기 위해서 필요한 것들이라는 주제로 포스트를 몇개 작성하였었지만 더 간략한 것을 원하는 분들이 많다는 것을 알았습니다.

간단하게 말하면 지금은 아래의 4가지입니다.

  1. SQL
  2. R 또는 Python 언어
  3. Linux (리눅스)
  4. Algebra (수학)

여기에서 SQL, R, Python, Linux는 다해서 1 ~ 2년 배운다면 기초적인 일을 할 수는 있습니다. 그게 그렇게나 오래 걸리나? 라고 생각하실 지 모르겠지만 그렇게 만만한 것들 아닙니다.

SQL은 책 보고 SQLd 자격증 준비하면서 같이 공부하세요.

R, Python은 책 읽고 인터넷 강좌 들으세요. 그리고 코드 따라하기를 여러 번 해보세요.

Linux도 책 사서 보거나 인터넷 자료 뒤져 보시고, 인터넷 강좌 보고 그 후에 연습을 하면 됩니다.

문제는 수학입니다. 수학은 선형대수학, 미적분, 미방까지 해야 하고 논리적 사고방식과 숫자를 다루는 연습까지 되야 하기 때문에 속성으로 훈련이 안됩니다.

그리고 결국 나중에 좋은 기계학습모델을 만들거나 좋은 수리 모형을 만들 수 없게 되고 역량이 떨어지게 됩니다. 결국 본인의 몸값도 높일 수 없게 됩니다. 인터넷 강의 들으면서 날마다 무지막지하게 공부하시면 됩니다.

물론 수학을 원래 잘하는 분들은 괜찮겠습니다만 그런 분들 별로 없습니다.

각종 AI 프레임워크 별로 GPU 사용 가능 확인하기

Tensorflow, Keras, Torch에서 각 버전과 GPU를 사용할 수 있는지를 알아내는 코드입니다.

GPU가 장착된 서버 또는 데스크탑에서도 Nvidia 드라이버와 CUDA를 제대로 설치하지 않아서 사용을 못하는 경우가 많습니다.

GPU가 있고 또 사용할 일이 있을 것 같다면 확인을 하고 시작하는 것이 좋습니다.

# 립러링 프레임워크들의 버전과 GPU 확인

# 1. Tensorflow
import tensorflow as tf
print("Tensorflow version: {}".format(tf.__version__))
print("Tensorflow GPUs: {}".format(tf.test.is_gpu_available(
    cuda_only=False,
    min_cuda_compute_capability=None
)))
from tensorflow.python.client import device_lib
print("Tensorflow device list: {}".format(device_lib.list_local_devices()))

# 2. Keras
from keras import backend as K
import keras
print("Keras version: {}".format(keras.__version__))
print("Keras GPUs: {}".format(K._get_available_gpus()))

# 3. PyTorch
import torch
print("Torch device count: {}".format(torch.cuda.device_count()))
print("Torch device name: {}".format(torch.cuda.get_device_name(0)))
print("Torch CUDA is available: {}".format(torch.cuda.is_available()))

결과는 이런 식으로 나옵니다.

Tensorflow version: 2.6.0
Tensorflow GPUs: True
Keras version: 2.6.0
Keras GPUs: ['/device:GPU:0', '/device:GPU:1']
Torch device count: 2
Torch device name: NVIDIA GeForce RTX 3080
Torch CUDA is available: True

python tensorflow 에러 get_config

Python 노트북에서 Keras, Tensorflow로 작업을 하다가 패키지를 업데이트하거나 해서 GPU 설정을 잘못하면 다음가 같은 에러가 납니다.

cannot import name 'get_config' from 'tensorflow.python.eager.context' (/usr/local/lib/python3.8/dist-packages/tensorflow/python/eager/context.py)

해결책은 그냥 tensorflow gpu 버전을 같이 설치해 주면 됩니다.

pip install --upgrade tensorflow
pip install --upgrade tensorflow-gpu