카테고리 보관물: 미분류

데이터과학자가 되고 싶은데 어떻게 해야 하나요? 질문/답변 Q&A

최근에 데이터과학자(Data Scientist)가 되려면 뭘 배워야하고, 어떻게 해야하며, 커리어는 어떻게 키워나가야 하는지 물어보는 분들이 다시 늘어서 이런 내용으로 포스팅을 한 번 해보려고 했었습니다.

짧고 이해하기 쉽게 해보자라는 생각으로 제가 받았던 질문에 대한 답변형식으로 적습니다.

※ 글에서는 데이터사이언티스 (Data Scientist) 대신 데이터과학자라고 적습니다.

데이터과학자는 뭐하는 사람인가요?

하는 일은 데이터를 처리하고 분석해서 통찰을 얻고 사실을 검증합니다. 그리고 그 결과를 결정권자에게 주고 좋은 결정을 할 수 있게 도와줍니다.

중요한 것은 “데이터 기반 (Data Driven)”이라는 것과 “결정을 돕는 다”는 것입니다. 데이터과학자가 결정을 하지는 않습니다. 하지만 판단은 합니다. 과학적으로 판단하고 논리에 따라 합리적인 의견을 결정권자 또는 의뢰인에게 전해줍니다. 그리고 심사숙고하지 않은 즉흥적 결정, 충동적 결정, 막연한 결정을 하지 못하도록 돕습니다.

예를 들면 게임회사의 데이터과학자라면 특정 게임 A의 아이템들의 가격을 올려야 할지 내려야 할지에 대한 판단을 하고 그 결과를 기획자 및 전략담당자에게 알려준다거나 하는 것입니다.

데이터과학자는 개발자가 아닌 거죠?

네.

대부분 이렇게 아니라고 대답합지만 사실은 개발자인 것도 맞습니다. 그런데 개발자라고 하지 않는 이유는 개발자라고 대답하는 순간 데이터과학자에게 개발을 물어보고개발일을 맡기기 때문입니다. 그것 말고도 할 일 많으니까 그냥 아니라고 대답합니다.

뭘 공부하면 되나요?

확률/통계, 수학, 프로그래밍, 데이터 베이스(SQL)를 배워야 합니다.

수학은 고등학교 수준이면 되나요?

고등학교 과정의 고급 수학 과정을 무난하게 다 기억하고 있다면 수학을 굉장히 잘하는 것입니다. 무난하게 한다는 것은 고등학교 졸업을 의미하는 것이 아닙니다.

흔히 선형대수학, 미적분학 까지는 해야 한다고 말하는데, 이걸 잘하면 훨씬 유리합니다. 잘 못하면 지금부터 시작해도 안 늦습니다. 포기하지만 않는다면요.

데이터과학자가 되려면 얼마나 걸리나요?

타이틀을 데이터과학자로 명함에 넣어주는 것은 회사가 해주는 것이므로 회사마다 다릅니다.

괜찮은 데이터과학자라는 말을 들으려면 대략 제 경험으로 유사 학문을 전공한 사람은 5년 정도는 현장에서 훈련하면 되고. 전공자라면 3년이면 되는 것 같습니다. 적성에 안맞는 사람은 몇년이 되어도 제대로 못합니다.

아주 잘하는 것은 그 이상의 시간이 걸립니다.

참고로 박사학위 소지와 데이터과학을 잘하고 못하고는 크게 관련없습니다. 개인의 능력차이와 학습량의 차이입니다.

데이터과학자는 전망이 좋은가요?

무슨 전망이요? 미래에서는 인공지능, 로봇이 모든 사람들의 일을 뺏을 것이라서 어둡습니다. 데이터과학자도 예외는 아닙니다.

급여는 많이 받나요?

아직까지는 다른 직군에 비해 많이 받는 편이라고 봅니다. 최근에 데이터과학자 숫자가 많이 늘어서 이제 많이 높지는 않습니다.

랭귀지는 Python을 배워하나요? R을 배워야 하나요?

둘다 해야 합니다.
둘다 못하겠고 꼭 하나만 하고 싶다면 Python을 하면 됩니다.

그래도 다시 말하면 데이터과학을 하려면 둘다 하는 것이 나중에 매우 좋습니다.

둘 다 하라고 하는 이유는 R과 Python은 각각 문제해결이나 일처리를 쉽고 빠르게 할 수 있는 영역이 있습니다. 하나만 알게 되면 그런 문제를 해결할 때 때로 굉장히 어렵고 힘들게 해결해야 할 수 있습니다.

디지털마케팅을 하고 싶은데 데이터 분석, 데이터 과학을 할 줄 알아야 하나요?

몰라도 됩니다.

알면 좋습니다. 하지만 필수는 아닙니다. (당연한 것이지만)

엑셀은 잘하는데 엑셀로는 데이터과학을 못하나요?

할 수 있습니다. 하는 사람도 많습니다.

다만 “모냥빠진다!”, “없어보인다!”라고 해서 기피할 뿐입니다.

문제를 쉽게 해결할 수 있는 쉬운 방법을 사용해서 해결하는 것이 가장 좋은 것입니다. 엑셀로 쉽게 할 수 있는 것은 엑셀로 하면 됩니다. 하지만 엑셀만으로 모든 문제를 해결할 수는 없습니다. 아마도.

회사에서 SAS, 매트랩을 씁니다. 계속 이걸로 데이터과학해도 되나요?

다니는 회사/연구소에서 SAS 또는 매트랩을 주력으로 사용하고 있고 선임자가 매니저가 그걸 쓰도록 말했다면 그렇게 하는 것이 신상에 좋습니다. 뭐 잘 아시겠지만요.

하지만 취업, 이직, 커리어전환, 오픈소스 패키지 사용, 새 알고리즘이나 패키지사용, 비용 등을 볼때 R 또는 Python을 선택하는 것이 낫습니다.

회사에서 못쓰게 한다면 따로라도 공부해 두세요.

VScode에서 Python Path 경고 메세지 해결하기

어느때 부터인가 VScode에서 Python 프로젝트나 파일을 로딩하면 경고 창이 뜨기 시작해서 귀찮았습니다.

저는 Python 작업은 PyCharm으로 많이 하니까 계속 무시했었지만 너무 거리적 거려서 처치했습니다.

메세지를 해석하면 환경변수”Path”안에 따옴표가 포함되어서 Python 확장이 로딩안되니까 따옴표를 제거해달라는 말입니다.

중요한 부분을 먼저 말하자면
Mac, Linux는 시키는대로 하면 금방 처리할 수 있는데
Windows는 Path에서 따옴표와 세미콜론을 모두 제거해주면 됩니다.

경고 메세지 내용

The environment variable 'Path' seems to have some paths containing the '"' character. The existence of such a character is known to have caused the Python extension to not load. If the extension fails to load please modify your paths to remove this '"' character.

Mac 또는 Linux

환경변수가 정의된 리소스 파일을 열어서 따옴표를 제거하시면 됩니다.

Windows

Windows가 문제입니다. 오류를 잘 못찾을 수 있는데.

설정에서 환경변수를 열고 사용자와 시스템의 Path를 열어서 자세히 보신 후에 따옴표와 세미콜론이 있는 것을 모두 찾아서 제거해주세요. 특히 따옴표가 없다고 방심하지 말고 세미콜론도 반드시 제거해 주세요.

환경변수창 열기

Path가 2곳에 있습니다. 모두 확인해 주세요.

환경변수의 목록 확인

환경변수 목록을 쭉 보시고 따옴표와 세미콜론이 있으면 모두 제거하세요.

끝입니다.

워드프레스에서 “업로드한 파일은 php.ini의 upload_max_filesize에 지정한 크기를 초과하였습니다.” 오류

워드프레스에서 업로드를 할 때 파일이 업로드 할 파일의 사이즈가 크면 다음과 같은 에러 메세지가 나오는 것을 볼 수 있습니다.

업로드한 파일은 php.ini의 upload_max_filesize에 지정한 크기를 초과하였습니다.

당연한 것이지만 워드프레스의 문제가 아니라 PHP설정의 문제입니다. PHP 설정에는 업로드할 파일의 사이즈가 기본 2Mb로 제한되어 있습니다. 이 설정을 변경해 주어야 합니다.

github 에 push 할때 인증창 안뜨게 하기

github에 있는 레파지토리를 클론할 때 레파지토리 주소에 사용자 아이디와 패쓰워드를 넣어두면 pull이나 push가 인증을 한다거나 매번 비밀번호를 물어본다거나 하는 일이 없어져서 편해집니다.

방법은
레파지토리에 주소에 사용자 아이디 패쓰워드 추가하면 됩니다.

특히 Github에 커밋할때마다 비밀번호를 물어보거나 인증을 했는데도 다음번에 또 물어보거나 하는 현상을 없앨 수 있습니다.

방법은 이렇습니다.

클로닝(cloning)할 것헙 레파지토리(repository) 주소

https://github.com/microsoft/vscode.git

위의 주소를 고쳐서 이렇게 해줍니다.

https://사용자아이디:사용자패쓰워드@github.com/microsoft/vscode.git

github.com앞에 @를 붙이고 그 앞에 사용자아이디 그리고 콜론 사용자 패쓰워드를 입력하면 됩니다.

패쓰워드가 드러나게 되니까 이 주소가 유출되지 않게 해야 합니다.

비밀번호에 @가 포함된 경우 해결 방법

비밀번호에 @가 있으면 github.com 앞의 구분자 @와 충돌합니다.

이때는 @를 %40으로 바꾸면 됩니다. 예를 들어

사용자아이디: user

비밀번호: pass!@#

라면

https://user:pass!%40#@github.com/microsoft/vscode.git

이 됩니다.

비밀번호가 노출되는 것이 싫어요. 대신 토큰 사용하기

https를 사용하기 때문에 네트워크에서 비밀번호가 새나갈 위험은 없습니다만 그래도 비밀번호를 그대로 적어서 저장하는 것은 위험합니다.

비밀번호를 적는 것이 걱정된다면 github에서 토큰을 받아서 비민번호대신 넣어줘도 됩니다. 자신의 토큰은 깃헙에서 받을 수 있습니다.

토큰 메뉴는 Settings -> Developers setting 에 있습니다.

참고

https://stackoverflow.com/questions/6172719/escape-character-in-git-proxy-password

Python3.9 Ubuntu 18.04에 설치하기

Python 최신 버전을 오래된 우분투 배포판에 설치하는 것은 항상 문제가 있었습니다. 그런데 18.04에서 Python 3.9를 설치하는 것은 버전에 비해서 설치하기가 쉬워졌습니다.
명령어 몇개로 쉽게 설치가 가능합니다.

커스텀 사용자 레파지토리를 추가

sudo add-apt-repository ppa:deadsnakes/ppa
sudo apt update

설치

apt install python3.9

패키지 목록을 읽는 중입니다...
완료<br>의존성 트리를 만드는 중입니다       
상태 정보를 읽는 중입니다... 완료
다음의 추가 패키지가 설치될 것입니다 :
libpython3.9-minimal libpython3.9-stdlib python3.9-minimal
    제안하는 패키지:
      python3.9-venv python3.9-doc binfmt-support
    다음 새 패키지를 설치할 것입니다:
   libpython3.9-minimal libpython3.9-stdlib python3.9 python3.9-minimal
    0개 업그레이드, 4개 새로 설치, 0개 제거 및 0개 업그레이드 안 함.
    4,833 k바이트 아카이브를 받아야 합니다.
    이 작업 후 18.9 M바이트의 디스크 공간을 더 사용하게 됩니다.
    계속 하시겠습니까? [Y/n] y

확인하기

python3.9 --version
Python 3.9.1