데이터과학자가 되고 싶은데 어떻게 해야 하나요? 질문/답변 Q&A

최근에 데이터과학자(Data Scientist)가 되려면 뭘 배워야하고, 어떻게 해야하며, 커리어는 어떻게 키워나가야 하는지 물어보는 분들이 다시 늘어서 이런 내용으로 포스팅을 한 번 해보려고 했었습니다.

짧고 이해하기 쉽게 해보자라는 생각으로 제가 받았던 질문에 대한 답변형식으로 적습니다.

※ 글에서는 데이터사이언티스 (Data Scientist) 대신 데이터과학자라고 적습니다.

데이터과학자는 뭐하는 사람인가요?

하는 일은 데이터를 처리하고 분석해서 통찰을 얻고 사실을 검증합니다. 그리고 그 결과를 결정권자에게 주고 좋은 결정을 할 수 있게 도와줍니다.

중요한 것은 “데이터 기반 (Data Driven)”이라는 것과 “결정을 돕는 다”는 것입니다. 데이터과학자가 결정을 하지는 않습니다. 하지만 판단은 합니다. 과학적으로 판단하고 논리에 따라 합리적인 의견을 결정권자 또는 의뢰인에게 전해줍니다. 그리고 심사숙고하지 않은 즉흥적 결정, 충동적 결정, 막연한 결정을 하지 못하도록 돕습니다.

예를 들면 게임회사의 데이터과학자라면 특정 게임 A의 아이템들의 가격을 올려야 할지 내려야 할지에 대한 판단을 하고 그 결과를 기획자 및 전략담당자에게 알려준다거나 하는 것입니다.

데이터과학자는 개발자가 아닌 거죠?

네.

대부분 이렇게 아니라고 대답합지만 사실은 개발자인 것도 맞습니다. 그런데 개발자라고 하지 않는 이유는 개발자라고 대답하는 순간 데이터과학자에게 개발을 물어보고개발일을 맡기기 때문입니다. 그것 말고도 할 일 많으니까 그냥 아니라고 대답합니다.

뭘 공부하면 되나요?

확률/통계, 수학, 프로그래밍, 데이터 베이스(SQL)를 배워야 합니다.

수학은 고등학교 수준이면 되나요?

고등학교 과정의 고급 수학 과정을 무난하게 다 기억하고 있다면 수학을 굉장히 잘하는 것입니다. 무난하게 한다는 것은 고등학교 졸업을 의미하는 것이 아닙니다.

흔히 선형대수학, 미적분학 까지는 해야 한다고 말하는데, 이걸 잘하면 훨씬 유리합니다. 잘 못하면 지금부터 시작해도 안 늦습니다. 포기하지만 않는다면요.

데이터과학자가 되려면 얼마나 걸리나요?

타이틀을 데이터과학자로 명함에 넣어주는 것은 회사가 해주는 것이므로 회사마다 다릅니다.

괜찮은 데이터과학자라는 말을 들으려면 대략 제 경험으로 유사 학문을 전공한 사람은 5년 정도는 현장에서 훈련하면 되고. 전공자라면 3년이면 되는 것 같습니다. 적성에 안맞는 사람은 몇년이 되어도 제대로 못합니다.

아주 잘하는 것은 그 이상의 시간이 걸립니다.

참고로 박사학위 소지와 데이터과학을 잘하고 못하고는 크게 관련없습니다. 개인의 능력차이와 학습량의 차이입니다.

데이터과학자는 전망이 좋은가요?

무슨 전망이요? 미래에서는 인공지능, 로봇이 모든 사람들의 일을 뺏을 것이라서 어둡습니다. 데이터과학자도 예외는 아닙니다.

급여는 많이 받나요?

아직까지는 다른 직군에 비해 많이 받는 편이라고 봅니다. 최근에 데이터과학자 숫자가 많이 늘어서 이제 많이 높지는 않습니다.

랭귀지는 Python을 배워하나요? R을 배워야 하나요?

둘다 해야 합니다.
둘다 못하겠고 꼭 하나만 하고 싶다면 Python을 하면 됩니다.

그래도 다시 말하면 데이터과학을 하려면 둘다 하는 것이 나중에 매우 좋습니다.

둘 다 하라고 하는 이유는 R과 Python은 각각 문제해결이나 일처리를 쉽고 빠르게 할 수 있는 영역이 있습니다. 하나만 알게 되면 그런 문제를 해결할 때 때로 굉장히 어렵고 힘들게 해결해야 할 수 있습니다.

디지털마케팅을 하고 싶은데 데이터 분석, 데이터 과학을 할 줄 알아야 하나요?

몰라도 됩니다.

알면 좋습니다. 하지만 필수는 아닙니다. (당연한 것이지만)

엑셀은 잘하는데 엑셀로는 데이터과학을 못하나요?

할 수 있습니다. 하는 사람도 많습니다.

다만 “모냥빠진다!”, “없어보인다!”라고 해서 기피할 뿐입니다.

문제를 쉽게 해결할 수 있는 쉬운 방법을 사용해서 해결하는 것이 가장 좋은 것입니다. 엑셀로 쉽게 할 수 있는 것은 엑셀로 하면 됩니다. 하지만 엑셀만으로 모든 문제를 해결할 수는 없습니다. 아마도.

회사에서 SAS, 매트랩을 씁니다. 계속 이걸로 데이터과학해도 되나요?

다니는 회사/연구소에서 SAS 또는 매트랩을 주력으로 사용하고 있고 선임자가 매니저가 그걸 쓰도록 말했다면 그렇게 하는 것이 신상에 좋습니다. 뭐 잘 아시겠지만요.

하지만 취업, 이직, 커리어전환, 오픈소스 패키지 사용, 새 알고리즘이나 패키지사용, 비용 등을 볼때 R 또는 Python을 선택하는 것이 낫습니다.

회사에서 못쓰게 한다면 따로라도 공부해 두세요.

Author: 떰학

답글 남기기