데이터 사이언티스트(Data scientist, 이하 데이터 사이언티스트)에 대한 정의와 신규 직종으로써의 논의 거리고 많이 언급되고 있는 것 같아 저도 제 생각을 정리해 봅니다.
데이터 사이언티스트는 데이터와 관련된 것들을 모두 연동 또는 연결해서 결과물을 만들어 낼 수 있는 사람입니다.
이런 작업이 가능 하려면 관련된 다양한 지식과 경험, 기교가 필요합니다. 여기서는 다양성이 더 중요한데 학습 영역도 넓어야 하고 깊이도 나름 갖추고 있지 않으면 안됩니다. 학습 뿐만 아니라 실제 경험이 있어야 하는 것이 더 중요합니다. 학교에서 배우기에는 분량도 많고 영역도 상당히 넓습니다.
데이터 사이언티스트의 스펙에는 정보검색, 자료구조, 기계학습, 데이터마이닝, 알고리즘, 비주얼라이제이션, 인간공학 그리고 비지니스적인 설득을 위한 프리젠테이션까지도 포함됩니다.
이런 데이터 사이언티스트들의 정의에 나오는 스펙을 만족시킬 수 있는 사람은 현재로써는 IR과 관련된 일을 집중적으로 해서 업무 영역이 넓어진 사람이 대표적입니다.
이 사람들은 훈련이 되는 것이 아니라 스스로 훈련을 해야만 스펙을 갖출 수 있기 때문에 학교를 갓 나온 사람들에게서는 그런 것을 찾기가 어려울 것이며 그래서 실리콘 밸리에서 데이터 사이언티스트를 채용하려고 할 때 관련이 있는 회사에서 일한 경험이 많은 사람을 우선해서 채용하려고 하는 것입니다.
이 사람들은 대형 인터넷 업체에서 일을 하면서 초창기의 정보검색을 서비스로 제공하는 과정을 거쳤으며 전혀 쓸모 없을 법한 기계학습과 데이터마이닝, 인공지능이 정보검색과 서비스에 어떻게 적용되는지를 봐왔고, UI와 디자인의 표현이 인간의 반응에 어떤 영향을 주고 어떻게 다음 행동을 유도할 수 있는지를 이해하는 과정을 거치게 됩니다.
그리고 그런 데이터의 가공과 흐름과 사용자의 반응들로 인해 만들어진 로그와 같은 2차데이터들에서 부가적으로 얻을 수 있는 것이 무엇인지 경험 또는 아이디어를 통해서 얻어내서 3차데이터로 만들어내는 과정도 당연히 거쳤을 것이며, 방대하게 늘어나는 데이터를 통해 데이터와 관련된 시스템의 구조와 데이터를 추출, 가공 그리고 제공하는 방법을 이해하고 고민하며, 거대한 데이터와 시스템을 구축하는데 자원을 절약하는 방법과 자원을 과소비하여 시간을 단축을 엑셀레이션하는 역발상의 다른 패러다임을 생각해내고 이해하는 과정도 거쳤을 것입니다.
그리고 최종적으로 이런 것들이 어떤 싸이클을 돌며 하나의 생태계와 같이 끊기지 않는 순환고리를 만들며, 스스로도 점점 확장되어 갈 수 있게 하나의 작은 사회를 설계하며 조절하고 순환이 잘 되도록 유도하는 방법까지도 이해하게 됩니다.
이것이 현재 유행하는 빅데이터와 관련된 일을 하는데 필요하다고 말하는 데이터 사이언티스트의 기본 스펙이라고 할 수 있습니다.
현재의 사람들이 중에 이 스펙들을 갖춘 사람이 드문 이유는 이와 관련된 일이 지금까지 진입장벽이 매우 높은 일부 인터넷 서비스에서만 폐쇄적으로 그리고 집중적으로 다루어져 왔으며 이런 스펙들이 크게 각광받는 분야도 아니었으므로, 취업시장에서 흔히 진리라고 여겨지는 적자생존의 논리에 의해서 이와 같은 커리어 패쓰로 진입하려는 사람도 많지 않았기 때문입니다. 진입을 꺼려하는 또하나의 이유는 관련된 일들은 실패할 확률이 매우 많아 성과를 보여주기 어렵고, 지루하고 반복되는 일이 되기 쉬우며, 업무량이 많음에도 불구하고 옆에서 보기에는 놀고 있는 것처럼 보이기 때문이며 제대로 평가를 하기도 어려운 일을 하기 때문입니다.
하지만 이런것에 획기적인 전환을 이끄는데 중심이 되는 회사가 구글, 아마존, 페이스북, 야후, 넷플릭스등의 온라인 마켓, IR 그리고 소셜 콘텐트 서비스 회사들입니다.
그들은 이런것들이 충분히 돈벌이가 되며 가치를 만들어 낼 수 있음을 이미 오랫동안 사업을 하면서 알아왔고 최근에는 그에 대한 내용을 상당히 공개하게 되었고 성공의 핵심에 데이터를 다루는 일이 있다는 것을 알게 되었으며, 많은 사람들이 그에 대한 것을 호기심 또는 새로운 분야에 대한 탐구심 또는 각광받는 직군으로의 진입을 생각하며 관심을 가지게 됩니다.
그리고 이와 같은 회사들은 손으로 만져지는 하드웨어는 판매하는 것들이 아무것도 없으면서 그렇다고 소프트웨어를 판매하는 것도 아니며 그와는 다른 무형의 가치인 데이터의 가공을 팔아서 챙긴 이익으로 세계 최상레벨의 기업으로써의 위상을 보여주기까지 합니다.
결국 데이터 사이언티스트는 이들 기업이 하는 일의 공통적인 부분을 하나의 직군에 대한 커리어라고 보고 ,이것을 최대한 커버할 수 있는 엔지니어 그룹 중에 현재로써는 그 수가 가장 적은 사람들입니다.
실리콘 밸리에서 이 사람들이 최근 이 사람들 많이 필요하게 된 이유는, 이 사람들이 있으면 데이터와 관련된 사업을 하려는 벤쳐들은 스타트업을 바로 시작할 수 있으며, 시작하는데는 많은 수의 데이터 사이언티스트가 필요하지도 않습니다. 분산처리, 네트워크, 코어개발등의 엔지니어도 필요하고 공급도 부족하지만 이런 것들은 시작하는데 당장 필요하지 않으며 분산처리를 제외하고는 데이터와 직접적인 관련이 없으며 어느 정도 제품의 구매를 통해서 해결할 수도 있으며 아직까지는 취업시장에서 인재를 쉽게 구할 수 있습니다.
하지만 데이터 사이언티스트는 쉽게 양성되지 않는 프리랜서의 시초인 고대의 창기병들처럼 빨리 공급이 채워지지 않으며 훈련기간이 더디게도 길고 현재 생존해 있는 수가 생각보다 매우 적습니다.
스타트업 뿐만 아니라 대형 기업에서도 수가 많은 편이 아니며 이탈했을 경우 채워 넣기가 쉽지 않고, 그렇다고 해서 내부에서 양성하기에도 쉽지 않습니다. 훈련이 쉽지 않고 시간이 상당히 오래 걸리기 때문입니다.
결국 공급이 매우 부족하며 당장은 해결할 수 없는 것입니다.
이 공급은 계속해서 부족하게 될 것이 자명하며 그 이유로는 데이터와 관련된 일에 사람들이 관심을 돌리고 있고 쌓이는 데이터는 점점 많아지고 다양화되기 때문에 그 공급부족 현상이 더 가속화될 수 밖에 없는 것입니다.
현재의 정의로 보면 데이터 사이언티스트는 데이터와 관련된 일에 대해서는 아키텍트(Architect)이며 실무자라고 할 수 있으며 데이터와 관련된 모든 것을 설계하고 구성할 수 있는 사람입니다.
그리고 이 사람들이 하는 일과 관련된 것들 중 아주 큰 데이터를 가진 부분집합을 사람들은 한 단어로 빅데이터(Big Data)라고 합니다.