데이터 사이언스에 대한 좋은 도표가 있어 공유합니다.
그림처럼 Python만 써야 하는 것은 아닙니다. Python은 데이터과학을 하는데 필요한 컴퓨터 기술을 통칭한다고 생각하면 됩니다.
데이터분석과 데이터과학을 구별하지 못할 때가 많은데 차이점은 도메인 날리지(업무 지식)
이 이야기는 데이터과학이라는 용어가 생겼을 때부터 데이터과학의 정의에 항상 설명되어 있는 내용입니다.
데이터과학은 모든 기술을 업무 문제를 해결하는데 집중합니다.
반면 데이터분석은 현재 데이터의 상태를 확인하고 검증하는 것으로 끝냅니다.
현실의 문제를 해결하려는 목적없이 기계학습 모델만 만들고 싶어하면 단순한 ML엔지니어이고 통계적 분석만 한다면 단순한 분석가가 되는 것입니다.
하지만 복잡하고 풀기 곤란한 현실의 비즈니스 문제에 개입하고 싶지 않으려는 사람들이 많은데 그 사람들은 도메인 날리지를 제외하고 나머지 부분만을 데이터과학이라고 주장합니다.