태그 보관물: 빅데이터

빅데이터는 사기?

“빅데이터는 사기다”라고 구체적인 근거없이 맹목적으로 비난하는 분이 많아서 이 글을 포스팅합니다.

두괄식으로 말하면

빅데이터는 그 자체로는 사기가 아닙니다.

빅데이터로 사기를 치면 그게 사기이지요

빅데이터는 사기라고 말하는 사람이 많습니다. 실제 현장의 실정을 알기 때문에 이런 말 을 하는 분들이 무슨 뜻으로 하는 얘기인지 이해가 됩니다만 하지만 그렇다고 해서 그 모든 것이 다 사실이 아니거나 너무 왜곡하는 경향도 많습니다.

빅데이터가 사기라고 말하는 이유는 아마도

다음과 같이 일을 처리했거나 그걸 옆에서 지켜본 뒤의 경험을 얘기했을 것입니다.

  • 빅데이터 프로젝트 또는 PoC를 진행 했는데 뭘 했는지 모를 결과가 나왔을 때
  • 빅데이터의 성과보다는 ”빅데이터 프로젝트”라는것을 해보고 싶은 목적으로 프로젝트를 진행했을때
  • 할일이 없어서 “이거라도 해보자고 하자”라고 막연히 진행했을 때
  • 예산과 리소스를 사용하고도 실제로 비즈니스나 매출에 영향이 전혀 없을 때

빅데이터는 과정 또는 수단이지 결과가 아니다.

빅데이터 자체가 목표인 비즈니스는 빅데이터 플랫폼, 솔루션을 판매하거나 기술지원 상품을 판매하는 회사가 아니라면 많은 회사들에게 빅데이터는 “수단”입니다.

대부분의 회사, 연구소에게 빅데이터는 목표가 아닙니다. 차분히 새각해보면 그런 말이 많이 이상하다는 생각에 동의하실 것입니다.

빅데이터의 가장 활용도는 빅데이터를 이용해서 비즈니스를 개선하거나, 비즈니스 아이템을 발굴하거나, 비즈니스에 중요한 결정을 하는데 필요한 데이터를 처리하고 인사이트를 찾는 것을 돕는 것입니다.

디때 데이터 사이즈가 작고 처리하기 어렵지 않으면 그냥 통계분석이나 데이터과학이 되는 것이고 데이터 사이즈가 매우 크고 처리량도 많고 일도 많다면 빅데이터 분석, 빅데이터를 사용한 데이터 과학이 되는 것입니다.

물론 잘 아시다시피 인공지능, 기계학습에 필요한 데이터를 처리하는데도 빅데이터가 필요합니다.

빅데이터 그거 해봤는데 결과가 안좋드라.

어느날 대형 이커머스 A사와 미팅에 들어갔는데 빅데이터 해봤더니 결과가 안좋아서 우리는 사기라고 생각한다고 하더군요.

그래서 무슨 결과가 어떻게 안 좋았냐고 물었습니다. 담당자가 그냥 밑도끝도 없이 좋은 결과가 안 나왔다는 말만 되풀이하는 것이었습니다.

이 회사 뿐만은 아니고 다른 회사들과 비팅에서도 다수가 비슷한 반응이었습니다. 넘겨짚어 해석을 해보면 대부분 다음과 같은 이유입니다. 사실은 결정권자 진행자 들이 빅데이터 자체를 못마땅해 하는 것입니다.

그냥 하기 싫은 것이지요.

  1. 회사의 매출에 도움이 되는 전술을 빅데이터 프로젝트로 도출을 못했다. 즉 사업개선 아이템이나 사업확장 아이템을 못 내놨다.
  2. 인프라로 구축한 빅데이터가 돈만 쓰고 매출이나 이익을 올리는데 기여를 못한다. 돈만쓰고 돈을 못벌었다.
  3. 기술우위를 논할만큼 대단한 기술이 아니다.
  4. PoC를 했는데 결과물(산출물)이 소프트웨어가 아니고 문서쪼가리다.

이 외에도 더 많습니다만 위의 것만 하나씩 대답을 해보자면

1번 회사의 매출은 경영진이 책임져야지

회사의 매출을 올리는 것은 영업, 기획, 마케팅, 경영진이 하는겁니다. 빅데이터는 과학적 근거를 찾거나 인사이트를 찾는데 사용하는 도구입니다. 빅데이터가 그걸 해주면 그 회사 대표이사와 기획부서는 왜 필요한가요?

2번 인프라인데 돈만 쓰고 나오는게 없어

그럼 회사에서 사용하는 데이터베이스, 더존 회계, IT지원부서, 인사팀 사람들은 왜 필요한가요?

인프라는 효율을 위해서 필요한거지 당장의 매출을 올리려고 하는 것이 아닙니다.

이 질문 하는 사람들은 99%가 기술이나 생산부서 사람들입니다.

3번 그게 뭐 대단한 기술인가?

태초에는 대단한 기술이었지만 지그은 그렇게 대단한 기술이 아닌 것은 사실입니다. 누구나 다 하니까요.

그렇다고해서 전혀 쓸모 없는 것은 아닙니다. 여러분이 사용하는 대부분의 최신 데이터 처리, 분석 시스템은 빅데이터 플랫폼입니다.

4번 빅데이터를 했으면 어떻게 작동하는지 보여줘봐

대부분의 빅데이터 프로젝트는 빅데이터 플랫폼 도입 아니면 인사이트 도출입니다.

플랫폼 도입는 PoC를 해서 요건은 만족하면 도입하는 것이고 안시이트 도출은 인사이트가 나올 수도 있고 안나올 수도 있고 나왔는데 뻔한 것일 수도 있습니다.

빅데이터 프로젝트는 대부분 소프트웨어 개발이 아닙니다.

빅데이터 사기란 무엇인가?

”빅데이터를 하면 무조건 회사 매출이 오르고 주식이 2배로 뜁니다.” 라고 말하면 사기입니다.

대부분 그렇게 말하지 않지요. 진짜 사기꾼이라도 그렇게는 말 안합니다.

사기는 사기 행위가 드러나야 사기인 것입니다. 자기 마음에 들지 않거나 자기가 프로젝트에서 소외되고 회사가 헛돈 쓰는 것 같아서 마음에 들지 않는다고 사기라고 말하는 것도 올바른 생각은 아닙니다.

“빅데이터라는사탕발림으로 경영진과 결정권자를 홀려서 눈먼 돈을 뜯어간 것이 아니냐?” 라고 물을 수도 있을 것입니다.

이럿게 되물을 수 있습니다.

  • 그렇다면 대부분의 경영 컨설턴트들은 그렇지 않단 말입니까? 그들도 말로 사탕발림하는 것은 똑같지 않습니까?
  • 그렇다손 치더라도 과연 경영진과 결정권자들이 그걸 몰랐을까요? 그렇게 멍청할까요?

대부부 이 질문에 대한 답을 하지 못합니다.

빅데이터는 사기다라고 말하는 사람의 두 부류

두 부류입니다.

  • 빅데이터를 전혀 모르는 사람
  • 빅데이터를 너무 잘하는 사람

개인적인 통계를 내보면 99%가 빅데이터를 전혀 모르는 사람입니다.

옆에서 지켜보는 것이 전부는 아니라는 말을 해두고 싶습니다.

특히 소프트웨어 개발자들은 데이터 활용에 대해서 무지한 사람이 매우 많습니다. 본인들은 이런 말을 들으면 매우 불쾌해 하지만 현실은 그렇습니다.

그 사람들은 데이터과학자들이 자신들보다 높은 급여를 받으며 결정권자와 친밀하고 말로 자신들을 압도하는 것에 대해서 매우 불편해 합니다.

경험으로 볼 때 보통 빅데이터는 사기다라고 말하는 사람들의 90%가 개발자들이고 나머지 10% 자기가 할 일이 늘어나는 일하기 싫어하는 회사 직원들입니다.

빅데이터와 텍스트마이닝

빅데이터와 테스트 마이닝에 대해서 조금 적으려고 합니다.

빅데이터(Big data)

빅데이터(Big data)는 이제는 설명을 안해도 될 만큼 자료가 많습니다.
구글링을 해서 찾아보시면 되겠지만 너무 많아서 오히려 정리가 안되서 맥락을 이해하기가 어려울 수도 있습니다.

빅데이터는 간단하게 말하면 많은 데이터, 다양한 데이터를 저장, 가공, 처리, 분석하는 것을 통칭해서 말하는 것입니다. 어차피 명확하게 정의하기 어렵고 원래 정의를 만들고 시작한 것도 아닙니다.

사실 이미 빅데이터 리딩그룹쪽에서는 데이터와 관련된 IT기술이나 분석기법은 그 경계나 정의를 명확하게 정하지 않은지가 오래 되었습니다.

텍스트 마이닝 (Text Mining)

텍스트 마이닝은 사람이 써놓은 글을 분석해서 뭔가 쓸만한 것을 뽑는 것입니다.

텍스트 데이터는 특성상 많이 모아야 뭔가 쓸만한 것이 나옵니다. 텍스트 마이닝이 빅데이터에서 언급되고 마치 전부인것 처럼 얘기되기도 하는 이유는 원래 빅데이터의 출발이 IR(Information Retrieval)이 전문인 구글, 야후, 페이스북, 아마존, 넷플릭스등의 온라인 회사에서 시작되었기 때문입니다.  즉 빅데이터 관련 기술을 텍스트 처리에 많이 사용했기 때문입니다.

검색 포털이나 온라인 리테일 회사를 상상하시면 됩니다. 구글, 아마존이 대표적입니다.

이미 아시겠지만 현존하는 텍스트 마이닝의 최강자는 구글입니다. 그리고 그 외의 여러 회사들이 있습니다.

이 회사들의 공통점은 다음과 같습니다.

  1. 온라인 회사이고 많은 접속자가 만들어 낸 로그를 쌓아서 보유하고 있는 데이터가 매우 많다
  2. 대용량 정보처리기술이 회사의 핵심기술이다
  3. 사용자들이 웹사이트에서 행동하는 것을 로그에 쌓아놓고 그것을 다시 가공해서 회사의 서비스를 개선하거나 다른 부가가치를 만들어 낸다

빅데이터와 텍스트마이닝이 혼동되는 이유 중 또 하나는 텍스트데이터는 처리하는데 컴퓨팅 자원이 많이 소모된다는 점도 있습니다.

어찌되었든 텍스트 마이닝을 잘 하려면 필수는 아니지만 빅데이터 기반 기술이 있는 것이 매우 유리하며 그런 경험이 있다면 그렇게 될 수 밖에 없다고 보는 것이 업계 기술자들의 정론입니다.

그렇다고해서 빅데이터를 텍스트 마이닝에만 쓴다는 얘기는 아닙니다. 다시 텍스트 마이닝으로 돌아오면 텍스트 마이닝은 텍스트 데이터를 분석해서 의미, 의도, 경향등을 보는 것을 기본으로 하고 그런 결과물을 다른 데이터와 연동해서 분석하거나 결합해서 부가정보로 쓰게 됩니다. 그 이상을 하려면 텍스트 마이닝 결과물 자체가 비즈니스 모델이 되거나 회사의 이윤을 창출하는 뭔가를 만들어 주어야 하는데 그런것이 많지 않습니다.

텍스트 마이닝이 그 자체로 비즈니스 모델이 되는 것은 기계 번역이나 문서 자동 요약 등과 같은 것이 있습니다.

텍스트 마이닝의 문제점

텍스트 마이닝의 문제점은 상당히 자연어(사람이 쓰는 말, 한국어, 일본어, 독일어, 영어, …)에 영향을 많이 받으며 분석결과물 자체를 그대로 비즈니스 모델에 적용해서 뭔가를 만들어내서 성과를 보기 어렵다는데 있습니다. 자연어처리쪽 분야에 있어서 문제가 있는 분야가 한글 및 한국어의 경우 광학문자판독(OCR, Optical Character Recognition), 음성인식(Speech Recognition), 그리고 감성분석 (Sentimental Analysis)등이 있습니다. 기술적으로 문제라기 보다는 언어를 다루는 문제가 결과물을 보고 품질을 사람들이 쉽게 판단하기 때문입니다.

텍스트 마이닝이 어려운 이유

텍스트 마이닝의 전부가 워크 클라우드가 아니며 데이터를 수집해서 텍스트 마이닝 툴을 사용해서 마우스 클릭을 하면 분석결과가 나오는 것이 아닙니다. 영어권 경우에는 기술적인 진척이 많고 영어의 특성이 분석이 더 쉽다는 것이 없지 않아 잘 되는 것도 있지만 한글 및 한국어에서는 아직은 어렵습니다. 특히 텍스트 마이닝은 자연어처리 도구에 의존성을 매우 큰데, 자연어처리 도구가 그냥 사서 쓰는 소프트웨어가 아니라 사람의 정성스런 손길이 지속적으로 필요한 애물단지입니다. 자체로도 관리가 필요하며 관리가 안되면 쓸모가 없어지는 경우가 많으데다가 관리가 안된 자연어처리 도구를 이용해서 만든 2차 파생물도 함께 엉망이 됩니다.

때문에 사내(in-house)에서 지속적으로 투자하거나 하지 않으면 결과를 보기 어렵고, 당연히 단기 프로젝트에 의한 좋은 결과물은 나오기 어렵습니다. 참고로 자연어 처리 도구는 형태소 분석기, 구문 분석기등과 같은 자연어를 처리하는데 필요한 소프트웨어 라이브러리들입니다. 이것들도 자연어의 특성을 많이 타는 것으로 각 언어별로 다 품질이 다르고 기분석 사전이나 후처리 사전등을 따로 관리해야하는 복잡한 문제가 있습니다.

텍스트 마이닝과 워드 클라우드(Word Cloud)

TV에서 자주 볼 수 있는 화면이 단어들이 둥둥 떠 있고 단어끼리 선을 연결한 시각화 화면이 많은 것입니다. 워드 클라우드라는 시각화 방법입니다.

사실상 텍스트 마이닝의 결과물의 시각화는 워드 클라우드나 워드 클라우드를 변형한 시각화 기법외에는 아직 없습니다

경험이 없는 분들은 어렵게 생각하실지도 모르겠지만 사실 워드 클라우드는 구현하기가 매우 쉽흡니다. 심지어 그냥 오픈 소스 몇개를 붙여서 돌리면 그럴 듯한 것을 만들어서 보여줄 수 있습니다.
문제는 이런것들 돌려서 흥미 위주의 어필 포인트는 되겠지만 결과물이 실제로 도움이 되는 것이 많지 않다는 것이고 그것 때문에 대부분의 일반 기업에서는 빅데이터를 텍스트 마이닝이라고 생각하고 프로젝트를 진행한 뒤에 결과물이 도움이 안되니 빅데이터가 별거 아니고 해봤는데 아니더라고 말하게 된다는 것입니다.

가장 흔히 볼 수 있는 반응입니다

이것은 잘못 접한 정보와 유도된 상황 때문에 발생하는 착각입니다. 빅데이터와 텍스트 마이닝을 구분하지 못하며 제대로 이해하지 못하기 때문입니다.  경험을 해보지 않으면 제대로 구분하기 어려운 것도 사실입니다만 공부가 부족하기 그것을 모른다고 해서 틀린 것을 말하고 그것이 마치 정설인듯 말하는 것은 정당하지 않습니다. 텍스트 마이닝은 쉽지 않습니다. 그리고 텍스트마이닝이 빅데이터와 동치관계는 아닙니다.