R – yaml 파일 읽어오기

R로 작성한 script에서 가끔 복잡한 설정들 읽어야하는 경우가 있습니다. 여러 방법을 사용할 수 있겠지만 설정파일을 만들어 놓고…

Continue Reading R – yaml 파일 읽어오기

R – 변수에 값을 넣고 바로 결과를 출력하기

제목대로 입니다. 정말 별것 아닙니다. 아주 가끔 유용하게 쓸 때가 있습니다.

핵심은 2번째 줄입니다. 직접 실행해…

Continue Reading R – 변수에 값을 넣고 바로 결과를 출력하기

R – data.frame의 특정 컬럼의 NA를 0으로 채우기

별것 아닙니다만 data.frame에 NA가 섞인 경우에 이 결측치(missing value)를 채울 때 특정 컬럼의 결측치만 0으로 채워주고 싶을…

Continue Reading R – data.frame의 특정 컬럼의 NA를 0으로 채우기

RStudio server 1.0.44 R notebook 기능 확인

지난 포스트에서 RStudio 1.0.44를 설치해서 R notebook 기능을 확인해 본 후에 RStduio server도 잘 작동하는지 확인하기 위해서…

Continue Reading RStudio server 1.0.44 R notebook 기능 확인

RStudio v1.0 릴리즈

요 며칠 사이에 R관련 커뮤니티에서 새소식으로 메일이 날아오고 있는데 가장 많이 보이는 것이 RStduio v1.0이 릴리즈 되었다는…

Continue Reading RStudio v1.0 릴리즈

마이크로소프트 Revolution Analytics사 인수

최근에 바쁘다 보니 이런 저런 뉴스를 놓치고 있었나 봅니다. 마이크로소프트(Microsoft)사가 Revolution Analytics사를 인수했다네요. 뉴스가 나온 시기가 좀…

Continue Reading 마이크로소프트 Revolution Analytics사 인수

Data + Design 무료 온라인책

데이터 시각화에 관련된 책입니다. 웹으로도 볼 수 있고 PDF도 다운로드 받을 수 있습니다. 책 내용이 좋아서 링크인데도…

Continue Reading Data + Design 무료 온라인책

SPSS syntax를 R로 변환해주는 웹서비스 translate2R

SPSS 신택스를 R 코드로 자동변환해주는 웹사이트가 나왔습니다. Use R! 2014에서 발표했나보네요. Use R! 컨퍼런스는 쓸만한 것이 꽤…

Continue Reading SPSS syntax를 R로 변환해주는 웹서비스 translate2R

colorbrewer2.org 소개

R의 ggplot2 패키지에 보면 scale_color_brewer() 라는 함수가 있습니다. 이 함수는 colorbrewer2.org 사이트에서 제공하는 색상 팔레트를 플롯에 적용해…

Continue Reading colorbrewer2.org 소개

Reproducible Research – 재현가능연구

Reproducible Research에 대한 포스팅입니다. 이게 뭔지? 어떻게 하는 것인지? 이런 것들에 대한 내용입니다. Reproducible Research는 연구나 분석을…

Continue Reading Reproducible Research – 재현가능연구

Interpolation methods – 내간법

Interpolation methods (내간법) 용어 확인을 위해서 영어사전을 찾아 보시면 내간법/내삽법/보간법이라고 나옵니다.   뭔가 다소 괴기스러운 어감인데 (^^;)…

Continue Reading Interpolation methods – 내간법

Cosine Similarity – 코사인 유사도

삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 이해하기 매우 쉽습니다.  그게 아니라면 처음에 개념을 잡는 것이…

Continue Reading Cosine Similarity – 코사인 유사도

빅데이터와 텍스트마이닝

빅데이터와 테스트 마이닝에 대해서 조금 적으려고 합니다. 빅데이터(Big data) 빅데이터(Big data)는 이제는 설명을 안해도 될 만큼 자료가…

Continue Reading 빅데이터와 텍스트마이닝

데이터 사이언티스트가 사용하는 도구

저는 기업체를 상대로 솔루션 사업을 하고 있는 회사에서 데이터 사이언티스트로 일하고 있습니다. 대외 미팅 중에 아이스브레이킹(ice breaking)을…

Continue Reading 데이터 사이언티스트가 사용하는 도구

코호트 분석 (Cohort Analysis)

코호트 분석 동질의 세그먼트 중에서 유사한 경험을 한 그룹을 코호트(Cohort)라고 합니다. 흔히 동일한 사회적 경험을 한 그룹이라고…

Continue Reading 코호트 분석 (Cohort Analysis)

R과 SAS 비교

이 포스트를 올린 이유가 일을 하다보면 초등학생 질문처럼 “호랑이랑 사자가 싸우면 누가이겨요?” 라고 물어보는 분들이 많기 때문입니다….

Continue Reading R과 SAS 비교

[컨퍼런스] 데이터사이언티스트가 말하는 빅데이터 분석 사례

(데이터솔루션)[http://www.spss.co.kr/main/main.asp]이 주최하는 빅데이터 세미나입니다. 사이트 주소: http://www.datasolution.kr/imgs_job/marketing/2014/bigdata_01.html 장소: 엘타워 그레이스 1홀 날짜: 2014년 3월 25일 화요일 시간:…

Continue Reading [컨퍼런스] 데이터사이언티스트가 말하는 빅데이터 분석 사례

numpy windows용 64bit 버전

Windows를 비롯해서 numpy를 설치하는 것이 쉬운일이 아닌데요. 그래서 따로 패키징된 것을 제공하는 곳이 몇군데 있습니다. 그중 대표적인…

Continue Reading numpy windows용 64bit 버전

R – 콜택시/대리운전 데이터 분석 예제 #1

콜택시/대리운전 데이터 분석 예제 #1 SKT의 빅데이터허브에서 받은 콜택시/대리운전 데이터를 이용한 간단한 Data Munging과 EDA를 위한 전처리의…

Continue Reading R – 콜택시/대리운전 데이터 분석 예제 #1

R 버전 확인하는 법

R의 버전을 확인하는 방법 몇가지입니다. R의 버전을 확인해야 할 이유는 거의 없습니다. 패키지를 제작할 때 사용자가 여러…

Continue Reading R 버전 확인하는 법

R feature selection 예제

R로 된 feature selection 하는 코드입니다. 어디선가 퍼왔는데 출처가 기억이 나질 않네요. 부연설명을 드리면 모델링을 할 때…

Continue Reading R feature selection 예제

Python multi core 구동 코드

Python을 이용해서 ETL의 일부인 파싱이나 전처리 작업을 수행하는 경우가 많습니다. 빅데이터인 경우에도 데이터를 Hadoop이나 Hive 또는 Oracle과…

Continue Reading Python multi core 구동 코드

CSV포맷을 TSV포맷으로 바꾸는 간단한 스크립트

엑셀(Excel)에서 CSV 포맷으로 파일을 저장할 때 텍스트 컬럼을 Escaping처리하는 경우가 있습니다. 주로 쉼표(comma)와 따옴표(double quotation)을 그렇게 변환해…

Continue Reading CSV포맷을 TSV포맷으로 바꾸는 간단한 스크립트

R ARIMA 예제 코드

R의 ARIMA 모형의 예제입니다. 서버의 메모리의 사용량의 추이를 보고 얼마 후에 고갈되는지를 예측하는 코드입니다. 물론 예측력은 많이…

Continue Reading R ARIMA 예제 코드

각종 도구로 선형회귀(Linear Regression)해보기

오다카 토모히로의 만들면서 배우는 기계학습에 나오는 예제를 여러가지 도구로 각각 간단히 선형회귀(Linear regression)을 하는 방법을 적어봅니다. (이…

Continue Reading 각종 도구로 선형회귀(Linear Regression)해보기

R ggplot2 – 경제인구동향 그래프 찍기

R에서 ggplot2로 경제활동인구찍기를 해봤습니다. 사실은 다른 것을 플로팅해보려다가 원하는 자료를 다운로드 받는 것이 만만치 않아서 대충 지나가다가…

Continue Reading R ggplot2 – 경제인구동향 그래프 찍기

빅데이터와 샘플링

한 번쯤 생각을 정리할 필요가 있다고 생각해서 포스팅하는 중이다.(이하 편의상 계속 존칭 생략) 이런 내용을 다루기에는 조심스럽고…

Continue Reading 빅데이터와 샘플링

R과 Interactive visualization의 문제

R과 관련없이 유명한 상용 Interactive Data Visualization 툴로는 Spotfire가 있습니다. Spotfire는 그래프를 그리고 그래프의 영역을 계속 마우스로…

Continue Reading R과 Interactive visualization의 문제

R에서 Locale 바꾸기

R에서 로케일(Locale)을 바꾸는 코드입니다. R에서 로케일을 지원하는 펑션(function)들이 아직은 많지 않습니다만 datetime을 다루는 것들 중 일부는 따르는…

Continue Reading R에서 Locale 바꾸기

데이터 사이언티스트 (Data scientist)

데이터 사이언티스트(Data scientist, 이하 데이터 사이언티스트)에 대한 정의와 신규 직종으로써의 논의 거리고 많이 언급되고 있는 것 같아…

Continue Reading 데이터 사이언티스트 (Data scientist)

2SD rule (2표준편차 법칙)

2SD Rule (2표준편차 법칙, To understand variability; 가변성을 이해하기?) Super crunchers(슈퍼크런처, Ian Aires저) 라는 책에 있는 내용…

Continue Reading 2SD rule (2표준편차 법칙)

웹페이지 골든 트라이앵글 – Golden triangle on web page

Golden triangle in web page (골든 트라이 앵글) 지난번 포스트에 ATF(Above the fold line; 이하 줄임) 얘기를…

Continue Reading 웹페이지 골든 트라이앵글 – Golden triangle on web page

Above The Fold line

접선 위 영역 (Above The Fold Line) 줄여서 ATF 혹은 ATFL 이라고 많이 부릅니다. 특별한 행동을 취하거나…

Continue Reading Above The Fold line

형태소분석기란 무엇인가? 워드세그멘터와 형태소분석기

형태소 분석기 (Information POS tagger, word segmenter) 검색과 관련된 업무(정보처리기술과 관련된 직종 또는 관련 업무)를 하게되면 어떤것을…

Continue Reading 형태소분석기란 무엇인가? 워드세그멘터와 형태소분석기