Posted in 미분류

그림으로 쉽게 보는 TCP

브런치에 TCP 를 쉽게 배울 수 있는 좋은 글이 올라와서 소개드립니다. TCP/IP 인터넷 네트워크 프로토콜에 대해서 아주…

Posted in 미분류 인공지능, 기계학습 ML/AI 책 book 통계

공짜책 – 케빈 머피의 새 기계학습 책

무료책입니다. 아래 링크를 방문하시면 됩니다. https://probml.github.io/pml-book/book1.html 기계학습 서적의 저자로 유명한 Kevin Patrick Murphy의 새 책 이라고 합니다….

Posted in 데이터마이닝 Data mining 미분류 알고리즘 Algorithm 인공지능, 기계학습 ML/AI

CART – 결정 트리와 회귀 트리 Decision Tree and Regression Tree #1

결정트리(Decision Tree)인 CART 알고리즘에 대해 포스팅합니다. 제 계획대로라면 벌써 몇년전에 포스팅을 했어야 했지만 계획대로 되는 것은 언제나…

Posted in Python R 미분류

데이터과학하려면 R과 Python 중 어떤 걸 배워야 하나?

요즘 추세로 본다면 데이터과학, 데이터분석, 딥러닝, 기계학습 등을 하려면 R과 Python 중 하나를 선택해야 합니다. R과 Python은…

Posted in Python 데이터과학 Data Science

데이터 과학을 위한 R과 Python

데이터 과학을 할 때 사용할 컴퓨터 언어로 R이 좋은지 Python이 좋은지에 대한 비교글은 구글 검색을 하면 비교적…

Posted in 데이터베이스 Database 빅데이터 Big data

BigQuery JSON 문자열에서 원하는 값 추출하기

BigQuery 테이블에 어떤 필드에 JSON 문자열이 들어 있고 이 JSON 문자열에서 어떤 키에 해당하는 값을 가져오는 간단한…

Posted in 미분류

Docker proxy 설정

Docker를 사용할 때 docker를 구동시킬 서버가 방화벽 안쪽에 있거나 외부 네트워크(인터넷)에 직접 접속하지 못해서 docker image를 당겨오거나…

Posted in Python 리눅스 Linux

Fatal Python error: _PySys_BeginInit: can't initialize sys module

Linux에서 Python을 소스코드로 빌드해서 설치하려고 할 때 위와 같은 메시지가 보이면서 빌드가 안될때가 있습니다. 원인은 랭귀지 설정이나…

Posted in Python 미분류

Python 소스 컴파일에서 Error in `python': corrupted size vs. prev_size 에러

리눅스에 문제가 있거나 너무 오래된 버전의 리눅스 배포판을 사용할 때 Python source를 다운로드 받아서 빌드해야 하는 경우가…

Posted in Python 미분류

Ubuntu 14.04에 Python 3.7 설치하기

오래된 Ubuntu 14.04에 Python 3.7을 설치할 때 필요한 간단한 절차입니다. 이 글을 쓰는 시점에서의 최신 Ubuntu 18.04이고…

Posted in 미분류 알고리즘 Algorithm

Banker’s Rounding – 은행원 방식 반올림

아실지 모르겠지만 반올림은 여러가지 계산 방식이 있습니다. 한가지가 아닙니다. 이 차이를 모르면 소숫점이 있는 수치 계산을 하다가…

Posted in 미분류

워드프레스 구텐베르크에서 Mermaid 다이어그램 그리기

graph LR M –> e e –> r r –> m m –> a a –> i…

Posted in R 데이터시각화 Data Visualization

DiagrammeR – R 다이어그램 그리기

R 패키지중에 DiagrammeR라는 다이어그램(diagram)을 그릴 수 있게 해주는 것이 있습니다. 다이어그램은 플로우차트(flow chart), 간트 차트(gantt chart), 시퀀스…

Posted in 인공지능, 기계학습 ML/AI

앙상블 모델 – 배깅 Bagging

기계학습 부류. 분류(classification) 또는 예측(prediction)에서 여러 모델을 합쳐서 더 좋은 결과를 얻는 방법을 앙상블(Ensemble) 모델이라고 합니다.  앙상블…

Posted in R 소식

R 3.5.0 릴리즈 – Joy in playing

지난 2018-04-23에 R 3.5.0이 릴리즈 되었습니다. 이전 버전은 R 3.4.4입니다. R 3.5.0의 닉네임은 “Joy in playing”이고 늘…

Posted in R

R팁 – 두 벡터의 모든 멤버가 동일한지 비교하기 all.equal

두 벡터가 동일한지 비교하는 간단한 팁입니다. R은 벡터(vector)와 스칼라(scala)의 구분이 없이 사실은 모든 변수를 벡터로 취급하기 때문에…

Posted in 데이터마이닝 Data mining 데이터분석 Data Analysis 인공지능, 기계학습 ML/AI 텍스트마이닝

유클리디안 거리 – Euclidean Similarity

유클리디안 유사도라고도 하는데 원래 유클리디안 거리(Euclidean distance)라고 말하는 것이 맞는 것 같습니다. 유클리디안 유사도는 다소 이상한 단어의…

Posted in R 데이터분석 Data Analysis

무선통신서비스 가입회선 통계

과학기술정보통신부 홈페이지에 방문하면 무선통신서비스 가입회선 통계 데이터를 제공하고 있어서 아무나 받아서 사용할 수 있습니다.   수작업으로 하는 것이라서…

Posted in R

Windows 10에서 Rcpp 설치 오류 해결 방법

저는 여러 OS를 사용해서 작업을 여기저기에서 난잡하게 하는 편입니다.  버전도 다 다르고 설치된 패키지들도 달라서 작업을 하기전에…

Posted in 검색엔진 Search Engine

검색어 자동완성 서비스

구글, 빙, 네이버, 다음과 같은 검색포털에 접속해 보면 상단에 검색창이 있습니다. 이 검색창에 정보를 찾기 위해서 검색어를…

Posted in 미분류

데이터 사이언티스트 60초 설명

데이터 사이언티스트(Data scientist)를 쉽게 설명하는 60초 짜리 짧은 동영상을 트위터에서 발견했습니다. 동영상이 괜찮은 것 같아서 공유합니다. https://twitter.com/Fisher85M/status/935950475542847491/video/1

Posted in Python R

data.frame melt 시키기

테이블의 컬럼들을 한 컬럼으로 내리고 값을 따로 빼는 것을 melt(melting)라고 합니다.그 반대로 값을 컬럼으로 올리는  작업을 cast…

Posted in R 소식

RStudio 1.1 릴리즈

지난 10월 9일 RStudio 1.1이 릴리즈되었습니다. 설치를 하고 나면 다크테마로 설정된 달라진 분위기의 애플리케이션 모습을 볼 수…

Posted in Go

Ubuntu에 Go 1.8.x 설치하기

Ubuntu에서 다음과 같은 명령으로 go 언어를 설치할 수 있습니다.

하지만 현재의 최신 버전은 1.8 이상인데 1.6…

Posted in 리눅스 Linux

sudo: unable to resolve host xxxxxx 에러 메세지 해결 방법

VPS(클라우드나 가상시스템) 을 사용하는 경우가 이미 생성된 이미지를 그대로 복구했을 때 hostname이 제대로 설정되어 있지 않으면 sudo…

Posted in 미분류

MySQL 사용자 권한 설정 방법

MySQL에서 사용자의 권한을 모두 열어주는 query입니다. 먼저 host에 terminal로 접속합니다. 또는 권한이 있는 사용자의 계정으로 원격으로 접속합니다….

Posted in 학습/교육

포항공대 POSTECHX AI 및 데이트사이언스 관련 온라인 무료 강의

포항공대에서 개설한 MOOC(온라인 오픈 강의) 가 있습니다. http://www.postechx.kr/ko/school/gsit 2017-10-13 기준으로 총 6개의 온라인 강의가 개설되서 진행중입니다. 밑에…

Posted in 데이터엔지니어링 Data Engineering

Google Cloud Engine IP 대역 알아내기

Google Cloud Engine (줄여서 이하 GCE)로부터 회사의 서비스에 발생시키는 기계적인 트래픽을 알아내기 위해서 GCE의 전체 IP대역을 알아내서…

Posted in 검색엔진 Search Engine

오픈소스 검색엔진 베스파 Open source search engine Vespa

2017년 9월 26일에 Yahoo가 Vespa를 오픈해서 오픈소스로 공개했습니다. 먼저 밑에 프로젝트의 URL을 올려드립니다.http://vespa.ai/ 개인적으로 상당히 큰 사건이라고…

Posted in 데이터마이닝 Data mining 텍스트마이닝

TFIDF – Term Frequency Inverse Document Frequency

TFIDF(TF-IDF)에 대한 포스트입니다. 자세히 쉽게 그리고 조금 길게 적었습니다. TF-IDF 관련 강연을 하기 위해서 전에 작성해 놓은…

Posted in R 소식

R 3.4.1 릴리즈

2017년 6월 30일자로 R 3.4.1 버전이 릴리즈(release) 되었습니다. 패키지 설치시 문제와 펑션에 유니코드가 포함되어 있을 때 디스플레이에서…

Posted in 빅데이터 Big data

Hive server 2에 python impyla 패키지로 접속하기

ipyhton 또는 그냥 python script로 Hive에 접속해서 SQL을 실행하고 결과 데이터를 가져오게 하려면 굉장히 고통스럽습니다. Python에서 사용할…

Posted in 미분류

타임라인 광고 타겟팅 – timeline ad targeting

  지금 하는 일과 관련이 있는 것이라서 zdnet기사에 앱넥스트라는 회사에서 제안했다고 하는 타임라인 타겟팅이라는 기법(아이디어)에 대한 기사를 스크랩해…

Posted in R

R – yaml 파일 읽어오기

R로 작성한 script에서 가끔 복잡한 설정들 읽어야 할 때가 있습니다. 여러 방법을 사용할 수 있겠지만 설정파일을 만들어…

Posted in R

R – 변수에 값을 넣고 바로 결과를 출력하기

제목대로 입니다. 정말 별것 아닙니다. 아주 가끔 유용하게 쓸 때가 있습니다.

핵심은 2번째 줄입니다. 직접 실행해…

Posted in R

R – data.frame의 특정 컬럼의 NA를 0으로 채우기

별것 아닙니다만 data.frame에 NA가 섞인 경우에 이 결측치(missing value)를 채울 때 특정 컬럼의 결측치만 0으로 채워주고 싶을…

Posted in R

RStudio server 1.0.44 R notebook 기능 확인

지난 포스트에서 RStudio 1.0.44를 설치해서 R notebook 기능을 확인해 본 후에 RStduio server도 잘 작동하는지 확인하기 위해서…

Posted in R 소식

RStudio v1.0 릴리즈

요 며칠 사이에 R관련 커뮤니티에서 새소식으로 메일이 날아오고 있는데 가장 많이 보이는 것이 RStduio v1.0이 릴리즈 되었다는…

Posted in R 소식

마이크로소프트 Revolution Analytics사 인수

최근에 바쁘다 보니 이런 저런 뉴스를 놓치고 있었나 봅니다. 마이크로소프트(Microsoft)사가 Revolution Analytics사를 인수했다네요. 뉴스가 나온 시기가 좀…

Posted in 책 book

Data + Design 무료 온라인책

데이터 시각화에 관련된 책입니다. 웹으로도 볼 수 있고 PDF도 다운로드 받을 수 있습니다. 책 내용이 좋아서 링크인데도…

Posted in 미분류

SPSS syntax를 R로 변환해주는 웹서비스 translate2R

SPSS 신택스를 R 코드로 자동변환해주는 웹사이트가 나왔습니다. Use R! 2014에서 발표했나보네요. Use R! 컨퍼런스는 쓸만한 것이 꽤…

Posted in R 데이터시각화 Data Visualization

colorbrewer2.org 소개

R의 ggplot2 패키지에 보면 scale_color_brewer() 라는 함수가 있습니다. 이 함수는 colorbrewer2.org 사이트에서 제공하는 색상 팔레트를 플롯에 적용해…

Posted in 미분류

Reproducible Research – 재현가능연구

Reproducible Research에 대한 포스팅입니다. 이게 뭔지? 어떻게 하는 것인지? 이런 것들에 대한 내용입니다. Reproducible Research는 연구나 분석을…

Posted in 알고리즘 Algorithm

Interpolation methods – 내간법

Interpolation methods (내간법) 용어 확인을 위해서 영어사전을 찾아 보시면 내간법/내삽법/보간법이라고 나옵니다.   뭔가 다소 괴기스러운 어감인데 (^^;)…

Posted in 검색엔진 Search Engine 데이터마이닝 Data mining 알고리즘 Algorithm

Cosine Similarity – 코사인 유사도

삼각함수와 선형대수학에 대한 기본적인 배경지식이 있다면 코사인 유사도는 이해하기 매우 쉽습니다.  그게 아니라면 처음에 개념을 잡는 것이…

Posted in 미분류

빅데이터와 텍스트마이닝

빅데이터와 테스트 마이닝에 대해서 조금 적으려고 합니다. 빅데이터(Big data) 빅데이터(Big data)는 이제는 설명을 안해도 될 만큼 자료가…

Posted in 미분류

데이터 사이언티스트가 사용하는 도구

저는 기업체를 상대로 솔루션 사업을 하고 있는 회사에서 데이터 사이언티스트로 일하고 있습니다. 대외 미팅 중에 아이스브레이킹(ice breaking)을…

Posted in R 통계

코호트 분석 (Cohort Analysis)

코호트 분석 동질의 세그먼트 중에서 유사한 경험을 한 그룹을 코호트(Cohort)라고 합니다. 흔히 동일한 사회적 경험을 한 그룹이라고…

Posted in R

R과 SAS 비교

이 포스트를 올린 이유가 일을 하다보면 초등학생 질문처럼 “호랑이랑 사자가 싸우면 누가이겨요?” 라고 물어보는 분들이 많기 때문입니다….

Posted in 미분류

[컨퍼런스] 데이터사이언티스트가 말하는 빅데이터 분석 사례

(데이터솔루션)[http://www.spss.co.kr/main/main.asp]이 주최하는 빅데이터 세미나입니다. 사이트 주소: http://www.datasolution.kr/imgs_job/marketing/2014/bigdata_01.html 장소: 엘타워 그레이스 1홀 날짜: 2014년 3월 25일 화요일 시간:…

Posted in Python 데이터마이닝 Data mining 데이터엔지니어링 Data Engineering

numpy windows용 64bit 버전

Windows를 비롯해서 numpy를 설치하는 것이 쉬운일이 아닌데요. 그래서 따로 패키징된 것을 제공하는 곳이 몇군데 있습니다. 그중 대표적인…

Posted in R 미분류

R – 콜택시/대리운전 데이터 분석 예제 #1

콜택시/대리운전 데이터 분석 예제 #1 SKT의 빅데이터허브에서 받은 콜택시/대리운전 데이터를 이용한 간단한 Data Munging과 EDA를 위한 전처리의…

Posted in R

R 버전 확인하는 법

R의 버전을 확인하는 방법 몇가지입니다. R의 버전을 확인해야 할 이유는 거의 없습니다. 패키지를 제작할 때 사용자가 여러…

Posted in R 인공지능, 기계학습 ML/AI

R feature selection 예제

R로 된 feature selection 하는 코드입니다. 어디선가 퍼왔는데 출처가 기억이 나질 않네요. 부연설명을 드리면 모델링을 할 때…

Posted in Python 데이터엔지니어링 Data Engineering

Python multi core 구동 코드

Python을 이용해서 ETL의 일부인 파싱이나 전처리 작업을 수행하는 경우가 많습니다. 빅데이터인 경우에도 데이터를 Hadoop이나 Hive 또는 Oracle과…

Posted in Python 데이터엔지니어링 Data Engineering

CSV포맷을 TSV포맷으로 바꾸는 간단한 스크립트

엑셀(Excel)에서 CSV 포맷으로 파일을 저장할 때 텍스트 컬럼을 Escaping처리하는 경우가 있습니다. 주로 쉼표(comma)와 따옴표(double quotation)을 그렇게 변환해…

Posted in R 통계

R ARIMA 예제 코드

R의 ARIMA 모형의 예제입니다. 서버의 메모리의 사용량의 추이를 보고 얼마 후에 고갈되는지를 예측하는 코드입니다. 물론 예측력은 많이…

Posted in 데이터마이닝 Data mining

각종 도구로 선형회귀(Linear Regression)해보기

오다카 토모히로의 만들면서 배우는 기계학습에 나오는 예제를 여러가지 도구로 각각 간단히 선형회귀(Linear regression)을 하는 방법을 적어봅니다. (이…

Posted in R 데이터시각화 Data Visualization

R ggplot2 – 경제인구동향 그래프 찍기

R에서 ggplot2로 경제활동인구찍기를 해봤습니다. 사실은 다른 것을 플로팅해보려다가 원하는 자료를 다운로드 받는 것이 만만치 않아서 대충 지나가다가…

Posted in 미분류

빅데이터와 샘플링

한 번쯤 생각을 정리할 필요가 있다고 생각해서 포스팅하는 중이다.(이하 편의상 계속 존칭 생략) 이런 내용을 다루기에는 조심스럽고…

Posted in 미분류

R과 Interactive visualization의 문제

R과 관련없이 유명한 상용 Interactive Data Visualization 툴로는 Spotfire가 있습니다. Spotfire는 그래프를 그리고 그래프의 영역을 계속 마우스로…

Posted in 미분류

R에서 Locale 바꾸기

R에서 로케일(Locale)을 바꾸는 코드입니다. R에서 로케일을 지원하는 펑션(function)들이 아직은 많지 않습니다만 datetime을 다루는 것들 중 일부는 따르는…

Posted in 미분류

데이터 사이언티스트 (Data scientist)

데이터 사이언티스트(Data scientist, 이하 데이터 사이언티스트)에 대한 정의와 신규 직종으로써의 논의 거리고 많이 언급되고 있는 것 같아…

Posted in 통계

2SD rule (2표준편차 법칙)

2SD Rule (2표준편차 법칙, To understand variability; 가변성을 이해하기?) Super crunchers(슈퍼크런처, Ian Aires저) 라는 책에 있는 내용…

Posted in 인지과학 프론트엔드

웹페이지 골든 트라이앵글 – Golden triangle on web page

Golden triangle in web page (골든 트라이 앵글) 지난번 포스트에 ATF(Above the fold line; 이하 줄임) 얘기를…

Posted in 인지과학 프론트엔드

Above The Fold line

접선 위 영역 (Above The Fold Line) 줄여서 ATF 혹은 ATFL 이라고 많이 부릅니다. 특별한 행동을 취하거나…

Posted in 미분류

형태소분석기란 무엇인가? 워드세그멘터와 형태소분석기

형태소 분석기 (Information POS tagger, word segmenter) 검색과 관련된 업무(정보처리기술과 관련된 직종 또는 관련 업무)를 하게되면 어떤것을…