카테고리 보관물: 미분류

Bigquery를 이용한 시퀀스(Sequence)데이터 처리 방법

시퀀스 데이터 프로세싱은 다음과 같은 문제가 있습니다.

  1. window function은 where와 같은 조건을 지정해서 프레임내에 로우를 선택할 수 없습니다. 지원하는 경우도 있지만 드뭅니다.
  2. 시퀀스 데이터프로세싱은 매우 중요하지만 분산처리를 하기 매우 어렵기 때문에 처리 속도가 느리거나 정합성을 일부 포기해야 하는 문제가 있습니다.
  3. 시퀀스 데이터프로세싱은 미래에 결정된 데이터에 따라 과거의 데이터를 업데이트하는 것이 매우 어렵거나 되지 않습니다. (Google DataFlow와 같은 것은 가능)

기억해야 할 것

  • 윈도 펑션의 안과 바깥의 구분
    • “윈도 펑션의 결과값은 결국 1개의 값”
  • 특정 그룹의 시퀀스 토큰별로 그룹만들기
  • 값의 변화에 대한 기록 방법
  • 특정 프레임의 조건을 만드는 트릭
  • 태깅값에 의한 집계

예제 준비중

대학 전공서적, 기술서적 무료 다운로드 사이트 및 기타

LibGen(Library Gernesis)이라는 사이트에서 받으면 됩니다.

러시아 사이트인 것 같습니다.

https://libgen.is/

Z=library도 유명합니다.

https://z-lib.is/

논문 받는 곳은 다들 아시는

https://sci-hub.se/

그리고 논문의 Impact를 알아보는 Journal Impact Search 입니다.

https://www.bioxbio.com/

저널의 랭킹을 보는 곳은 SJR

https://www.scimagojr.com/journalrank.php

PySpark lit 메쏘드

pyspark에서 .lit()는 문자열의 값을 모두 채워서 컬럼으로 만들어주는 메소드입니다.

다음과 같이 사용합니다.

import pyspark
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('SparkByExamples.com').getOrCreate()
data = [("111",50000),("222",60000),("333",40000)]
columns= ["EmpId","Salary"]
df = spark.createDataFrame(data = data, schema = columns)

더 자세한 것은 아래의 블로그를 참고하세요.

https://cosmosproject.tistory.com/291

ls: cannot open directory .: Stale file handle

ls: cannot open directory .: Stale file handle

Linux에서 파일 목록을 확인하다가 위와 같은 오류가 보일 때가 있습니다.

원인

  • NFS(네트워크 스토리지)가 순간적으로 접속이 끊겼거나 마운트가 해제되었을 때
  • ls 하는 디렉토리가 삭제된 경우

해결책은 마운트를 점검하거나 다른디렉토리로 이동한 후 다시 해보면 되는 것이 전부입니다.