카테고리 보관물: 미분류

Database CTE (Common Table Expression)

SQL에는 쿼리를 실행할 때 그 순간만 사용할 테이블을 잠깐 만들어서 사용할 수 있습니다.

이때 JOIN절에서 임시 테이블을 만드는 방법과 select하기 전에 with절로 임시 테이블을 만드는 방법이 있습니다.

쿼리 내에서 임시 테이블을 만드는 방법 2가지

  • 인라인뷰(Inline view): Join 구문에서 select를 사용해서 쿼리를 실행하고 이름을 붙여 테이블 처럼 사용
  • CTE (Common Table Expression): select하기 전에 with절로 select 구문을 묶어서 이름을 붙이고 공통 테이블처럼 사용

CTE의 장점은 한 번 작성하고 뒤에서 이름을 이용해서 여러번 참조할 수 있다는 장점이 있습니다.

다시 정리하면

CTE (Common Table Expression)

CTE (Common Table Expression)는 SQL 쿼리에서 일시적으로 사용되는 결과 세트를 정의하는 방법입니다. CTE는 복잡한 쿼리를 간단하게 만들고, 코드를 재사용하며, 가독성을 높여주는 도구입니다. CTE는 ‘WITH’ 절을 사용하여 정의되며, 이어지는 SELECT, INSERT, UPDATE, DELETE 문에서 참조할 수 있습니다.

MariaDB에서 CTE를 사용한 예제:

단순한 CTE 예제 (사용자 정보 가져오기):

WITH user_cte AS (   SELECT id, name, age   FROM users ) SELECT * FROM user_cte;

이 예제에서는 user_cte라는 CTE를 생성하고, users 테이블에서 id, name, age를 가져옵니다. 그 다음, user_cte를 참조하여 결과를 가져옵니다.

재귀 CTE 예제 (계층적 카테고리 정보 가져오기):

WITH RECURSIVE category_cte (id, parent_id, name, depth) AS (   SELECT id, parent_id, name, 0   FROM categories   WHERE parent_id IS NULL   UNION ALL   SELECT c.id, c.parent_id, c.name, p.depth + 1   FROM categories c   JOIN category_cte p ON c.parent_id = p.id ) SELECT * FROM category_cte ORDER BY depth, id;

이 예제에서는 category_cte라는 재귀 CTE를 사용하여, 계층적 카테고리 정보를 가져옵니다. 초기에는 상위 카테고리(즉, parent_id가 NULL인) 정보를 가져온 후, UNION ALL을 사용하여 하위 카테고리 정보를 가져옵니다. 그 다음, category_cte를 참조하여 결과를 가져옵니다.

다중 CTE 예제 (사용자 정보와 주문 정보 동시에 가져오기):


WITH user_cte AS (<br>  SELECT id, name, age<br>  FROM users<br>),<br>orders_cte AS (<br>  SELECT id, user_id, total<br>  FROM orders<br>)<br>SELECT u.name, u.age, o.total<br>FROM user_cte u<br>JOIN orders_cte o ON u.id = o.user_id;<

 

이 예제에서는 두 개의 CTE를 생성합니다. user_cte에서는 사용자 정보를 가져오고, orders_cte에서는 주문 정보를 가져옵니다. 그 다음, 두 CTE를 조인하여 결과를 가져옵니다.

Chatbot개발을 위한 KoAlpaca

Alpaca는 Facebook에서 공개한 LLama 모델을 스탠포드에서 개량한 것입니다.

Alpaca에 한국어 학습데이터를 추가한 것이 KoAlpaca입니다.

GPT API가 과금 문제가 있고 제차 빌드를 하려면 비용이 많이 들기 때문에 KoAlpaca의 공개된 엔진을 사용해서 어설픈 챗봇을 만들기로 했었습니다.

하지만 아래와 같은 이유로 포기했습니다.

포기 이유

  • GPU 없이 모델을 로딩해서 인퍼런스(문장완성이나 답변)을 뽑는 것이 너무 느림
  • GPU를 사용하려면 3080ti 같은 PC급 GPU로는 가장 가벼운 모델도 로딩하기 어려움
  • 원할한 서빙을 위해서 A100 이상의 GPU로 서빙을 해야 하는데 비용이 높음
  • KoAlpaca의 품질이 GPT 3.5에 비해서도 확인히 떨어짐. 한국어는 매우 심함

현실적으로 챗봇의 품질을 확보하려면 GPT API를 사용하거나 Azure를 사용하는 것이 가장 품질과 비용을 고려한 솔루션이 될 것 같습니다.

KoAlpaca는 누군가 모델을 더 개선할 때까지 기다려야 할지 모르겠네요.

Bigquery를 이용한 시퀀스(Sequence)데이터 처리 방법

시퀀스 데이터 프로세싱은 다음과 같은 문제가 있습니다.

  1. window function은 where와 같은 조건을 지정해서 프레임내에 로우를 선택할 수 없습니다. 지원하는 경우도 있지만 드뭅니다.
  2. 시퀀스 데이터프로세싱은 매우 중요하지만 분산처리를 하기 매우 어렵기 때문에 처리 속도가 느리거나 정합성을 일부 포기해야 하는 문제가 있습니다.
  3. 시퀀스 데이터프로세싱은 미래에 결정된 데이터에 따라 과거의 데이터를 업데이트하는 것이 매우 어렵거나 되지 않습니다. (Google DataFlow와 같은 것은 가능)

기억해야 할 것

  • 윈도 펑션의 안과 바깥의 구분
    • “윈도 펑션의 결과값은 결국 1개의 값”
  • 특정 그룹의 시퀀스 토큰별로 그룹만들기
  • 값의 변화에 대한 기록 방법
  • 특정 프레임의 조건을 만드는 트릭
  • 태깅값에 의한 집계

예제 준비중

대학 전공서적, 기술서적 무료 다운로드 사이트 및 기타

LibGen(Library Gernesis)이라는 사이트에서 받으면 됩니다.

러시아 사이트인 것 같습니다.

https://libgen.is/

Z=library도 유명합니다.

https://z-lib.is/

논문 받는 곳은 다들 아시는

https://sci-hub.se/

그리고 논문의 Impact를 알아보는 Journal Impact Search 입니다.

https://www.bioxbio.com/

저널의 랭킹을 보는 곳은 SJR

https://www.scimagojr.com/journalrank.php