카테고리 보관물: 미분류

Llama3 발표

메타(Meta, 페이스북)의 LLaMa3 가 공개되었습니다.

앤드류 응 교수는 출시되지 마자 다음과 같은 멘트를 했습니다.
Meta released Llama 3 on my birthday! 🎂 Best present ever, thanks Meta! 😀

생일인데 Llama3이 발되었다고 좋은 선물이라고 하는데, 조금 오버입니다만 오버를 할 정도로 대단한 뉴스라는 것을 알 수 있습니다.

다른 많은 엔지니어들도 코멘트를 남겼으며 벌써 테스트를 해본 사람까지 있었습니다.

현재까지의 평가는 작은 사이즈에 비해 기존 모델과 비슷한 품질을 보여줘서 상당히 고무적이라는 평가입니다.
특히 Llama3의 가장 작은 모델은 8B모델은 LLama2의 7OB모델보다 MMLU 점수가 더 높았습니다.

MMLU는 언어모델의 지식 범위와 깊이를 측정하는 기준입니다.

LLama3에 대한 간단한 요약입니다.

  1. 24000개 H100 GPU가 붙은 클러스터 2개를 이용해서 모델 빌드
  2. 기존과 구조는 바꾼것 없이 데이터만 더 넣어서 성능 개선
  3. 제공 모델 크기는 8B, 70B, 400B+ (400B+은 아직 학습 중)
  4. 동급에 가장 리더보드 스코어가 높음
  5. 학습량 15T 토큰량. 5% 정도의 30개국어. 구글의 전세계 색인 문서의 1/4 수준
  6. 인스트럭션 러닝에도 많은 투자가 있었음. 즉 지시에 잘 따르고 말 잘듣게 학습시킴
  7. Azure에서 API, 웹페이지에서 모델 다운로드 가능
  8. 한국어 능력은 LLaMA2에 비해 크게 나아지지 않음. 다국어 학습량이 매우 부족해서 추가 필요
  9. 튜닝 후 배포할 땐 llama3- 라고 꼭 적어야함

아직 한국어는 좋지 않지만 조만간 튜닝이 된 파생 모델이 쏟아져 나올 것입니다.

이제 LLM은 ChatGPT가 출시된 첫번째 격동기에서 두번째 격동기에 접어들었습니다.

MMLU – 대규모 멀티태스크 언어 이해력 평가

MMLU: 대규모 멀티태스크 언어 이해력 평가

https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu

인공지능의 평가 및 비교를 볼 때 MMLU라는 지표를 자주 보게 됩니다.

MMLU(Massive Multitask Language Understanding)는 인공지능 모델의 지식 습득 능력을 종합적으로 평가하기 위한 벤치마크 중 하나입니다. 이 평가는 인공지능이 어느 정도까지 다양한 지식 영역을 이해하고 있는지를 측정하기 위해 고안되었습니다.

즉, 인공지능이 얼마나 다양한 지식을 가지고 있는지 평가하는 지표입니다.

MMLU의 특징

  • 다양한 주제 범위: MMLU는 STEM(과학, 기술, 공학, 수학), 인문학, 사회과학 등 약 57가지의 다양한 주제에 대한 이해를 평가합니다.
  • 다지선다 형식의 문제: 평가는 주로 다지선다 형식의 문제를 사용하여, 모델이 주어진 정보를 바탕으로 가장 적절한 답을 선택하도록 요구합니다.
  • zero-shot 및 few-shot 학습 환경: 이 벤치마크는 특히 모델이 사전에 해당 주제에 대한 특정한 학습 없이도 얼마나 잘 수행할 수 있는지(zero-shot), 또는 매우 제한된 데이터로 학습한 후의 성능(few-shot)을 평가합니다.

현재 성과와 리더보드

최신 인공지능 모델들의 성능은 Papers with Code 웹사이트의 MMLU 벤치마크 섹션에서 확인할 수 있습니다. 현재 GPT-4가 86.4%의 높은 정확도로 최고 성능을 기록하고 있습니다.

자료 및 리소스

  • 공식 GitHub: MMLU의 구현과 관련된 자세한 정보, 데이터셋 접근 및 사용 방법 등은 GitHub 페이지에서 확인할 수 있습니다. 이 페이지에는 또한 연구자들이 자신의 모델을 벤치마크에 적용해 볼 수 있는 지침과 도구들이 제공됩니다.

MMLU의 중요성

MMLU는 단순히 특정한 지식 영역에서의 모델 성능을 측정하는 것을 넘어, AI 모델이 얼마나 광범위하고 다양한 주제를 이해하고 있는지를 평가함으로써, 인공지능 기술의 종합적인 이해력과 다재다능성을 테스트합니다.

요약하면

MMLU는 아직까지는 AGI를 만들어가는데 중요한 평가지표입니다.

OpenAI Assistant API v2 달라진점

OpenAI Assistant API는 openapi에서 모델을 활용해서 개발하게 하는 API인데 2023 말에 Beta V1을 발표했습니다.

하지만 몇가지 단점과 한계, 버그가 있었는데 새 버전 2가 발표되었습니다.

간략한 요약은 다음과 같습니다.

2024년 4월 발표. OpenAI Assistants API의 기본 버전에 새로운 기능과 개선 사항을 넣어 OpenAI-Beta: assistants=v2 릴리즈로 만듦

  • 파일 검색 도구 개선: ‘file_search’ 도구는 이전보다 500배 많은 최대 10,000개 파일을 처리할 수 있습니다. 이 도구는 검색 속도가 빠르고, 멀티 스레드 검색을 통한 병렬 쿼리를 지원하며, 향상된 재정렬 및 쿼리 재작성 기능을 제공합니다. 기능 개선 및 신규 지원
  • 벡터 스토어 객체 도입: 파일이 벡터 스토어에 추가되면 자동으로 파싱, 청킹, 임베딩되어 검색 준비가 완료됩니다. 벡터 스토어는 여러 보조기와 스레드에 걸쳐 사용할 수 있어 파일 관리와 결제가 간소화됩니다. 신규 지원
  • 토큰 사용 최대치 제어: 실행할 때 사용하는 최대 토큰 수를 제어할 수 있어 토큰 사용 비용을 관리할 수 있습니다. 또한, 각 실행에서 사용되는 이전/최근 메시지의 수에 대한 제한을 설정할 수 있습니다. 신규 지원
  • 도구 선택 매개변수 지원: 특정 실행에서 특정 도구(예: file_search, code_interpreter 등)의 사용을 강제할 수 있는 ‘tool_choice’ 매개변수를 추가했습니다. 신규 지원
  • 역할이 보조인 메시지 생성 가능: Threads에서 사용자 정의 대화 이력을 생성할 수 있습니다.
  • 보조 및 실행 객체의 모델 구성 매개변수 지원: 인기 있는 모델 구성 매개변수(온도, 응답 형식(JSON 모드), top_p 등)를 지원합니다. 신규 지원
  • 미세 조정 모델 사용 가능: 현재는 gpt-3.5-turbo-0125의 미세 조정 버전만 지원됩니다. 신규 지원
  • 스트리밍 지원: Assistants API가 이제 스트리밍을 지원합니다. 신규 지원
  • 스트리밍 및 폴링 도우미 추가: Node 및 Python SDK에 여러 스트리밍 및 폴링 도우미를 추가했습니다. 신규 지원
  • 마이그레이션 가이드 제공: 최신 버전의 Assistants API로 도구 사용을 마이그레이션하는 방법에 대해 자세히 알아볼 수 있습니다. 신규 지원

데이터 사이언스의 스킬 범위

데이터 사이언스에 대한 좋은 도표가 있어 공유합니다.

그림처럼 Python만 써야 하는 것은 아닙니다. Python은 데이터과학을 하는데 필요한 컴퓨터 기술을 통칭한다고 생각하면 됩니다.

데이터분석과 데이터과학을 구별하지 못할 때가 많은데 차이점은 도메인 날리지(업무 지식)

이 이야기는 데이터과학이라는 용어가 생겼을 때부터 데이터과학의 정의에 항상 설명되어 있는 내용입니다.

데이터과학은 모든 기술을 업무 문제를 해결하는데 집중합니다.

반면 데이터분석은 현재 데이터의 상태를 확인하고 검증하는 것으로 끝냅니다.

현실의 문제를 해결하려는 목적없이 기계학습 모델만 만들고 싶어하면 단순한 ML엔지니어이고 통계적 분석만 한다면 단순한 분석가가 되는 것입니다.

하지만 복잡하고 풀기 곤란한 현실의 비즈니스 문제에 개입하고 싶지 않으려는 사람들이 많은데 그 사람들은 도메인 날리지를 제외하고 나머지 부분만을 데이터과학이라고 주장합니다.