메타(Meta, 페이스북)의 LLaMa3 가 공개되었습니다.
앤드류 응 교수는 출시되지 마자 다음과 같은 멘트를 했습니다.
Meta released Llama 3 on my birthday! 🎂 Best present ever, thanks Meta! 😀
생일인데 Llama3이 발되었다고 좋은 선물이라고 하는데, 조금 오버입니다만 오버를 할 정도로 대단한 뉴스라는 것을 알 수 있습니다.
다른 많은 엔지니어들도 코멘트를 남겼으며 벌써 테스트를 해본 사람까지 있었습니다.
현재까지의 평가는 작은 사이즈에 비해 기존 모델과 비슷한 품질을 보여줘서 상당히 고무적이라는 평가입니다.
특히 Llama3의 가장 작은 모델은 8B모델은 LLama2의 7OB모델보다 MMLU 점수가 더 높았습니다.
MMLU는 언어모델의 지식 범위와 깊이를 측정하는 기준입니다.
LLama3에 대한 간단한 요약입니다.
- 24000개 H100 GPU가 붙은 클러스터 2개를 이용해서 모델 빌드
- 기존과 구조는 바꾼것 없이 데이터만 더 넣어서 성능 개선
- 제공 모델 크기는 8B, 70B, 400B+ (400B+은 아직 학습 중)
- 동급에 가장 리더보드 스코어가 높음
- 학습량 15T 토큰량. 5% 정도의 30개국어. 구글의 전세계 색인 문서의 1/4 수준
- 인스트럭션 러닝에도 많은 투자가 있었음. 즉 지시에 잘 따르고 말 잘듣게 학습시킴
- Azure에서 API, 웹페이지에서 모델 다운로드 가능
- 한국어 능력은 LLaMA2에 비해 크게 나아지지 않음. 다국어 학습량이 매우 부족해서 추가 필요
- 튜닝 후 배포할 땐 llama3- 라고 꼭 적어야함
아직 한국어는 좋지 않지만 조만간 튜닝이 된 파생 모델이 쏟아져 나올 것입니다.
이제 LLM은 ChatGPT가 출시된 첫번째 격동기에서 두번째 격동기에 접어들었습니다.