Hong의 모든 글

Direct Preference Optimization (DPO)

DPO는 LLM에서 사용하는 튜닝 방법입니다.

GPT는 Pretrained 단계를 거쳐 Fine-tuning에서 RLHF라는 사람의 피드백에 의한 강화학습을 합니다.

PPO라는 것을 쓰는데요.

채점 모델을 만들어 채점모델이 모델이 생성한 텍스트를 채점하게 해서 그걸 다시 학습으로 돌려서 모델의 성능을 개선하는 방법입니다.

대표적으로 ChatGPT가 이 방법을 사용합니다.

DPO는 인간의 피드백없이 그냥 선호하는 데이터로 모델을 튜닝하는 방법입니다.

일반 fine-tuning하고 뭐가 따른지가 궁금할텐데 일반 fine-tuning은 인간의 피드팩 데이터를 넣지 않을 수도 있고 넣을 수도 있만 DPO는 인간의 피드백을 그 자체로 학습에 사용하는 방법입니다.

대표적으로 Llama3가 이 방법을 사용합니다.

데이터브릭스 데이터 인텔리전스 데이 서울 2024

제목이 좀 기네요.

데이터브릭스 이벤트행사에 다녀왔습니다. 이 이벤트는 컨퍼런스 형식입니다.
모든 세션을 다 듣지 못했지만 들은 세션의 내용을 가지고 종합하면

좋았던 점

  1. 궁금한 것에 대해서 뭘 하고 있는지 어떻게 대응하고 있는지 잘 설명해줬다.
  2. 내용이 알찼고 섬세했다.
  3. 사용자의 LLM의 생성과 튜닝에 대해 준비가 어떻게 되어 있는지 잘 알려주고 있다.
  4. LLM을 응용한 여러가지 편의 기능과 최적화 기능 들은 인상적이었다.

아쉬운 점

  1. 설명할 내용이 많았는지 스피커들의 스피치속도가 빨라서 정식 없었다.
  2. 성공사례 발표가 많지 않았고 와닿지 않았다. 이건 다른 컨퍼런스도 마찬가지이지만 이게 아쉽네요.
  3. 협찬업체가 적어서 경품 부쓰가 적었다.

이렇습니다.

느낌은
무료 컨퍼런스임에도 매우 알차고 괜찮어서 만족스러웠습니다.
데이터브릭스 직원분들 능력이 좋은 것 같습니다.
사람이 많아서 많이 정신 없고 피곤했습니다. 인기 실감

Iphone에서 MLX로 Llama3 로딩 성공

iPhone에서 Llama3 8B 모델을 구동시키는데 성공했다는 뉴스가 나오자마자 인터넷 곳곳에서 따라하기에 성공사례가 연달아 나오고 있습니다.

정리하자면

애플 실리콘은 애플이 독자적으로 만든 반도체입니다. 그래서 인텔, AMD의 프로세서와 Nvidia GPU용으로 만들어진 모델이 그냥 작동하지 않습니다. Llama3도 마찬가지입니다. 돌아간다고 하더라도 효율이 문제인데 그래서 애플은 애플 실리콘에서 작동하는 자체 고속행렬연산 프레임워크인 MLX라는 것을 만들었습니다.

Llama3를 애플의 아이폰, 아이패드에서 돌리려면 MLX에서 돌도록 해야 제대로 되는데 그걸 매우 쉽게 했다는 것입니다.

아이폰 다음 모델에는 거의 온디비이스 AI 탑재될 것이 분명합니다.

온디바이스AI는 디바이스내에서 외부 통신없이 자체 능력만으로도 AI 프로세싱을 처리할 수 있는 것을 말합니다.

세상이 바뀌는 순간이 매우 빠르게 오고 있다는 느낌이 듭니다.

다음은 Llama3 8B를 iPhone 15 Pro Max에 설치하는 방법입니다. 편의상 영문 그대로 올립니다.

UPDATE: Successfully ran Llama3 8B Instruct on iPhone 15 Pro Max

Steps:

1. Install LLM Farm

2. Download Llama3 8B Instruct GGUF from Huggingface

3. Import & Run the model in LLM Farm

LLM Farm: https://llmfarm.site

Model File: https://huggingface.co/FaradayDotDev/llama-3-8b-Instruct-GGUF… Detailed steps coming soon!