메타가 새로운 대형 언어 모델인 Llama 3을 공개하고 이를 오픈소스화했습니다. 이는 Llama 2를 공개한 지 약 9개월 만의 일입니다.
이제 필요한 하드웨어를 갖췄다면 누구나 다음 링크를 통해 모델을 다운로드하고 실행해 볼 수 있습니다.
https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6
이번에는 8B(80억) 매개변수와 70B(700억) 매개변수의 두 가지 모델을 공개했으며, 각각의 모델 훈련에는 24,576개의 GPU가 포함된 두 개의 GPU 클러스터가 사용되었습니다.
8B 모델의 경우 일반적으로 약 200B 토큰의 데이터가 최적으로 알려져 있지만, 메타는 데이터의 양을 두 자릿수 배 늘려도 모델의 성능이 향상된다는 사실을 발견했으며 200B의 75배인 15T 토큰의 데이터까지 늘려도 성능이 로그 선형적으로 증가했습니다 , 최종적으로 8B, 70B 모델 둘 다 Llama 2를 훈련할 때보다 7배 많은 15T 토큰을 사용하여 훈련을 마쳤습니다.
컨텍스트 윈도우의 길이는 기존 4K에서 8K로 늘어났습니다.
Llama 3 8B 모델은 구글과 미스트랄의 오픈소스 7B 모델을 큰 차이로 앞질렀습니다.
Llama 3 70B 모델은 비공개 모델인 구글의 Gemini Pro 1.5와 클로드 Sonnet을 주요 벤치마크에서 앞섰으며, Human evaluation 에서도 GPT-3.5와 클로드 Sonnet을 능가하는 성능을 보였습니다. 이는 오픈소스 모델로서는 매우 강력한 결과입니다.
메타는 현재 4000억 개의 매개변수를 가진 Llama 3 400B 모델도 훈련 중임을 밝혔습니다.
일반적으로 8B 모델의 경우 14GB 이상의 VRAM이 탑재된 그래픽카드,
70B 모델의 경우 130GB 이상의 VRAM이 탑재된 그래픽카드, 혹은 그보다 작은 용량의 그래픽카드를 병렬 구성 하거나 통합 메모리 아키텍쳐 구조인 애플 실리콘 맥을 사용하는 경우도 있습니다.
양자화된 8bit, 4bit 모델의 경우 그보다 작은 VRAM으로도 구동이 가능합니다. 메타가 밝힌 만큼의 성능은 나오지 않겠지만요.
제미나이 경우를 봐도 관련서비스를 직접 써봐야 알 것 같습니다.