메타, 대형 언어 모델 Llama 3 공개 : 클리앙

스크린샷 2024-04-19 오전 11.40.17.png

메타가 새로운 대형 언어 모델인 Llama 3을 공개하고 이를 오픈소스화했습니다. 이는 Llama 2를 공개한 지 약 9개월 만의 일입니다.

이제 필요한 하드웨어를 갖췄다면 누구나 다음 링크를 통해 모델을 다운로드하고 실행해 볼 수 있습니다.

https://huggingface.co/collections/meta-llama/meta-llama-3-66214712577ca38149ebb2b6

이번에는 8B(80억) 매개변수와 70B(700억) 매개변수의 두 가지 모델을 공개했으며, 각각의 모델 훈련에는 24,576개의 GPU가 포함된 두 개의 GPU 클러스터가 사용되었습니다.

8B 모델의 경우 일반적으로 약 200B 토큰의 데이터가 최적으로 알려져 있지만, 메타는 데이터의 양을 두 자릿수 배 늘려도 모델의 성능이 향상된다는 사실을 발견했으며 200B의 75배인 15T 토큰의 데이터까지 늘려도 성능이 로그 선형적으로 증가했습니다 , 최종적으로 8B, 70B 모델 둘 다 Llama 2를 훈련할 때보다 7배 많은 15T 토큰을 사용하여 훈련을 마쳤습니다.

컨텍스트 윈도우의 길이는 기존 4K에서 8K로 늘어났습니다.

Llama 3 8B 모델은 구글과 미스트랄의 오픈소스 7B 모델을 큰 차이로 앞질렀습니다.

Llama 3 70B 모델은 비공개 모델인 구글의 Gemini Pro 1.5와 클로드 Sonnet을 주요 벤치마크에서 앞섰으며, Human evaluation 에서도 GPT-3.5와 클로드 Sonnet을 능가하는 성능을 보였습니다. 이는 오픈소스 모델로서는 매우 강력한 결과입니다.

메타는 현재 4000억 개의 매개변수를 가진 Llama 3 400B 모델도 훈련 중임을 밝혔습니다.

새로운소식

메타, 대형 언어 모델 Llama 3 공개 9