본문 바로가기
Paper review

Introducing Meta Llama 3: The most capable openly available LLM to date 리뷰

by AI미남홀란드 2024. 4. 22.
728x90

 

ollama - llama3 현재 사용가능

 

 

https://ai.meta.com/blog/meta-llama-3/?utm_campaign=llama3&utm_content=video&utm_medium=organic_social&utm_source=twitter

로그인되어 있지 않음 이 페이지를 보려면 로그인하세요.

ai.meta.com

 

 

 

GitHub - jh941213/LLaMA3_cookbook: Here's how to use Lama3 for beginners and what services are being used.

Here's how to use Lama3 for beginners and what services are being used. - jh941213/LLaMA3_cookbook

github.com

 

TakeOut


오늘은 최신 오픈 소스 대규모 언어 모델의 차세대 버전인 Meta Llama 3을 소개합니다. Llama 3 모델은 곧 AWS, 데이터브릭스, 구글 클라우드, 허깅 페이스, 캐글, IBM 왓슨 X, 마이크로소프트 애저, 엔비디아 NIM, 스노플레이크에서 제공될 예정이며 AMD, AWS, 델, 인텔, 엔비디아, 퀄컴의 하드웨어 플랫폼에서 지원될 예정입니다. 저희는 책임감 있는 방식으로 라마 3를 개발하기 위해 최선을 다하고 있으며, 다른 사람들도 책임감 있게 사용할 수 있도록 다양한 리소스를 제공하고 있습니다. 여기에는 새로운 신뢰 및 안전 도구인 Llama Guard 2, Code Shield, CyberSec Eval 2의 도입이 포함됩니다. 앞으로 몇 달 안에 새로운 기능, 더 긴 콘텍스트 창, 추가 모델 크기, 향상된 성능을 소개할 예정이며, Llama 3 연구 논문도 공유할 예정입니다. Llama 3 기술로 구축된 Meta AI는 이제 사용자의 지능을 높이고 업무 부담을 덜어주어 학습, 업무 처리, 콘텐츠 제작, 연결을 도와 모든 순간을 최대한 활용할 수 있도록 지원하는 세계 최고의 AI 비서 중 하나가 되었습니다. 여기에서 Meta AI를 사용해 보세요.

오늘 우리는 넓은 사용을 위해 제공되는 새로운 세대의 Llama, Meta Llama 3의 첫 두 모델을 공유하게 되어 기쁩니다. 이번 릴리즈는 8B와 70B 파라미터를 갖는 사전 훈련된 언어 모델과 지시사항에 따른 미세조정 언어 모델을 특징으로 하며, 다양한 사용 사례를 지원할 수 있습니다. 이 새로운 세대의 Llama는 다양한 산업 벤치마크에서 최고의 성능을 보여주며, 개선된 추론능력을 포함한 새로운 기능들을 제공합니다. 우리는 이것들이 그 클래스에서 최고의 오픈 소스 모델이라고 믿습니다. 우리의 오랜 오픈 접근 방식을 지원하기 위해, 우리는 Llama 3을 커뮤니티의 손에 맡기고자 합니다. 우리는 AI 전반에 걸친 다음 혁신의 물결을 시작하고자 합니다. 애플리케이션에서 개발 도구, 평가, 추론 최적화에 이르기까지. 우리는 여러분이 무엇을 만들어낼지 보고 기대하며 여러분의 피드백을 기대합니다.

 

LLaMA3가 나오고 평이 나뉘고 있긴하다. '그전과 다른 게 뭐야?'. '쩐다 오픈소스 혁명이다' 등 다양한 반응인데 Meta 쪽에서 스타트업이나, 큰 회사에는 미리 Weight를 제공해서 Application을 미리 만들고 동시에 발표를 한 게 아닌가 싶긴 하다. 너무 몇 시간 안 되었는데 서비스들이 우수수 쏟아져 나오고 있다. 아님.. 천재인가? 여하튼 좋은 현상 아닐까 싶다. 메타 CEO 저커버그도 인터뷰에서 결국 오픈소스로 이 비싼 LLaMA를 푸는 것도 생태계의 발전도 있겠지만 Meta 플랫폼에 유연하게 적용하기 위함이라고 언급을 했다. 애플, 구글 때문에 많이 스트레스받은 듯하다 ㅋㅋ, 모델은 8B , 70B로 공개되었다. 

 

저커버그 인터뷰

 

Our goals for Llama 3

 

Llama 3를 개발하면서, 우리는 오늘날 사용 가능한 최고의 사유 모델과 견줄 수 있는 최고의 오픈 모델을 만들고자 했습니다. 우리는 개발자 피드백을 반영하여 Llama 3의 전반적인 유용성을 높이고자 하며, 이를 통해 책임 있는 사용과 LLM의 배포에서 선도적 역할을 계속하고 있습니다. 우리는 오픈 소스 정신을 받아들여, 이 모델들이 아직 개발 중일 때 커뮤니티가 접근할 수 있도록 자주 초기에 모델을 공개하고 있습니다. 오늘 공개하는 텍스트 기반 모델들은 Llama 3 모델 컬렉션의 첫 번째입니다. 우리의 근미래 목표는 Llama 3을 다국어 및 다모달로 만들고, 더 긴 맥락을 가지며, 추론과 코딩 같은 핵심 LLM 능력을 통해 전반적인 성능을 계속 향상하는 것입니다.

 

State-of-the-art performance

 

우리의 새로운 8B와 70B 파라미터 Llama 3 모델들은 Llama 2를 크게 앞서며 해당 규모에서 LLM 모델의 새로운 기준을 설정합니다. 사전 훈련 및 사후 훈련의 개선 덕분에, 우리의 사전 훈련된 모델과 지시사항에 따른 미세조정 모델들은 현재 8B와 70B 파라미터 규모에서 가장 우수한 모델들입니다. 우리의 사후 훈련 절차에서의 개선은 거짓 거부율을 크게 줄이고, 정렬을 개선하며, 모델 응답의 다양성을 증가시켰습니다. 또한, 추론, 코드 생성, 지시사항 따르기와 같은 능력이 크게 향상되어 Llama 3을 더욱 조절 가능하게 만들었습니다.

inst performance

Llama 3의 개발 과정에서, 우리는 표준 벤치마크에서의 모델 성능을 살펴보았고, 실제 세계 시나리오에서의 성능 최적화를 추구했습니다. 이를 위해, 우리는 새로운 고품질의 인간 평가 세트를 개발했습니다. 이 평가 세트는 조언 요청, 아이디어 도출, 분류, 닫힌 질문 응답, 코딩, 창의적 글쓰기, 추출, 캐릭터/페르소나 설정, 열린 질문 응답, 추론, 재작성, 요약 등 12개의 주요 사용 사례를 포함하는 1,800개의 프롬프트를 포함합니다. 우리 모델이 이 평가 세트에 우연히 과적합되는 것을 방지하기 위해, 심지어 우리 자신의 모델링 팀도 이 세트에 접근할 수 없습니다. 아래 차트는 Claude Sonnet, Mistral Medium, 그리고 GPT-3.5와의 비교에서 이러한 카테고리와 프롬프트에 대한 우리의 인간 평가 결과를 집계한 것을 보여줍니다.

 

12개의 벤치마크에서 최근에 나오고 성능이 좋았다고 평가받았던 모델들을 그냥 압살을 해버리는 벤치마크다.

인간 정성평가

 

이 평가 세트를 기반으로 한 인간 주석가들의 선호도 순위는 실제 시나리오에서 비슷한 규모의 경쟁 모델과 비교했을 때 70B 명령어 추종 모델의 강력한 성능을 보여줍니다.

 

또한 사전 학습된 모델은 이러한 규모의 LLM 모델을 위한 새로운 최신 기술을 확립합니다.

LLM 리더보드 성능

 

 

모델을 1:1로 인간의 평가를 했을때도 압도하는 성능이다 지금 보면 GPT3.5는 이겼고 , 위 LMSYS 리더보드 랭크에서도 5 사실상 3등에 가까운 수치를 보여주고 있다. Mistral, Qwen 과의 차이도 나는 편이고, 비교하고 있는 대상이 현재 API로 유료로 사용하고 있는 모델과 비교가 되고 있다. 그만큼 LLama3의 성능이 우월하다.

pretrain performance

pretrained 지시사항 튜닝을 학습하기전 대용량 코퍼스로 학습된 프리트레인 모델부터 성능이 매우 좋다.

 

훌륭한 언어 모델을 개발하려면 단순성을 위해 혁신, 확장 및 최적화하는 것이 중요하다고 생각합니다. 모델 아키텍처, 사전 학습 데이터, 사전 학습 확장, 인스트럭션 미세 조정이라는 네 가지 핵심 요소에 중점을 두고 라마 3 프로젝트 전반에 걸쳐 이러한 설계 철학을 적용했습니다.

 

Model architecture

디자인 철학에 따라 라마 3에서는 비교적 표준적인 디코더 전용 트랜스포머 아키텍처를 선택했습니다. Llama 2와 비교했을 때 몇 가지 주요 개선 사항이 있었습니다. Llama 3는 언어를 훨씬 더 효율적으로 인코딩하는 128K 토큰 어휘의 토큰화기를 사용하여 모델 성능을 크게 향상했습니다. Llama 3 모델의 추론 효율성을 개선하기 위해 8B 및 70B 크기 모두에 그룹화된 쿼리 주의(GQA)를 채택했습니다. 자체 주의가 문서 경계를 넘지 않도록 마스크를 사용해 8,192개의 토큰 시퀀스로 모델을 훈련시켰습니다.

 

- Transformer decoder

- 128K vocab size

- 8192 Context window size

- Group Query Attention

 

코드를 훑어봐야 알겠지만 현재로 봐서는 다른 모델과는 큰 차이점은 없어보인다. 8192로 Context window 사이즈가 커진거 보면 Rotary embedding을 사용했을 것으로 추측되고, GQA 아무래도 메모리를 효율적으로 사용하기 위해 LLama2 때부터 사용된 온 기술을 적용한 듯하다. 재밌는 사실은 라마 2 때는 vocab size가 32k였는데 4배가량 늘어나므로, 다국어 영역을 커버하기 위함이 아닌가 생각된다.

 

Training Data

최고의 언어 모델을 훈련하기 위해서는 대규모 고품질 훈련 데이터 세트의 큐레이션을 매우 중요하게 생각합니다. 우리의 디자인 원칙에 따라, 우리는 사전 훈련 데이터에 많은 투자를 했습니다. Llama 3는 공개적으로 이용 가능한 출처에서 수집된 15조 이상의 토큰으로 사전 훈련되었습니다. 우리의 훈련 데이터 세트는 Llama 2에 사용된 것보다 일곱 배 크며, 코드도 네 배 많이 포함되어 있습니다. 다가오는 다국어 사용 사례를 위해, Llama 3 사전 훈련 데이터 세트의 5% 이상이 30개 이상의 언어를 포함하는 고품질 비영어 데이터로 구성되어 있습니다. 그러나, 이러한 언어들에서는 영어만큼의 성능을 기대하지 않습니다.

Llama 3가 최고 품질의 데이터로 훈련되도록, 우리는 여러 데이터 필터링 파이프라인을 개발했습니다. 이 파이프라인에는 휴리스틱 필터, NSFW 필터, 의미 중복 제거 방법 및 데이터 품질을 예측하는 텍스트 분류기의 사용이 포함됩니다. 이전 세대의 Llama가 고품질 데이터를 식별하는데 놀랍도록 잘하는 것으로 나타났기 때문에, 우리는 Llama 2를 사용하여 Llama 3을 지원하는 텍스트 품질 분류기의 훈련 데이터를 생성했습니다.

또한, 최종 사전 훈련 데이터 세트에서 다양한 출처의 데이터를 혼합하는 최적의 방법을 평가하기 위해 광범위한 실험을 수행했습니다. 이 실험들은 Llama 3이 트리비아 질문, STEM, 코딩, 역사적 지식 등의 사용 사례에 걸쳐 잘 수행되도록 데이터 믹스를 선택하는 데 도움을 주었습니다

 

Llama 3는 15조 이상의 토큰으로 구성된 대규모 고품질 훈련 데이터 세트를 사용하여 사전 훈련되었으며, 이는 Llama 2 대비 크게 확장된 양이다. 이 데이터 세트에는 다양한 언어의 비영어 데이터도 포함되어 다국어 처리 능력을 준비합니다. 고품질 데이터 보장을 위해 여러 필터링 파이프라인을 사용하고, 다양한 데이터 소스의 혼합을 최적화하여 Llama 3의 성능을 다양한 사용 사례에서 극대화하였다. 15조란 개수가 상상이 안되는데 이번에 Hugging Face에서 fineweb data를 공개했는데 이거 또한 개수가 15조 토큰 정도가 된다.

 

 

HuggingFaceFW/fineweb · Datasets at Hugging Face

Pneumonia is a common cause for ED visits. How do you decide on whether the patient can be managed as an outpatient or inpatient? To supplement your clinical judgment, many clinicians use the Pneumonia Severity Index (PSI) score. Have you heard of CURB-65,

huggingface.co

 

LLama3가 얼마나 오픈소스 생태계에 기여하는지를 볼 수 있을 것 같다.

 

Scaling up pretraining

 

Llama 3 모델의 사전 훈련 데이터를 효과적으로 활용하기 위해, 우리는 사전 훈련의 확장에 상당한 노력을 기울였습니다. 구체적으로, 우리는 다운스트림 벤치마크 평가를 위한 상세한 스케일링 법칙들을 개발했습니다. 이 스케일링 법칙들은 최적의 데이터 믹스를 선택하고, 우리의 훈련 계산을 최고로 활용하는 방법에 대한 정보에 근거한 결정을 내리는 것을 가능하게 합니다. 중요하게, 스케일링 법칙은 실제로 모델을 훈련하기 전에 주요 과제들(예를 들어, HumanEval 벤치마크에서 평가된 코드 생성)에서 우리의 가장 큰 모델의 성능을 예측할 수 있게 해 줍니다. 이는 다양한 사용 사례와 능력에서 최종 모델의 강력한 성능을 보장하는 데 도움을 줍니다.

Llama 3의 개발 동안 스케일링 행동에 대한 여러 새로운 관찰을 했습니다. 예를 들어, 8B 파라미터 모델에 대한 Chinchilla-Scaling up pretraining 은 대략 200B 토큰에 해당하지만, 우리는 모델이 훨씬 더 많은 데이터, 두 자릿수의 차이로 훈련된 후에도 성능이 계속 향상됨을 발견했습니다. 우리의 8B와 70B 파라미터 모델은 최대 15T 토큰에 이르기까지 훈련된 후에도 로그-선형으로 계속 개선되었습니다. 더 큰 모델들은 더 적은 훈련 계산으로 이러한 더 작은 모델들의 성능을 맞출 수 있지만, 추론 중 훨씬 더 효율적이기 때문에 일반적으로 더 작은 모델들이 선호됩니다.

우리의 가장 큰 Llama 3 모델들을 훈련시키기 위해, 우리는 데이터 병렬화, 모델 병렬화, 그리고 파이프라인 병렬화 세 가지 유형의 병렬화를 결합했습니다. 우리의 가장 효율적인 구현은 16K GPU에서 동시에 훈련할 때 GPU 당 400 TFLOPS 이상의 계산 활용도를 달성합니다. 우리는 두 개의 맞춤형으로 만들어진 24K GPU 클러스터에서 훈련을 수행했습니다. GPU 가동 시간을 극대화하기 위해, 우리는 오류 감지, 처리 및 유지 보수를 자동화하는 진보된 새로운 훈련 스택을 개발했습니다. 또한, 우리는 하드웨어 신뢰성과 무음 데이터 손상의 감지 메커니즘을 크게 개선하였고, 체크포인팅 및 롤백의 오버헤드를 줄이는 새로운 확장 가능한 저장 시스템을 개발했습니다. 이러한 개선은 전체적으로 95% 이상의 효과적인 훈련 시간을 결과로 하였습니다. 이러한 개선을 종합하면, Llama 3 훈련의 효율성이 Llama 2에 비해 약 세 배 증가했습니다.

 

친칠라 스케일 업 을 통해서 모델의 크기를 줄이고도, 데이터를 늘렸을 때 성능이 나을 수 있다는 방법인데 그 방법과, 수많은 GPU를 효율적으로 통신하고 클러스터 훈련시키는 자기들만의 메커니즘을 개발해서 효율적인 학습을 진행했다는데 그저 빅테크의 영역이다. 16k GPU와 24k GPU..? A100, H100 일 텐데 저게다 얼마일까 저걸 컨트롤해본 엔지니어가 과연 몇이나 될까 생각이 든다.

 

Instruction fine-tunning

우리는 채팅 사용 사례에서 사전 훈련된 모델의 잠재력을 완전히 활용하기 위해 지시사항 튜닝 방법에도 혁신을 가했습니다. 우리의 사후 훈련 접근 방식은 감독된 미세 조정(SFT), 거부 샘플링, 근접 정책 최적화(PPO), 직접 정책 최적화(DPO)의 조합입니다. SFT에서 사용되는 프롬프트의 품질과 PPO 및 DPO에서 사용되는 선호도 순위는 모델의 성능에 큰 영향을 미칩니다. 모델 품질의 가장 큰 개선은 이 데이터를 신중하게 큐레이션 하고, 인간 주석자들이 제공한 주석에 대해 여러 라운드의 품질 보증을 수행함으로써 이루어졌습니다.

PPO와 DPO를 통해 선호도 순위에서 학습하는 것은 또한 Llama 3의 추론 및 코딩 작업에서의 성능을 크게 향상시켰습니다. 우리는 만약 모델에게 해결하기 어려운 추론 질문을 던지면, 모델이 때때로 올바른 추론 경로를 생성할 수 있다는 것을 발견했습니다: 모델은 올바른 답을 생성하는 방법을 알고 있지만, 그것을 선택하는 방법은 모릅니다. 선호도 순위에 대한 훈련을 통해 모델은 그것을 선택하는 방법을 배울 수 있습니다.

 

DPO, PPO 강화학습을 사용했기 때문에 나중에 DPO 로 튜닝해 봐서 선호도 관련 downstream task 데이터셋만 있다면 튜닝하면 성능이 더 효율적이지 않을까 생각이 든다.

 

Building with LLama3

 

우리의 비전은 개발자들이 관련 사용 사례를 지원하기 위해 Llama 3를 맞춤화하고, 최선의 관행을 채택하고 개방형 생태계를 개선하기 쉽게 만드는 것입니다. 이번 릴리스를 통해, 우리는 Llama Guard 2와 Cybersec Eval 2를 포함한 업데이트된 구성 요소들, 그리고 LLM이 생성한 불안전한 코드를 필터링하는 추론 시간의 보호장치인 Code Shield의 도입을 포함한 새로운 신뢰와 안전 도구를 제공합니다.

또한, 우리는 PyTorch 기반의 새로운 라이브러리인 torchtune과 함께 Llama 3을 공동 개발했습니다. torchtune은 메모리 효율적이고 해킹 가능한 훈련 레시피를 완전히 PyTorch로 작성하여, LLM을 쉽게 작성, 미세 조정 및 실험할 수 있도록 해줍니다. 이 라이브러리는 Hugging Face, Weights & Biases, EleutherAI와 같은 인기 있는 플랫폼과 통합되어 있으며, 다양한 모바일 및 에지 디바이스에서 효율적인 추론을 가능하게 하는 Executorch도 지원합니다. 프롬프트 엔지니어링에서부터 Llama 3을 LangChain과 함께 사용하는 것까지, 우리는 Llama 3을 다운로드하여 대규모로 배포할 때까지 안내하는 종합적인 시작 가이드를 제공합니다.

 

위에서 말했던 것이 미리 기업들과 협업해서 여러 라이브러리가 우우죽순 쏟아져 나오는 듯하다. torchtune 은 코드도 간결하고 기존의 meta 가 만든 Pytorch 환경에서 튜닝이기 때문에 더 쉽게 사용이 가능할 듯하다. 랭체인과 같은 RAG 프레임워크도 지원을 시작했고, 확실히 오픈소스에 진심이다.

 

 

torchtune: Easily fine-tune LLMs using PyTorch

We’re pleased to announce the alpha release of torchtune, a PyTorch-native library for easily fine-tuning large language models.

pytorch.org

 

A System-level approach to responsibility

우리는 Llama 3 모델을 책임감 있게 배포하는 업계 선도적 접근 방식을 보장하면서 최대한 유용하게 설계하였습니다. 이를 달성하기 위해, 우리는 Llama의 책임 있는 개발과 배포에 대한 새로운 시스템 수준 접근 방식을 채택했습니다. 우리는 Llama 모델을 개발자가 주도하는 더 넓은 시스템의 일부로 보고 있습니다. Llama 모델은 개발자들이 그들의 독특한 최종 목표를 염두에 두고 설계할 수 있는 시스템의 기초적인 부분으로 기능할 것입니다.

 

Ai safey

 

지시사항 미세조정도 우리 모델의 안전성을 보장하는데 중요한 역할을 합니다. 우리의 지시사항-미세조정된 모델은 내부적 및 외부적 노력을 통해 안전성 검증(레드 팀 테스트)을 받았습니다. 우리의 레드 팀 접근 방식은 인간 전문가와 자동화 방법을 활용하여 문제가 될 수 있는 응답을 유도하는 적대적 프롬프트를 생성합니다. 예를 들어, 우리는 화학, 생물학, 사이버 보안, 및 기타 위험 영역과 관련된 오남용 위험을 평가하기 위한 종합적인 테스팅을 적용합니다. 이 모든 노력은 반복적으로 사용되며, 출시되는 모델의 안전 미세조정에 대한 정보를 제공합니다. 모델 카드에서 우리의 노력에 대해 더 읽을 수 있습니다.

Llama Guard 모델은 프롬프트와 응답 안전성의 기반으로 의도되었으며, 필요에 따라 새로운 분류체계를 쉽게 미세조정할 수 있습니다. 출발점으로서, 새로운 Llama Guard 2는 최근 발표된 MLCommons 분류체계를 사용하여 이 중요한 분야에서 업계 표준의 등장을 지원하려고 합니다. 또한, CyberSecEval 2는 그 전신을 확장하여 LLM의 코드 해석기 오남용, 공격적 사이버 보안 능력, 프롬프트 주입 공격에 대한 취약성을 추가로 측정합니다(기술 문서에서 더 배울 수 있습니다). 마지막으로, 우리는 LLM이 생성한 불안전한 코드를 필터링하는 추론 시간의 보호 장치인 Code Shield를 소개합니다. 이는 불안전한 코드 제안, 코드 해석기 오남용 방지 및 안전한 명령 실행과 관련된 위험을 완화하는 데 도움을 줍니다.

창조적 AI 분야가 빠르게 발전함에 따라, 우리는 개방형 접근 방식이 생태계를 통합하고 이러한 잠재적 해를 완화하는 중요한 방법이라고 믿습니다. 이의 일환으로, 우리는 LLM과 함께 책임 있는 개발을 위한 종합 가이드를 제공하는 책임 사용 가이드(RUG)를 업데이트하고 있습니다. RUG에서 설명한 바와 같이, 모든 입력과 출력은 애플리케이션에 적합한 내용 가이드라인에 따라 검사 되고 필터링되어야 합니다. 또한, 많은 클라우드 서비스 제공자들이 콘텐츠 조정 API와 기타 책임 있는 배포 도구를 제공하며, 우리는 개발자들이 이러한 옵션을 사용하는 것도 고려하도록 권장합니다.

 

llama3 model card

 

llama3/MODEL_CARD.md at main · meta-llama/llama3

The official Meta Llama 3 GitHub site. Contribute to meta-llama/llama3 development by creating an account on GitHub.

github.com

 

Deploying Llama 3 at scale

Llama 3는 곧 클라우드 제공업체, 모델 API 제공업체 등을 포함한 모든 주요 플랫폼에서 사용할 수 있게 됩니다. 어디서나 라마 3를 사용할 수 있게 될 것입니다.

저희의 벤치마크에 따르면 이 토큰화 도구는 향상된 토큰 효율성을 제공하며, Llama 2에 비해 최대 15% 더 적은 토큰을 생성합니다. 또한, 그룹 쿼리 주의(GQA)도 이제 Llama 3 8B에 추가되었습니다. 그 결과, Llama 2 7B에 비해 파라미터가 10억 개 더 많은 모델임에도 불구하고 향상된 토큰화 효율성과 GQA가 추론 효율을 Llama 2 7B와 동등하게 유지하는 데 기여하는 것을 관찰할 수 있었습니다.

이러한 모든 기능을 활용하는 방법에 대한 예시는 미세 조정부터 배포, 모델 평가에 이르기까지 모든 작업에 활용할 수 있는 모든 오픈 소스 코드가 포함된 Llama 레시피를 참조하세요.

 

llama recipe

 

GitHub - meta-llama/llama-recipes: Scripts for fine-tuning Llama2 with composable FSDP & PEFT methods to cover single/multi-node

Scripts for fine-tuning Llama2 with composable FSDP & PEFT methods to cover single/multi-node GPUs. Supports default & custom datasets for applications such as summarization & question ...

github.com

 

이미 여러 군데에서 api 로 제공을 하는 곳이 등장하기 시작했다 Groq에서도 LLama3가 벌써 올라가 있다. Groq의 속도인데 LLama3 성능이라면 GPT-4를 쓸 이유가 있나? 란 생각이 들었다 무섭다 무서워..

초당 827토큰 생성

 

What’s next for Llama 3?

Llama 3 8B 및 70B 모델은 앞으로 출시될 Llama 3의 시작을 알리는 제품입니다. 앞으로 더 많은 모델이 출시될 예정입니다. 가장 큰 모델은 400억 개 이상의 매개변수를 지원하며, 아직 학습 중인 모델이지만, 저희 팀은 이 모델들의 추세에 대해 매우 기대하고 있습니다. 앞으로 몇 달 동안 멀티모달리티, 다국어 대화 기능, 훨씬 더 긴 컨텍스트 창, 더 강력한 전반적인 기능 등 새로운 기능을 갖춘 여러 모델을 출시할 예정입니다. 또한 라마 3의 학습이 완료되면 자세한 연구 논문도 발표할 예정입니다. 현재 학습을 계속하고 있는 이 모델들의 현재 상황을 미리 살펴보기 위해 가장 규모가 큰 LLM 모델의 추세를 몇 가지 스냅숏으로 공유할 수 있다고 생각했습니다. 이 데이터는 아직 학습 중인 Llama 3의 초기 체크포인트를 기반으로 하며, 현재 출시된 모델에서는 이러한 기능이 지원되지 않는다는 점에 유의하시기 바랍니다.

LLama 400B의 성능

Facebook은 책임감 있는 모델 출시를 위한 개방형 AI 생태계의 지속적인 성장과 발전을 위해 최선을 다하고 있습니다. 우리는 개방성이 더 우수하고 안전한 제품, 더 빠른 혁신, 더 건강한 시장 전반으로 이어진다고 오랫동안 믿어 왔습니다. 이는 메타에게도 좋고 사회에도 좋은 일입니다. 저희는 라마 3를 통해 커뮤니티 우선 접근 방식을 취하고 있으며, 오늘부터 주요 클라우드, 호스팅, 하드웨어 플랫폼에서 이러한 모델을 사용할 수 있으며 앞으로 더 많은 플랫폼에서 사용할 수 있게 될 것입니다.

 

400B 모델은 현재 학습을 하고 있다곤 하는데, 나오면 OpenLLM 의 GPT-4를 넘어서는 벤치마크를 볼 수 있지 않을까 기대를 하고 있다 Opus, GPT-4 현재 1위 2위 둘 다 유료이기 때문이다. 사실 400B의 성능을 돌릴 순 없겠지만 일반적인 환경에서는 그래도 효율적인 파라미터 학습방법을 통해 Cloud환경에서 더 효율적이고 범용적으로 쓰일 수 있지 않을까 생각된다.

 

Try Meta Llama 3 today

우리는 최신 모델을 Meta AI에 통합했으며, 이를 세계에서 가장 선도적인 AI 어시스턴트라고 믿습니다. 이제 Llama 3 기술로 구축되었으며, 우리의 앱을 통해 더 많은 국가에서 사용할 수 있습니다.

Facebook, Instagram, WhatsApp, Messenger 및 웹에서 Meta AI를 사용하여 일을 처리하고, 배우고, 창조하며, 당신에게 중요한 것들과 연결할 수 있습니다. Meta AI 경험에 대해 여기에서 더 읽어볼 수 있습니다.

Llama 3 웹사이트를 방문하여 모델을 다운로드하고, 사용 가능한 모든 플랫폼의 최신 목록을 위한 시작 가이드를 참조하세요. Ray-Ban Meta 스마트 글라스에서 멀티모달 Meta AI를 테스트할 수 있게 될 것입니다. 항상 그렇듯, 여러분이 Meta Llama 3로 만들어낼 모든 놀라운 제품과 경험을 보게 되기를 기대합니다.

 

현재 메타에서 또한 Application 활용에 매우 힘 쓰고 있다. 자체 이미지 생성 모델을 만들어서 페이스북에서 생성 후 그 이미지를 또 동영상으로 만드는 기능을 포함해서 위에서도 소개한 Ray-ben meta 선글라스에 도입예정이기 때문에 실생활에서 LLaMa3을 활용한 assistant 기능이 많이 탑재가 되지 않을까 기대가 된다.

 

 

총평 : 오픈소스 생태계에 작은 변곡점이라고 할 수 도 있는 LLama3 같다. 모델 구조적으로 엄청난 연구가 된건 아니지만 천문학적인 돈을 투입해서 데이터확보와 학습을 하니 성능이 좋은 모델이 나왔다. 앞으로 향후 몇 년간은 계속 이런 흐름이 아닐까 생각도 든다. open ai의 GPT-5 가 더 궁금해지는 순간이다. 샘알트만도 인터뷰에서 압도적이라고 언급을 했는데 open source에서는 라마 3가 현재 압도적이지 않나 생각이 든다.

 
728x90