본문 바로가기

openllm3

Introducing Meta Llama 3: The most capable openly available LLM to date 리뷰 https://ai.meta.com/blog/meta-llama-3/?utm_campaign=llama3&utm_content=video&utm_medium=organic_social&utm_source=twitter 로그인되어 있지 않음 이 페이지를 보려면 로그인하세요. ai.meta.com GitHub - jh941213/LLaMA3_cookbook: Here's how to use Lama3 for beginners and what services are being used. Here's how to use Lama3 for beginners and what services are being used. - jh941213/LLaMA3_cookbook github.com TakeOut 오늘은 최신 오.. 2024. 4. 22.
HyperCLOVA X Technical Report 한글 요약 리뷰 하이퍼 크로버 관련 테크니컬 리포트가 드디어 나왔습니다. GPT-4 보다 한국어 성능만큼은 더 좋다고 계속 얘기되었던 만큼 어떻게 학습시키고 구조가 어떻게 되고, 데이터셋을 어떻게 구성했을지 궁금했는데 링크드인을 서칭 중에 네이버 AI 관련 일 하시는 분들이 업로드해서 리뷰를 해보게 되었습니다. 이번 논문은 전체 번역보다는 Summary Review로 각 단락별로 중요한 내용과 제 생각을 적는 방식으로 리뷰 했습니다. HyperCLOVA X Technical Report We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competit.. 2024. 4. 6.
Switch Transformers: Scaling to Trillion Parameter Modelswith Simple and Efficient Sparsity 리뷰 안녕하세요 Simon 입니다. 오늘 리뷰해볼 논문은 MoE 모델의 아키텍처인 Switch Transformers 입니다. 사실 제가 딥러닝을 배우기전에 나왔던 논문인데 신기하게 다 언젠가는 빛을 바라는 순간이 오는거 같습니다. Abstrack 스위치 트랜스포머는 전통적인 딥러닝 모델의 한계를 극복하기 위해 개발된 새로운 접근 방식입니다. 기존 모델들이 모든 입력에 대해 동일한 매개변수를 사용하는 반면, 스위치 트랜스포머는 각 입력 예제마다 다른 매개변수를 선택하는 혼합(전문가 혼합) 모델을 채택합니다. 이 방식은 매개변수의 수를 크게 늘리면서도 계산 비용을 일정하게 유지합니다. 그러나 이러한 모델은 복잡성, 통신 비용, 그리고 훈련의 불안정성과 같은 문제들을 가지고 있었습니다. 스위치 트랜스포머는 이러한.. 2024. 3. 5.