본문 바로가기

NLP19

[Tech Report] Gemma: Open Models Based on GeminiResearch and Technology Gemma: Introducing new state-of-the-art open models Gemma is a family of lightweight, state\u002Dof\u002Dthe art open models built from the same research and technology used to create the Gemini models. blog.google 안녕하세요 Simon 입니다. 오늘 소개해드릴 논문은 Google 의 새로운 Open Source LLM "Gemma" 입니다. LLaMA 의 영향일까요? 빅테크 기업들도 앞다투어 오픈소스 모델을 공개하고 있는데요. OpenAI 도 조만간 공개할듯합니다. 과연 Gemini 기반의 Gemma 는 어떻게 탄생한것인지 리뷰해보겠습니.. 2024. 3. 5.
[Tech Report] Nemotron-4 15B Technical Report 안녕하세요 오늘 소개해드릴 논문 리뷰는 Nvidia의 오픈소스 언어모델 Nemotron-4 15B입니다. 기존의 엔비디아도 오픈소스 생태계를 위한 언어모델 네모트론을 시리즈별로 발표하기는 했었는데 반응이 그럭저럭이었습니다. 3 같은 경우 Access 신청을 받아서 써볼 수가 있었는데요. 현재 허깅페이스에는 네모트론 3가 업로드가 돼있긴 합니다. nvidia/nemotron-3-8b-base-4k · Hugging Face Nemotron-3-8B-Base-4k Model Overview License The use of this model is governed by the NVIDIA AI Foundation Models Community License Agreement. Description Nemot.. 2024. 3. 5.
Attention Mechanism 이란? 어텐션이란? 풀고자 하는 Task의 핵심이 되는 정보를 찾아서 집중한다! 주의 주목, 관심 흥미, 뉴진스 어텐션! 등 다양한 뜻으로 쓰이고 있습니다. 자연어 처리 NLP 분야의 혁신으로 이끈 논문 All you need is attention 이란 논문을 다들 읽어보셨을 거라고 생각합니다. Attention Is All You Need The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder and decoder th.. 2024. 3. 5.