llm57 HyperCLOVA X Technical Report 한글 요약 리뷰 하이퍼 크로버 관련 테크니컬 리포트가 드디어 나왔습니다. GPT-4 보다 한국어 성능만큼은 더 좋다고 계속 얘기되었던 만큼 어떻게 학습시키고 구조가 어떻게 되고, 데이터셋을 어떻게 구성했을지 궁금했는데 링크드인을 서칭 중에 네이버 AI 관련 일 하시는 분들이 업로드해서 리뷰를 해보게 되었습니다. 이번 논문은 전체 번역보다는 Summary Review로 각 단락별로 중요한 내용과 제 생각을 적는 방식으로 리뷰 했습니다. HyperCLOVA X Technical Report We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competit.. 2024. 4. 6. Gecko: Versatile Text Embeddings Distilledfrom Large Language Models 한글 리뷰 Gecko: Versatile Text Embeddings Distilled from Large Language Models We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with gen arxiv.org Abstract Gecko는 큰 언어 모델(Large Language Models, LLMs)에서 지식을 추출.. 2024. 4. 2. Jamba:A Hybrid Transformer-Mamba Language Model 리뷰 Jamba: A Hybrid Transformer-Mamba Language Model We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is arxiv.org ai21labs/Jamba-v0.1 · Hugging Face Model Card for Jamba Jamba is a state-of-the-art.. 2024. 4. 2. sDPO: Don’t Use Your Data All at Once 한글 리뷰 Upstage에서 발표한 논문입니다. 기존의 DPO 방법으로 SOLAR를 학습시켜서 현재 PLM으로 Langchain에서도 쓸 수 있는 모델이 되었습니다. gram 노트북에도 들어가고 폴라리스 랩소디에서 Copilot 형태처럼 solar를 탑재 등 다양한 뉴스가 나오고 있는 토종의 모델입니다. DPO 학습을 누구보다 잘 알기에 새로운 방법론 sDPO에 대한 논문이 나온 것 같습니다. https://arxiv.org/abs/2403.19270 sDPO: Don't Use Your Data All at Once As development of large language models (LLM) progresses, aligning them with human preferences has become incre.. 2024. 4. 1. 이전 1 ··· 5 6 7 8 9 10 11 ··· 15 다음