본문 바로가기

분류 전체보기128

Jamba:A Hybrid Transformer-Mamba Language Model 리뷰 Jamba: A Hybrid Transformer-Mamba Language Model We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is arxiv.org ai21labs/Jamba-v0.1 · Hugging Face Model Card for Jamba Jamba is a state-of-the-art.. 2024. 4. 2.
sDPO: Don’t Use Your Data All at Once 한글 리뷰 Upstage에서 발표한 논문입니다. 기존의 DPO 방법으로 SOLAR를 학습시켜서 현재 PLM으로 Langchain에서도 쓸 수 있는 모델이 되었습니다. gram 노트북에도 들어가고 폴라리스 랩소디에서 Copilot 형태처럼 solar를 탑재 등 다양한 뉴스가 나오고 있는 토종의 모델입니다. DPO 학습을 누구보다 잘 알기에 새로운 방법론 sDPO에 대한 논문이 나온 것 같습니다. https://arxiv.org/abs/2403.19270 sDPO: Don't Use Your Data All at Once As development of large language models (LLM) progresses, aligning them with human preferences has become incre.. 2024. 4. 1.
Build with AI 2024 Seoul 후기 3월 31일 (일)에 연세대학교에서 GDG Seoul과 GDG Korea Android가 함께 개최한 Build with AI 2024 Seoul에 다녀왔습니다. 입장료는 15,000원이고, 누구나 참석이 가능합니다. 이번엔 직접 개발에 참여할 수 있는 CodeLAB 과 발표 세션이 있었습니다. 티셔츠만 주는게 아니고 책도 골라서 받을 수 있었는데 , 파이썬 책과 아무래도 Android 가 있다 보니 다른 개발 언어의 책이 있었는데 통근하면서 다시 한번 ML 기초적인 지식을 볼 수 있을 거 같아서 주머니 속의 머신러닝 책을 수령했습니다. 저는 A 타임 CodeLAB 을 신청을 하였고 Gemini Pro API를 활용해서 General 한 개발 체험을 해보는 용도의 시간이었습니다. 이미 Gemini로 라즈.. 2024. 3. 31.
Multi-Turn 한국어 데이터를 Fine-Tunning 하는 방법 - (1) 언어모델의 중요한 능력중에 멀티턴 대화 능력이다. 특정 도메인 Task 파인튜닝을 할 시에 데이터가 고객센터에서의 QnA 처럼 멀티턴인 경우가 있다. 그 데이터를 고려해서 파인튜닝을 하는 방법을 한번 알아보자. 모델은 Gemma 를 활용해서 파인튜닝을 해볼 예정이다. 한국어로 파인튜닝이 된 모델일 Gemma-Ko 시리즈를 사용할 예정이다. Data - MultiTurn https://huggingface.co/datasets/maywell/koVast 2024. 3. 28.