본문 바로가기

전체 글128

Prompt-prompted Mixture of Experts for Efficient LLM Generation 논문 리뷰 오늘 리뷰해 볼 논문은 제가 평소에 LInkdin에서 평소 논문 LLM , RAG 관련 리서치할 때 종종 보는 Pascal Biese 가 소개해준 'Prompt-prompted Mixture of Experts for Efficient LLM Generation '이라는 논문입니다. 궁금해서 공유하기를 눌러두고 오늘 리뷰를 해봅니다. Paper Prompt-prompted Mixture of Experts for Efficient LLM Generation With the development of transformer-based large language models (LLMs), they have been applied to many fields due to their remarkable utili.. 2024. 4. 15.
RAG 어떻게 하면 더 잘 할까? RAG(Retrieval-Augmented Generation)는 LLM(Large Language Model)의 출력을 최적화하여 응답을 생성하기 전에 학습 데이터 소스 외부의 신뢰할 수 있는 knoledge data를 참조하도록 하는 Process입니다. LLM 은 방대한 양의 데이터를 기반으로 학습되며 수십억 개의 파라미터를 사용하여 질문에 대한 답변, 언어 번역, 문장 완성과 같은 Downstream task 작업에 대한 독창적인 결과를 생성합니다. RAG는 이미 강력한 LLM의 기능을 특정 도메인이나 조직의 내부 지식 기반으로 확장하므로 모델을 다시 학습시킬 필요가 없다고는 하지만 현재 시점에서 Hybrid RAG (RAG + Finetunning)을 같이 사용해서 성능을 극대화하는 방법과 RA.. 2024. 4. 9.
HyperCLOVA X Technical Report 한글 요약 리뷰 하이퍼 크로버 관련 테크니컬 리포트가 드디어 나왔습니다. GPT-4 보다 한국어 성능만큼은 더 좋다고 계속 얘기되었던 만큼 어떻게 학습시키고 구조가 어떻게 되고, 데이터셋을 어떻게 구성했을지 궁금했는데 링크드인을 서칭 중에 네이버 AI 관련 일 하시는 분들이 업로드해서 리뷰를 해보게 되었습니다. 이번 논문은 전체 번역보다는 Summary Review로 각 단락별로 중요한 내용과 제 생각을 적는 방식으로 리뷰 했습니다. HyperCLOVA X Technical Report We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competit.. 2024. 4. 6.
Gecko: Versatile Text Embeddings Distilledfrom Large Language Models 한글 리뷰 Gecko: Versatile Text Embeddings Distilled from Large Language Models We present Gecko, a compact and versatile text embedding model. Gecko achieves strong retrieval performance by leveraging a key idea: distilling knowledge from large language models (LLMs) into a retriever. Our two-step distillation process begins with gen arxiv.org Abstract Gecko는 큰 언어 모델(Large Language Models, LLMs)에서 지식을 추출.. 2024. 4. 2.
Jamba:A Hybrid Transformer-Mamba Language Model 리뷰 Jamba: A Hybrid Transformer-Mamba Language Model We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is arxiv.org ai21labs/Jamba-v0.1 · Hugging Face Model Card for Jamba Jamba is a state-of-the-art.. 2024. 4. 2.
sDPO: Don’t Use Your Data All at Once 한글 리뷰 Upstage에서 발표한 논문입니다. 기존의 DPO 방법으로 SOLAR를 학습시켜서 현재 PLM으로 Langchain에서도 쓸 수 있는 모델이 되었습니다. gram 노트북에도 들어가고 폴라리스 랩소디에서 Copilot 형태처럼 solar를 탑재 등 다양한 뉴스가 나오고 있는 토종의 모델입니다. DPO 학습을 누구보다 잘 알기에 새로운 방법론 sDPO에 대한 논문이 나온 것 같습니다. https://arxiv.org/abs/2403.19270 sDPO: Don't Use Your Data All at Once As development of large language models (LLM) progresses, aligning them with human preferences has become incre.. 2024. 4. 1.