llm54 sDPO: Don’t Use Your Data All at Once 한글 리뷰 Upstage에서 발표한 논문입니다. 기존의 DPO 방법으로 SOLAR를 학습시켜서 현재 PLM으로 Langchain에서도 쓸 수 있는 모델이 되었습니다. gram 노트북에도 들어가고 폴라리스 랩소디에서 Copilot 형태처럼 solar를 탑재 등 다양한 뉴스가 나오고 있는 토종의 모델입니다. DPO 학습을 누구보다 잘 알기에 새로운 방법론 sDPO에 대한 논문이 나온 것 같습니다. https://arxiv.org/abs/2403.19270 sDPO: Don't Use Your Data All at Once As development of large language models (LLM) progresses, aligning them with human preferences has become incre.. 2024. 4. 1. LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 리뷰 오늘 소개해드릴 논문은 LLM2 LLM입니다. 이름에서도 직관적으로 LLM을 통하여 새로운 데이터를 사용해서 LLM을 강화한다인데 이전에 강화학습 방법인 knowledge distillation과 연관이 있는지 한번 확인해 봐야겠습니다.(일반적으로 knowledge distillation 은 강화학습 방법으로 유명한데요 sLLM을 거대한 LLM 이 선생님이 되어 지식을 주입하는 방법론이라고 할 수 있습니다.) Distilling the Knowledge in a Neural Network라는 논문에서 등장한 개념으로 나중에 리뷰해 보겠습니다. LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement Pretrained large language mode.. 2024. 3. 27. Adaptive-RAG: Learning to Adapt Retrieval-AugmentedLarge Language Models through Question Complexity 논문 리뷰 https://arxiv.org/abs/2403.14403 Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity Retrieval-Augmented Large Language Models (LLMs), which incorporate the non-parametric knowledge from external knowledge bases into LLMs, have emerged as a promising approach to enhancing response accuracy in several tasks, such as Question-Answering (QA). arxiv... 2024. 3. 25. RAFT: Adapting Language Model to Domain Specific RAG 리뷰 안녕하세요 오늘은 Linkdin 을 보다가 흥미로워 보이는 주제의 RAFT 라는 논문을 리뷰해보려고 합니다. RAG를 넘어서 자꾸 뭐가 발전되는 느낌이네요. https://arxiv.org/abs/2403.10131 RAFT: Adapting Language Model to Domain Specific RAG Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-cri.. 2024. 3. 21. 이전 1 ··· 5 6 7 8 9 10 11 ··· 14 다음