본문 바로가기

Paper review29

LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 리뷰 오늘 소개해드릴 논문은 LLM2 LLM입니다. 이름에서도 직관적으로 LLM을 통하여 새로운 데이터를 사용해서 LLM을 강화한다인데 이전에 강화학습 방법인 knowledge distillation과 연관이 있는지 한번 확인해 봐야겠습니다.(일반적으로 knowledge distillation 은 강화학습 방법으로 유명한데요 sLLM을 거대한 LLM 이 선생님이 되어 지식을 주입하는 방법론이라고 할 수 있습니다.) Distilling the Knowledge in a Neural Network라는 논문에서 등장한 개념으로 나중에 리뷰해 보겠습니다. LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement Pretrained large language mode.. 2024. 3. 27.
Adaptive-RAG: Learning to Adapt Retrieval-AugmentedLarge Language Models through Question Complexity 논문 리뷰 https://arxiv.org/abs/2403.14403 Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity Retrieval-Augmented Large Language Models (LLMs), which incorporate the non-parametric knowledge from external knowledge bases into LLMs, have emerged as a promising approach to enhancing response accuracy in several tasks, such as Question-Answering (QA). arxiv... 2024. 3. 25.
RAT: Retrieval Augmented Thoughts ElicitContext-Aware Reasoning in Long-HorizonGeneration 논문 리뷰 안녕하세요 오늘 리뷰해볼 논문은 RAT: Retrieval Augmented Throughts 입니다. 뜻을 직역하면 검색증강을 통해 생각하게 하겠다 정도로 해석할 수 있겠는데요 벌써 느낌이 오긴합니다. LLM 자체에게 생각을 하게 해서 Agent 형태의 모듈들이 많이 만들어지고 있고, Self-RAG, CRAG 등 다양한 RAG 방법론 또한 모델에게 다시 생각을 통해서 원하는 결과를 낼 수 있도록 해주는 방법론 들 입니다. https://arxiv.org/abs/2403.05313 RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation We explore how iterative revising.. 2024. 3. 20.
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 리뷰 안녕하세요 오늘 소개해드릴 논문은 지난 Upstage에서 공개한 모델 Solar의 학습 기법인 DPO입니다. 최근 지도학습 기법으로 떠오르고 있는 DPO인데요. 요즘 LLM Fine-tunning에 많이 쓰이고 있는 방법입니다. 사실 강화학습 분야가 되게 어렵다는 것도 알고 있지만 생각보다 보다 보면 흥미로운 내용이 많았던 거 같습니다. 제일 유명한 PPO 거의 진한 곰탕급으로 우려진 방법론인데요. PPO의 핵심 아이디어는 손실 함수에 특정 제약을 추가하여, 새로운 정책이 이전 정책으로부터 너무 멀어지지 않도록 하는 것입니다. 이를 통해 학습 과정에서 발생할 수 있는 큰 정책 변동을 방지하고, 안정적인 학습을 유도합니다.RLHF와 연관해서 데이터를 통해 반영을 할 수도 있는 메커니즘이라고 볼 수 있습니다.. 2024. 3. 6.