본문 바로가기

llm57

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS 쉽게 논문 코드 리뷰 오늘 리뷰할 논문은 현재 많이 쓰이고 있는 LLM Fine Tunning 기법인 LoRA 에 대해서 리뷰를 하려고 합니다. 저는 LoRA 에 전반적인 메커니즘은 알고는 있지만 조금 더 깊게 알아보고 싶어서 리뷰를 해보겠습니다. LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retra.. 2024. 3. 15.
InstructGPT : Training language models to follow instructions with human feedback 안녕하세요 모든 논문을 리뷰하기에는 너무 가내수공업이 많이 들고 그래서 짧게나마 제가 읽고 , 봤었던 논문에 대한 생각을 정리를 위해 Summary를 만들어보았습니다. https://openai.com/research/instruction-followinghttps://arxiv.org/abs/2203.02155 Training language models to follow instructions with human feedback Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs t.. 2024. 3. 6.
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 리뷰 안녕하세요 오늘 소개해드릴 논문은 지난 Upstage에서 공개한 모델 Solar의 학습 기법인 DPO입니다. 최근 지도학습 기법으로 떠오르고 있는 DPO인데요. 요즘 LLM Fine-tunning에 많이 쓰이고 있는 방법입니다. 사실 강화학습 분야가 되게 어렵다는 것도 알고 있지만 생각보다 보다 보면 흥미로운 내용이 많았던 거 같습니다. 제일 유명한 PPO 거의 진한 곰탕급으로 우려진 방법론인데요. PPO의 핵심 아이디어는 손실 함수에 특정 제약을 추가하여, 새로운 정책이 이전 정책으로부터 너무 멀어지지 않도록 하는 것입니다. 이를 통해 학습 과정에서 발생할 수 있는 큰 정책 변동을 방지하고, 안정적인 학습을 유도합니다.RLHF와 연관해서 데이터를 통해 반영을 할 수도 있는 메커니즘이라고 볼 수 있습니다.. 2024. 3. 6.
LoRA+: Efficient Low Rank Adaptationof Large Models 짧은 논문리뷰 안녕하세요 Simon입니다. NLP LLM 논문을 읽다 보면 방대한 양에 지칠 때가 있는데요. 과연 이 논문을 다 읽더라도 나에게 명확하게 인사이트를 줄 수 있을까? 란 생각이 항상 듭니다. 고효율은 아니라고 생각되어서, 이제 제가 필요한 인사이트가 아니라면? 과감하게 Abstrack 정도와 필수 개념만 보고 요약을 하려고 합니다. 아마 비슷하게 생각하실 거라고 생각합니다. 오늘 리뷰해 드릴 논문은 LoRA+ 튜닝의 기존의 방법론보다 더 성능을 개선시키는 LoRA+라는 논문입니다. LoRA+: Efficient Low Rank Adaptation of Large Models In this paper, we show that Low Rank Adaptation (LoRA) as originally intr.. 2024. 3. 6.