SFT3 ORPO: Monolithic Preference Optimization without Reference Model 한글 리뷰 및 학습방법 안녕하세요 오늘 소개해드릴 논문은 ORPO로 LLAMA3 가 나오고 거의 대부분 Training에 쓰이고 있는 최적화 방법입니다. 놀라운 건 이걸 KAIST에서 발표했네요. 역시 다릅니다. ORPO: Monolithic Preference Optimization without Reference ModelWhile recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the cru.. 2024. 4. 24. Multi-Turn 한국어 데이터를 Fine-Tunning 하는 방법 - (1) 언어모델의 중요한 능력중에 멀티턴 대화 능력이다. 특정 도메인 Task 파인튜닝을 할 시에 데이터가 고객센터에서의 QnA 처럼 멀티턴인 경우가 있다. 그 데이터를 고려해서 파인튜닝을 하는 방법을 한번 알아보자. 모델은 Gemma 를 활용해서 파인튜닝을 해볼 예정이다. 한국어로 파인튜닝이 된 모델일 Gemma-Ko 시리즈를 사용할 예정이다. Data - MultiTurn https://huggingface.co/datasets/maywell/koVast 2024. 3. 28. LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement 리뷰 오늘 소개해드릴 논문은 LLM2 LLM입니다. 이름에서도 직관적으로 LLM을 통하여 새로운 데이터를 사용해서 LLM을 강화한다인데 이전에 강화학습 방법인 knowledge distillation과 연관이 있는지 한번 확인해 봐야겠습니다.(일반적으로 knowledge distillation 은 강화학습 방법으로 유명한데요 sLLM을 거대한 LLM 이 선생님이 되어 지식을 주입하는 방법론이라고 할 수 있습니다.) Distilling the Knowledge in a Neural Network라는 논문에서 등장한 개념으로 나중에 리뷰해 보겠습니다. LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement Pretrained large language mode.. 2024. 3. 27. 이전 1 다음