sDPO1 sDPO: Don’t Use Your Data All at Once 한글 리뷰 Upstage에서 발표한 논문입니다. 기존의 DPO 방법으로 SOLAR를 학습시켜서 현재 PLM으로 Langchain에서도 쓸 수 있는 모델이 되었습니다. gram 노트북에도 들어가고 폴라리스 랩소디에서 Copilot 형태처럼 solar를 탑재 등 다양한 뉴스가 나오고 있는 토종의 모델입니다. DPO 학습을 누구보다 잘 알기에 새로운 방법론 sDPO에 대한 논문이 나온 것 같습니다. https://arxiv.org/abs/2403.19270 sDPO: Don't Use Your Data All at Once As development of large language models (LLM) progresses, aligning them with human preferences has become incre.. 2024. 4. 1. 이전 1 다음