본문 바로가기

Upstage4

실전 RAG로 역량강화하기 - RAG 에서 중요한 문서 파일 처리 실전 RAG으로 역량 강화하기실전 RAG 같이 만들면 만들 수 있지 않을까? RAG  랭체인이나 라마인덱스로 사용은 해봤는데 성능이 안좋은기억이 분명 있을 겁니다. 이번 기회에 Graph DB, Agent 형태의 RAG 등 다양한 기법들을 같이modulabs.co.kr현재 모두의 연구소에서 진행하고 있는 스터디로 제가 퍼실리로 활동을 하고 있습니다. 이 글을 쓰게 된 이유는 주간 공부한 것을 정리하고 스터디에서 나온 insight를 정리할 겸 글을 정리해보려고 합니다. 저희 스터디 같은 경우는 하브루타 방식의 스터디로 와서 공부하는 방식입니다. 1~3주 차까지는 domain 선정 후 기능 아키텍처 정의를 하고 RFP처럼 문서를 작성하고 PT 발표를 3주 차에 진행하고 4주 차부터는 구현을 10주 차까지 .. 2024. 8. 27.
sDPO: Don’t Use Your Data All at Once 한글 리뷰 Upstage에서 발표한 논문입니다. 기존의 DPO 방법으로 SOLAR를 학습시켜서 현재 PLM으로 Langchain에서도 쓸 수 있는 모델이 되었습니다. gram 노트북에도 들어가고 폴라리스 랩소디에서 Copilot 형태처럼 solar를 탑재 등 다양한 뉴스가 나오고 있는 토종의 모델입니다. DPO 학습을 누구보다 잘 알기에 새로운 방법론 sDPO에 대한 논문이 나온 것 같습니다. https://arxiv.org/abs/2403.19270 sDPO: Don't Use Your Data All at Once As development of large language models (LLM) progresses, aligning them with human preferences has become incre.. 2024. 4. 1.
Direct Preference Optimization: Your Language Model is Secretly a Reward Model 리뷰 안녕하세요 오늘 소개해드릴 논문은 지난 Upstage에서 공개한 모델 Solar의 학습 기법인 DPO입니다. 최근 지도학습 기법으로 떠오르고 있는 DPO인데요. 요즘 LLM Fine-tunning에 많이 쓰이고 있는 방법입니다. 사실 강화학습 분야가 되게 어렵다는 것도 알고 있지만 생각보다 보다 보면 흥미로운 내용이 많았던 거 같습니다. 제일 유명한 PPO 거의 진한 곰탕급으로 우려진 방법론인데요. PPO의 핵심 아이디어는 손실 함수에 특정 제약을 추가하여, 새로운 정책이 이전 정책으로부터 너무 멀어지지 않도록 하는 것입니다. 이를 통해 학습 과정에서 발생할 수 있는 큰 정책 변동을 방지하고, 안정적인 학습을 유도합니다.RLHF와 연관해서 데이터를 통해 반영을 할 수도 있는 메커니즘이라고 볼 수 있습니다.. 2024. 3. 6.
SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 안녕하세요 Simon입니다. 오늘 소개해드릴 논문은 SOLAR 10.7B에 관한 논문입니다. 지금 FastCampus에서 Upstage의 파인튜닝 노하우 강의를 듣고 있는데 김성훈 CEO가 소개해준 내용과 연관해서 리뷰를 해보겠습니다. 강의를 수강하는데 계속 웃음꽃이 떠나질 않는 거 보면 확실히 현재 제일 hot 한 최전선에 있는 분야에서 최고가 된 만큼 얼마나 기쁠까 생각이 들긴 합니다. LLM의 평가지표는 여러 가지가 있습니다. H4는 4개의 데이터셋으로 평가한다는 의미인데요, 현재 H7 까지도 증가해서 평가를 받고 있습니다. 그 말은 즉슨 H4에서의 벤치마크가 높은데 H7에서는 떨어진다? 이 말은 모델이 그만큼 일반화가 되지 않은 모델이라고 생각해 볼 수 있습니다. LLM 평가지표에 대한 글은 제가.. 2024. 3. 5.