본문 바로가기
Paper summary

RAFT: Adapting Language Model to Domain Specific RAG 리뷰

by AI미남홀란드 2024. 3. 21.
728x90

안녕하세요 오늘은 Linkdin 을 보다가 흥미로워 보이는 주제의 RAFT 라는 논문을 리뷰해보려고 합니다. RAG를 넘어서 자꾸 뭐가 발전되는 느낌이네요.

 

https://arxiv.org/abs/2403.10131

 

RAFT: Adapting Language Model to Domain Specific RAG

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain kn

arxiv.org

 

 

RAFT

When integrating Large Language Models (LLMs) into various applications, it often becomes necessary to incorporate new information, such as domain-specific knowledge or proprietary data, through techniques like retrieval-augmented generation (RAG)-based pr

gorilla.cs.berkeley.edu

Demo /  code

 

GitHub - ShishirPatil/gorilla: Gorilla: An API store for LLMs

Gorilla: An API store for LLMs. Contribute to ShishirPatil/gorilla development by creating an account on GitHub.

github.com

Abstract

 

현재 대규모 언어 모델(LLMs) 대량의 텍스트 데이터로 사전 훈련하는 것이 일반적인 패러다임입니다. 이러한 LLM들을 다양한 하류 작업에 사용할 , 종종 새로운 지식(: 시간에 민감한 뉴스나 사적 도메인 지식) 사전 훈련된 모델에 추가하는 것이 일반적입니다. 이는 RAG 기반 프롬프팅이나 미세 조정을 통해 이루어집니다. 그러나 모델이 이러한 새로운 지식을 얻는 최적의 방법론은 여전히 미해결된 질문입니다. 논문에서는 "오픈북" 인도메인 설정에서 질문에 답하는 모델의 능력을 향상시키는 훈련 레시피인 Retrieval Augmented Fine Tuning (RAFT) 제시합니다. RAFT 주어진 질문과 검색된 문서 집합을 바탕으로, 질문에 답하는 도움이 되지 않는 문서(우리가 '혼란 문서'라고 부르는) 모델이 무시하도록 훈련합니다. RAFT 관련 문서에서 질문에 답하는 도움이 올바른 시퀀스를 그대로 인용함으로써 이를 달성합니다. 이와 함께 RAFT 사고 체인 스타일 응답은 모델의 추론 능력을 향상시키는 도움을 줍니다. 도메인 특화 RAG에서 RAFT PubMed, HotpotQA, Gorilla 데이터셋에서 모델의 성능을 일관되게 향상시킵니다. 이는 사전 훈련된 LLM 도메인 특화 RAG 향상시키는 사후 훈련 레시피를 제시합니다

 

특정 도메인에서 우리가 방대한 데이터를 가지고 있을때 필요 없는 코퍼스, 훈련 데이터셋을 무시하게 훈련할 수 있게끔 한다라는 방법론 같다.이게 가능하다면 도메인특화 RAG+LLM 이 조금 더 쉬워지지 않을까?

 

Introduce

이 논문의 도입부는 대량의 공개 데이터에 훈련된 대규모 언어 모델(LLMs)이 일반 지식 추론 작업에서 상당한 진전을 이루었음을 설명하고 있습니다. 하지만, 점점 더 LLM들이 특정 도메인에서의 작업을 지원하기 위해 사용되고 있으며, 이러한 설정에서는 일반 지식 추론보다 주어진 문서 세트에 기반한 정확도를 최대화하는 것이 주요 목표가 됩니다. 특히, 최근 뉴스, 기업 내부 문서, 또는 훈련 종료 후에 구축된 프로그램 자원과 같은 특화된 도메인으로 LLM을 적용하는 것은 많은 신흥 응용 프로그램에 필수적입니다.

이 작업의 초점은 사전 훈련된 LLM들을 특정 도메인에 맞게 조정하는 방법, 특히 검색-증강 생성(Retrieval Augmented Generation, RAG)을 사용하여 조정하는 방법에 관한 것입니다. 이를 위해, 인-컨텍스트 학습을 통한 RAG와 감독된 미세 조정 두 가지 방법을 고려합니다. RAG 기반 방법은 LLM이 질문에 답할 때 문서를 참조하게 하지만, 테스트 문서에 대한 초기 접근과 고정된 도메인 설정에서의 학습 기회를 활용하지 못합니다. 반면, 감독된 미세 조정은 문서에서 더 일반적인 패턴을 학습하고 최종 작업 및 사용자 선호도에 더 잘 맞추는 기회를 제공합니다.

그림 1: 시험에 대비하는 가장 좋은 방법은 무엇인가요? (a) 미세 조정 기반 접근 방식은 다음과 같이 직접적으로 '공부'를 구현합니다. "입력 문서를 '암기'하거나 문서를 참조하지 않고 연습 문제에 답하는 방식으로 '공부'를 구현합니다. (b) 또는 맥락에 맞지 않는 검색 방법은 고정된 도메인에서 제공하는 학습 기회를 활용하지 못하며 다음과 같습니다. 공부하지 않고 오픈북 시험을 치르는 것과 같습니다. 이러한 접근 방식은 도메인 내 학습을 활용하지만, 다음을 대비하지 못합니다. 오픈북 시험에 대비하지 못합니다. 이와는 대조적으로, (c) RAFT 접근 방식은 질문과 답변 쌍으로 미세 조정을 활용하는 동시에 문서를 참조하면서 질문과 답변 쌍으로 미세 조정을 활용하므로 오픈북 시험 환경에 효과적으로 대비할 수 있습니다.

본 논문에서는 감독된 미세 조정(SFT)과 RAG를 결합하는 새로운 적응 전략인 Retrieval-Augmented Fine Tuning (RAFT)를 제안합니다. RAFT는 도메인 지식을 통합하면서 도메인 내 RAG를 개선하는 과제를 특별히 해결합니다. RAFT는 모델이 질문, 검색된 도메인 특화 문서, 적절한 답변 사이의 동적 관계를 이해하도록 훈련시켜, 부정확한 검색에 대한 강인성을 보장합니다. RAFT 통해, 모델은 문서에서 질문에 대한 답을 생성할 , 적절한 문서를 인식하고 무관한 문서를 걸러내는 방식으로 훈련됩니다. 접근법은 PubMed, HotpotQA, 그리고 다양한 Gorilla 데이터셋을 포함하여, 사전 훈련된 LLM 도메인 특화 RAG 대해 향상시키는 새롭고 간단한 기술을 제시합니다.

RAFT: Adapting Language Model to Domain Specific RAG 📚

RAFT(Retrieval Aware Fine-Tuning) 도메인 특화 오픈북 설정에 맞게 모델을 맞춤화하기 위한 훈련 데이터를 준비하는 새로운 방법을 제시합니다. 이는 도메인 RAG 해당합니다. RAFT에서는 훈련 데이터를 준비할 , 데이터 포인트가 질문(Q), 문서 집합(Dk), 그리고 해당 문서 하나(D*)에서 생성된 체인-오브-소트(Chain-of-thought) 스타일 답변(A*) 포함하도록 합니다. 종류의 문서를 구분합니다: 오라클 문서(D*) 질문에 대한 답을 유추할 있는 문서이며, '혼란 문서'(Di) 답변과 관련된 정보를 포함하지 않는 문서입니다. 구현 세부 사항으로, 오라클 문서는 하나의 문서일 필요는 없으며, HotpotQA 경우와 같이 여러 문서일 있습니다. 그런 다음 데이터셋의 질문(qi) P% 대해서는 오라클 문서(di*) 혼란 문서(dk-1) 유지하고, 데이터셋의 질문(qi) (1-P)% 대해서는 오라클 문서를 포함하지 않고 오직 혼란 문서(dk)만을 포함합니다. 후에, 제공된 문서와 질문에서 답변을 생성하도록 모델을 미세 조정하는 표준 감독 학습(SFT) 기술을 사용하여 언어 모델을 미세 조정합니다.

 

기존 Fine-tunning 의 훈련데이터 : 

 

RAFT 훈련 데이터는 다음과 같으며, 아래 그림에서 훈련 데이터의 예를 있습니다:

 

Question: The Oberoi family is part of a hotel company that has a head office in what city?

context: [The Oberoi family is an Indian family that is famous for its involvement in hotels, namely through The Oberoi Group]...[It is located in city center of Jakarta, near Mega Kuningan, adjacent to the sister JW Marriott Hotel. It is operated by The Ritz-Carlton Hotel Company. The complex has two towers that comprises a hotel and the Airlangga Apartment respectively]...[The Oberoi Group is a hotel company with its head office in Delhi.]

Instruction: Given the question, context and answer above, provide a logical reasoning for that answer. Please use the format of: ##Reason: {reason} ##Answer: {answer}.

CoT Answer: ##Reason: The document ##begin_quote## The Oberoi family is an Indian family that is famous for its involvement in hotels, namely through The Oberoi Group. ##end_quote## establishes that the Oberoi family is involved in the Oberoi group, and the document ##begin_quote## The Oberoi Group is a hotel company with its head office in Delhi. ##end_quote## establishes the head office of The Oberoi Group. Therefore, the Oberoi family is part of a hotel company whose head office is in Delhi. ##Answer: Delhi

 

데이터셋은 Question + 오라클 데이터 + 혼란데이터 -> answer 를 받는 형식이다.

또다른데이터는 혼란데이터를 통해 answer 를 받는 형식인데 그림은 뭔가 잘못되어있다. 오라클 / 오라클 + 혼란 사실이게맞는거 같은데 수식이 잘못된건지 github에 issue 를 보내보긴했다. 내가 해석을 잘못한건가..?

 

RAFT Evaluation 📊

다양한 데이터셋을 사용하여 자신들의 모델과 다른 기준 모델들을 평가하는 실험 설정에 대해 설명합니다. 사용된 데이터셋은 여러 도메인에서 선택되었으며, 이에는 위키피디아, 코딩/API 문서, 의료 질문 답변 등이 포함됩니다.

 

사실상 내가 생각했던 GPT-3.5 + RAG의 성능이 제일 좋을거같은데 보다 RAFT(LLaMA2-7B)의 성능이 더 좋다는 벤치마크다. 

 

Conclusion

RAFT가 특정 도메인 내에서 "오픈북" 환경에서 질문에 대답하는 모델의 성능을 향상시키기 위해 설계된 훈련 전략이라고 요약하고 있습니다. 이 기법은 선택된 문서 컬렉션을 기반으로 하는 질문-답변 작업을 위한 대규모 언어 모델(LLMs)의 미세조정 레시피를 시연합니다. RAFT의 주요 설계 결정에는 혼란 문서와 함께 모델을 훈련시키는 것, 일부 데이터셋에 오라클 문서를 포함하지 않는 것, 그리고 관련 텍스트에서 직접 인용하는 방식으로 답변을 연쇄적 사고 형태로 구성하는 것 등이 포함됩니다.

PubMed, Hotpot QA, 그리고 Gorilla API Bench에서의 평가는 RAFT의 상당한 잠재력을 강조합니다. 이 연구는 산업과 학계 모두에서 도메인 특화 검색-증강 생성(RAG)에 대한 관심이 계속 증가할 것으로 예상하며, 일반적인 RAG와 달리 실제 시나리오에서 도메인 특화 지식을 사용하여 질문에 답변해야 하는 LLMs를 다룹니다.

현재의 경향과 일치하여, 연구의 발견은 일반적인 LLM 대비하여 미세조정된 작은 모델들도 도메인 특화 질문-답변 작업에서 비슷하게 수행할 있음을 제안합니다. 이는 도메인 특화 작업에 대해 효율적이고 특화된 모델을 개발하는 방향으로의 전환을 시사합니다.

 

결국은 위 논문도 방법론인데 데이터셋 가공이 많이 들 것이다. 결국 DPO 처럼 사람의 선호 데이터셋을 만드는 것처럼 오라클 / 혼란 구분을 해서 훈련을 시켜야된다는 방법론이기 때문이다.

728x90