본문 바로가기
Paper review

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (2)

by AI미남홀란드 2024. 3. 5.
728x90

https://wiz-tech.tistory.com/60

 

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1)

안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이

wiz-tech.tistory.com

 

위 내용을 참조해주시길 바랍니다. 실험 부분부터 다시 리뷰하겠습니다.

 

Experiments

 

1. Setup and Implementation Details

 

https://github.com/VILA-Lab/ATLAS

 

GitHub - VILA-Lab/ATLAS: A principled instruction benchmark on formulating effective queries and prompts for large language mode

A principled instruction benchmark on formulating effective queries and prompts for large language models (LLMs). Our paper: https://arxiv.org/abs/2312.16171 - GitHub - VILA-Lab/ATLAS: A principled...

github.com

 

ATLAS라는 수작업으로 만들어진 벤치마크를 사용하여 원칙 기반 프롬프트 평가를 수행한 실험 설정과 구현 세부 사항에 대해 설명하고 있습니다. ATLAS는 각 원칙에 대해 20개의 인간이 선택한 질문을 포함하며, 원칙이 적용된 프롬프트와 적용되지 않은 프롬프트 모두를 포함합니다. 이 연구에서는 LLM의 다양한 규모의 출력을 인간 평가를 통해 평가합니다.

 

원칙 전 후 프롬프트 비교

 

원칙 없이 (Human without principle)
질문: "기후 변화 개념과 환경에 미치는 잠재적인 영향에 대해 한 단락으로 설명하세요."

 

GPT-4 응답: 기후 변화는 주로 화석 연료의 연소, 삼림 벌채, 산업 과정과 같은 인간 활동으로 인해 장기적으로 온도와 기후 패턴이 변화하는 것을 말합니다. 잠재적인 영향으로는 해수면 상승, 더 자주 발생하고 심각한 극단적 기상 이벤트, 생태계의 혼란, 식량 및 물 자원에 대한 위협이 포함되며, 이는 자연 환경과 인간 사회에 상당한 영향을 미칠 수 있습니다.

 

원칙 적용 (Human with principle): 질문: "한 작은 단락으로 기후 변화 개념과 환경에 미치는 잠재적인 영향을 설명하세요. 과학적 증거와 다양한 관점을 강조하는 편향되지 않은 설명을 제공하십시오."

 

GPT-4 응답: 기후 변화는 주로 인간 활동, 예를 들어 화석 연료 연소, 삼림 벌채 및 산업 과정과 같은 요인으로 인해 장기적으로 온도와 기후 패턴이 변화하는 것을 의미합니다. 과학계의 대다수는 인간이 발생시키는 온실가스 배출이 지구 온도 상승을 초래하고 있으며, 이로 인해 빙하가 녹고 해수면이 상승하며, 극단적 기상 이벤트가 더 자주 발생하고 심각해지고 있다는 데 동의합니다. 그러나 이러한 변화의 범위, 긴급성 및 영향에 대해서는 다양한 견해가 존재합니다. 일부는 지구에는 자연적인 기후 변동 주기가 있으며 인간의 영향이 생각만큼 중요하지 않을 수도 있다고 주장합니다. 다른 이들은 생태계와 인간 문명에 미칠 잠재적인 재앙적 영향을 완화하기 위해 즉각적인 행동이 필수적이라고 강조합니다.

 

13번의 원칙(편향에 치우치지않도록)을 적용할 때 기후 변화에 대한 GPT-4의 응답이 훨씬 더 균형 잡히고, 다양한 관점을 포함하며, 편향되지 않은 방식으로 변화하는 것을 볼수 있습니다.

 

2. Models and Metrics

 

사용한 모델

  • 향상(Boosting): 원칙 기반 프롬프트 적용 후 다양한 LLM의 응답 품질 향상을 인간 평가를 통해 평가합니다. 원래의 수정되지 않은 프롬프트는 이러한 향상을 측정하기 위한 기준으로 사용됩니다. 향상이 입증되면, 모델의 성능이 구조화되고 원칙에 기반한 지시사항 사용으로 인해 개선되었음을 나타냅니다.
  • 정확성(Correctness): 정확성 개념은 모델의 출력 또는 응답의 정밀도를 나타내며, 이들이 정확하고 관련성 있으며 오류가 없는지를 보장합니다. 인간 평가자는 이러한 측면을 평가하는 데 사용되며, 이는 모델의 정확성을 검증하는 데 중요합니다. 정확성은 모델이 정확성의 기대 표준과 일치하는 출력을 생성할 수 있는 능력을 나타냅니다.

 

3. Results

3.1 Results on small, medium and large-scale LLMs

 

원칙 전 후 사례

원칙 없이 (Human without principle):

질문: "다음 조언의 유용성을 도움이 되는지 아닌지 평가하세요. 조언: '일이 있으면 그냥 작업을 시작하세요.' 유용성:"
GPT-4 응답: "유용성: 도움이 됩니다."

 

원칙 적용 (Human with principle):

질문: "다음 조언의 유용성을 도움이 되는지 아닌지 평가하세요. 예시:

  1. 조언: '집중력을 향상시키려면 매일 아침 15분간 명상을 해보세요.' 유용성: 도움이 됩니다
  1. 조언: '슬프면 그냥 기분을 전환하고 긍정적인 생각을 하세요.' 유용성: 도움이 되지 않습니다
  2. 조언: '효과적인 시간 관리를 위해 매일 할 일 목록을 작성하세요.' 유용성: 도움이 됩니다 조언: '일이 있으면 그냥 작업을 시작하세요.' 유용성:"

 GPT-응답: "도움이 되지 않습니다."

 

정확성(Correctness): 그림 5에 따르면, 모든 원칙을 적용할 때 일반적으로 평균적으로 모든 모델에서 20% 이상의 개선이 이루어졌습니다. 특히 소규모 및 중간 규모 모델의 경우, 개선은 일반적으로 20%에서 30% 사이에 도달할 수 있으며, 대규모 모델의 경우 개선은 50% 이상에 도달할 수 있습니다.

 

3.2 Results on individual LLMs

 

 

도입된 원칙을 적용한 후 LLM 응답 품질 향상 프롬프트에서 소규모는 7B 모델, 중규모는 13B 모델, 대규모는 70B 및 GPT-3.5/4 모델을 나타냅니다.

 

개별 모델과 원칙에 따른 응답 품질의 개선을 보여줍니다. 수정된 프롬프트를 사용한 후 평균적으로 다양한 LLM에서 안정적인 50%의 개선이 있었습니다. 또한, 그림 8은 각 원칙별로 다양한 LLM에서의 개선 결과를 자세히 제공합니다.

 

도입된 프롬프트에 대한 원칙을 적용한 후 LLM 응답 품질의 정확성 향상 프롬프트에 대한 원칙을 도입했습니다. 소규모는 7B 모델을 나타내고, 중간 규모는 는 13B 모델, 대규모는 70B 및 GPT-3.5/4 모델을 나타냅니다.

 

다양한 크기의 LLM에서 정확성의 향상을 보여줍니다. LLaMA-2-13B, LLaMA-2-70B-chat부터 GPT-3.5 및 GPT-4까지, 모델이 클수록 정확성이 증가하는 추세가 눈에 띕니다. 그림 9는 각 원칙에 따른 정확성 향상을 추가로 제시합니다

 

Conclusion

Boosting score across various LLMs on the ATLAS dataset.

 

26가지 원칙을 통해 대규모 언어 모델(LLM)이 입력 맥락의 핵심 요소에 집중하고 고품질의 응답을 생성할 수 있도록 하는 방법을 제시합니다. 이러한 세심하게 제작된 원칙들을 입력 처리 전에 LLM에 안내함으로써, 모델이 더 나은 응답을 생성하도록 격려할 수 있습니다. 실증적 결과는 이 전략이 출력의 품질을 저하시킬 수 있는 맥락을 효과적으로 재구성하고, 따라서 응답의 관련성, 간결성 및 객관성을 향상시킬 수 있음을 보여줍니다.

 

 

Limitations and Discussion

Correctness improvement score on the ATLAS dataset

26가지 원칙이 대규모 언어 모델(LLM)의 응답 품질을 향상시키기 위해 설계되었지만, 이 원칙들이 매우 복잡하거나 전문화된 질문을 다룰 때 효과가 감소할 수 있다고 언급합니다. 이러한 제한은 각 모델의 추론 능력과 훈련에 따라 달라질 수 있습니다. 연구자들은 다양한 규모의 모델에서 원칙들을 테스트하여 그 효과를 평가했습니다.

연구에서는 일곱 가지 다른 언어 모델을 사용하여 이 원칙들을 평가했지만, 테스트된 모델과 다른 아키텍처를 가진 모델들은 이 원칙들에 다르게 반응할 수 있습니다. 또한, 개선 및 정확성 평가는 제한된 질문 선택에 기반했으며, 질문 세트를 확장하면 더 일반화된 결과와 각 원칙의 적용 가능성에 대한 더 깊은 이해를 얻을 수 있을 것입니다.

 
728x90