본문 바로가기

llm57

Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (2) https://wiz-tech.tistory.com/60 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 wiz-tech.tistory.com 위 내용을 참조해주시길 바랍니다. 실험 부분부터 다시 리뷰하겠습니다. Experiments 1. Setup and Implementation Details https://github.com/VILA-Lab/ATLAS GitHub - VILA-Lab.. 2024. 3. 5.
Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 얻어갔으면 합니다. https://arxiv.org/abs/2312.16171 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the und.. 2024. 3. 5.
Switch Transformers: Scaling to Trillion Parameter Modelswith Simple and Efficient Sparsity 리뷰 안녕하세요 Simon 입니다. 오늘 리뷰해볼 논문은 MoE 모델의 아키텍처인 Switch Transformers 입니다. 사실 제가 딥러닝을 배우기전에 나왔던 논문인데 신기하게 다 언젠가는 빛을 바라는 순간이 오는거 같습니다. Abstrack 스위치 트랜스포머는 전통적인 딥러닝 모델의 한계를 극복하기 위해 개발된 새로운 접근 방식입니다. 기존 모델들이 모든 입력에 대해 동일한 매개변수를 사용하는 반면, 스위치 트랜스포머는 각 입력 예제마다 다른 매개변수를 선택하는 혼합(전문가 혼합) 모델을 채택합니다. 이 방식은 매개변수의 수를 크게 늘리면서도 계산 비용을 일정하게 유지합니다. 그러나 이러한 모델은 복잡성, 통신 비용, 그리고 훈련의 불안정성과 같은 문제들을 가지고 있었습니다. 스위치 트랜스포머는 이러한.. 2024. 3. 5.
SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 안녕하세요 Simon입니다. 오늘 소개해드릴 논문은 SOLAR 10.7B에 관한 논문입니다. 지금 FastCampus에서 Upstage의 파인튜닝 노하우 강의를 듣고 있는데 김성훈 CEO가 소개해준 내용과 연관해서 리뷰를 해보겠습니다. 강의를 수강하는데 계속 웃음꽃이 떠나질 않는 거 보면 확실히 현재 제일 hot 한 최전선에 있는 분야에서 최고가 된 만큼 얼마나 기쁠까 생각이 들긴 합니다. LLM의 평가지표는 여러 가지가 있습니다. H4는 4개의 데이터셋으로 평가한다는 의미인데요, 현재 H7 까지도 증가해서 평가를 받고 있습니다. 그 말은 즉슨 H4에서의 벤치마크가 높은데 H7에서는 떨어진다? 이 말은 모델이 그만큼 일반화가 되지 않은 모델이라고 생각해 볼 수 있습니다. LLM 평가지표에 대한 글은 제가.. 2024. 3. 5.