본문 바로가기

전체 글129

Retrieval-Augmented Generation for Large Language Models: A Survey 논문 리뷰 안녕하세요 Simon 입니다. 오늘은 RAG 의 서베이 관련 논문이 있어서 가져와봤습니다. RAG 기술이 점점 LLM 의 할루시네이션을 개선하기 위한 기술로 자리를 잡고 있고 이곳저곳에서 도입이 되고있고, 텍스트 뿐만아니라 나중에는 멀티모달의 이미지 리트리버 분야도 분명 대두될거 같다는 생각을 종종하고 있습니다. RAG 기술이라도 잘 알고 설명 할 줄 아는 사람이 되고싶어서 위의 논문을 이해해보려고 합니다. Retrieval-Augmented Generation for Large Language Models: A Survey Large Language Models (LLMs) demonstrate significant capabilities but face challenges such as halluci.. 2024. 3. 5.
Honeybee: Locality-enhanced Projector for Multimodal LLM 논문 리뷰 h안녕하세요 Simon 입니다 오늘은 Honeybee 라고 KAKAO Brain 에서 개발한 멀티모달 모델에 관련된 논문을 리뷰하려고 합니다. LLM -> MLLM 에 대한 연구가 확실히 활발하게 이루어지고 있는 듯 합니다. made dall-e HoneyBEE 카카오브레인이 새로운 인공지능 모델 '허니비(Honeybee)'를 발표, 이미지와 텍스트 입력이 가능한 기능을 갖춤. '허니비'는 이미지와 텍스트를 이해하고 답변하는 능력이 있으며, MME 벤치마크에서 높은 점수를 획득. 카카오브레인은 허니비를 교육 및 학습 보조 도구로 활용할 계획이며, 지속적인 연구와 개발을 진행할 예정임. Honeybee: Locality-enhanced Projector for Multimodal LLM In Multimo.. 2024. 3. 5.
Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (2) https://wiz-tech.tistory.com/60 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 wiz-tech.tistory.com 위 내용을 참조해주시길 바랍니다. 실험 부분부터 다시 리뷰하겠습니다. Experiments 1. Setup and Implementation Details https://github.com/VILA-Lab/ATLAS GitHub - VILA-Lab.. 2024. 3. 5.
Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 논문 리뷰 - (1) 안녕하세요 Simon 입니다. 오늘은 프롬프트 관련 논문에 대해서 리뷰를 하려고 합니다. 좋은 프롬프트를 만드는 26가지 원칙이라고 하는데요 위 논문 리뷰를 통해 보다 GPT를 잘 쓰고 Insight 를 많이 얻어갔으면 합니다. https://arxiv.org/abs/2312.16171 Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 This paper introduces 26 guiding principles designed to streamline the process of querying and prompting large language models. Our goal is to simplify the und.. 2024. 3. 5.
Switch Transformers: Scaling to Trillion Parameter Modelswith Simple and Efficient Sparsity 리뷰 안녕하세요 Simon 입니다. 오늘 리뷰해볼 논문은 MoE 모델의 아키텍처인 Switch Transformers 입니다. 사실 제가 딥러닝을 배우기전에 나왔던 논문인데 신기하게 다 언젠가는 빛을 바라는 순간이 오는거 같습니다. Abstrack 스위치 트랜스포머는 전통적인 딥러닝 모델의 한계를 극복하기 위해 개발된 새로운 접근 방식입니다. 기존 모델들이 모든 입력에 대해 동일한 매개변수를 사용하는 반면, 스위치 트랜스포머는 각 입력 예제마다 다른 매개변수를 선택하는 혼합(전문가 혼합) 모델을 채택합니다. 이 방식은 매개변수의 수를 크게 늘리면서도 계산 비용을 일정하게 유지합니다. 그러나 이러한 모델은 복잡성, 통신 비용, 그리고 훈련의 불안정성과 같은 문제들을 가지고 있었습니다. 스위치 트랜스포머는 이러한.. 2024. 3. 5.
SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 안녕하세요 Simon입니다. 오늘 소개해드릴 논문은 SOLAR 10.7B에 관한 논문입니다. 지금 FastCampus에서 Upstage의 파인튜닝 노하우 강의를 듣고 있는데 김성훈 CEO가 소개해준 내용과 연관해서 리뷰를 해보겠습니다. 강의를 수강하는데 계속 웃음꽃이 떠나질 않는 거 보면 확실히 현재 제일 hot 한 최전선에 있는 분야에서 최고가 된 만큼 얼마나 기쁠까 생각이 들긴 합니다. LLM의 평가지표는 여러 가지가 있습니다. H4는 4개의 데이터셋으로 평가한다는 의미인데요, 현재 H7 까지도 증가해서 평가를 받고 있습니다. 그 말은 즉슨 H4에서의 벤치마크가 높은데 H7에서는 떨어진다? 이 말은 모델이 그만큼 일반화가 되지 않은 모델이라고 생각해 볼 수 있습니다. LLM 평가지표에 대한 글은 제가.. 2024. 3. 5.