본문 바로가기

NLP19

SOLAR 10.7B: Scaling Large Language Models with Simple yet EffectiveDepth Up-Scaling 안녕하세요 Simon입니다. 오늘 소개해드릴 논문은 SOLAR 10.7B에 관한 논문입니다. 지금 FastCampus에서 Upstage의 파인튜닝 노하우 강의를 듣고 있는데 김성훈 CEO가 소개해준 내용과 연관해서 리뷰를 해보겠습니다. 강의를 수강하는데 계속 웃음꽃이 떠나질 않는 거 보면 확실히 현재 제일 hot 한 최전선에 있는 분야에서 최고가 된 만큼 얼마나 기쁠까 생각이 들긴 합니다. LLM의 평가지표는 여러 가지가 있습니다. H4는 4개의 데이터셋으로 평가한다는 의미인데요, 현재 H7 까지도 증가해서 평가를 받고 있습니다. 그 말은 즉슨 H4에서의 벤치마크가 높은데 H7에서는 떨어진다? 이 말은 모델이 그만큼 일반화가 되지 않은 모델이라고 생각해 볼 수 있습니다. LLM 평가지표에 대한 글은 제가.. 2024. 3. 5.
MoE : Mixture of Experts Explained 리뷰 안녕하세요 Simon 입니다. 이번 포스팅할 게시물은 차기 Transformers 기반의 AI 생태계를 변화시킬 수 있을지 집중이 되고있는 MoE에 대해서 알아보겠습니다. 모든 게시물은 Hugging Face 에 소개된 게시물을 토대로 작성되었습니다. https://huggingface.co/blog/moe#what-is-a-mixture-of-experts-moe Mixture of Experts Explained Mixture of Experts Explained With the release of Mixtral 8x7B (announcement, model card), a class of transformer has become the hottest topic in the open AI commun.. 2024. 3. 5.
DeepPCR : Parallelizing Sequential Operations in Neural Networks 리뷰 안녕하세요 Simon 입니다. 애플이 AI 쪽으로 많이 약하다는 평가가 항상 있는데 슬슬 시동을 거는듯 해보입니다. DeepPCR 이라고 신경망관련해서 기술 개선을 한 논문을 발표를 해서 가져와봤습니다. 애플 공식 홈페이지 머신러닝 리서처에도 올라갔습니다. Introduction 오늘날의 머신러닝과 딥러닝 연구는 복잡성이 증가함에 따라 효율적인 계산 방법에 대한 필요성이 점점 더 커지고 있습니다. 이러한 맥락에서 최근 발표된 논문 "DeepPCR: Parallelizing Sequential Operations in Neural Networks"는 주목할 만합니다. 이 논문은 신경망에서 전통적으로 순차적으로 처리되던 연산을 병렬화하는 새로운 알고리즘, DeepPCR을 제안합니다. Abstract Deep.. 2024. 3. 5.
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving 리뷰 안녕하세요 현재김입니다. 여러 AI 관련 뉴스레터를 받아보고 있는데 재밌어보이길래 한번 들어가서 봤습니다. On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to gra.. 2024. 3. 5.