본문 바로가기

Attention6

효과적인 Attention 매커니즘 infini-attention 의 Code 리뷰 https://github.com/jlamprou/Infini-Attention/blob/main/infiniAttention.py Infini-Attention/infiniAttention.py at main · jlamprou/Infini-Attention Efficient Infinite Context Transformers with Infini-attention Pytorch Implementation + QwenMoE Implementation + Training Script + 1M context keypass retrieval - jlamprou/Infini-Attention github.com + 블로그가 잘안보이는 관계로 https://github.com/jh941213/Code_revi.. 2024. 4. 18.
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention 논문 리뷰 오늘 소개해드릴 논문은 Long-Context에서 효과적인 방법을 위한 새로운 메커니즘 infini-attention에 관한 내용입니다. https://arxiv.org/abs/2404.07143 Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention This work introduces an efficient method to scale Transformer-based Large Language Models (LLMs) to infinitely long inputs with bounded memory and computation. A key component in our proposed approach .. 2024. 4. 16.
HyperCLOVA X Technical Report 한글 요약 리뷰 하이퍼 크로버 관련 테크니컬 리포트가 드디어 나왔습니다. GPT-4 보다 한국어 성능만큼은 더 좋다고 계속 얘기되었던 만큼 어떻게 학습시키고 구조가 어떻게 되고, 데이터셋을 어떻게 구성했을지 궁금했는데 링크드인을 서칭 중에 네이버 AI 관련 일 하시는 분들이 업로드해서 리뷰를 해보게 되었습니다. 이번 논문은 전체 번역보다는 Summary Review로 각 단락별로 중요한 내용과 제 생각을 적는 방식으로 리뷰 했습니다. HyperCLOVA X Technical Report We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competit.. 2024. 4. 6.
Jamba:A Hybrid Transformer-Mamba Language Model 리뷰 Jamba: A Hybrid Transformer-Mamba Language Model We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is arxiv.org ai21labs/Jamba-v0.1 · Hugging Face Model Card for Jamba Jamba is a state-of-the-art.. 2024. 4. 2.