전체 글137 Chat Vector 를 통한 한국어 모델 튜닝 https://arxiv.org/abs/2310.04799 Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New LanguagesRecently, the development of open-source large language models (LLMs) has advanced rapidly. Nevertheless, due to data constraints, the capabilities of most open-source LLMs are primarily focused on English. To address this issue, we introduce the concept oa.. 2024. 6. 12. Hyper CLOVA 스터디를 참여하게 되었다🙇 이직준비와 이직 신입 적응기를 거치며 5월은 빠르게 흘러갔다. 매번 일을 벌이는 걸 좋아하는 나에게 찾아온 트리거 같은 역할 풀잎스쿨네이버클라우드의 하이퍼클로바 콜라보의 풀잎스쿨이었다. LLM을 팔로우를 하는 나로선 Hyper CLOVA에 논문 리뷰 후 제대로 사용해 본 적이 없기 때문에, 이번 기회에 한번 파인튜닝도 해보고! 내 챗봇도 하나 딱 만들고! 여러 서비스에 붙여보고! 해볼 수 있을 거 같아서 신청을 하게 되었다. 풀잎이 시작하기 전, 또 하이퍼 클로바 막차 타기라는 SNS에서 스터디를 홍보하길래 에라 비슷하겠지 하고 무지성으로 신청을 했는데, 당첨이 되어서 팀으로 선발이 되었다. 일단 2개를 같이 한다는 점에서 피곤할 수 있지만 어느 정도 겹치는 부분이 많을 거라 생각해서 별 탈없이 할 수 .. 2024. 5. 30. Vector DB의 Querying 검색방법(keyword, semantic, hybrid) 키워드 검색 (Keyword Search)속성 필터 (Attribute Filter)정의: 메타데이터를 기반으로 한 필터를 통해 자연어를 검색하는 방식입니다.장점:직관적이고 빠름: 구체적인 검색 요건에 맞춰 빠르게 결과를 제공합니다.고유명사 검색 시 정확: 명확하고 구체적인 키워드일 경우 높은 정확도를 보입니다.단점:유연성 부족: 검색 결과의 다양성과 유연성이 부족합니다.사용자의 검색 능력에 의존: 검색 품질이 사용자의 능력에 크게 좌우됩니다.스파스 벡터 검색 (Sparse Vector Search)정의: 문서 내 단어 은행을 기반으로 n-gram 벡터를 생성하여 검색을 수행합니다.장점:연관성 있는 문서 발췌 가능: 단어의 언급 빈도를 기반으로 관련 문서를 찾아냅니다.단점:유연성 부족: 텍스트의 의미를 .. 2024. 5. 8. Build with AI (Google Developer Groups) Build with AI United 2024 | Festa!Festa에서 당신이 찾는 이벤트를 만나보세요.festa.io 행사 정보행사명 : Build with AI United날짜 및 시간: 2024년 4월 27일 (토) 오전 11시장소: 강남 SC컨벤션세션 1 : "백만 토큰 윈도우로는 무엇을 할 수 있을까? : Gemini 1.5 Pro와 새로운 가능성"언어 모델의 발전BERT, Transformer 모델의 등장GPT-3 (2020년), Gemini (2023년)GPU 발전: 초기 100개에서 Llama3 시대의 40,000개로 증가공개 기반 모델의 확산2024년 4월 기준, 200개 이상의 기반 모델 존재언어 모델의 특성 및 발전 방향토큰: 텍스트를 작은 단위로 나누는 기본 요소 (예: 단어, .. 2024. 4. 27. ORPO: Monolithic Preference Optimization without Reference Model 한글 리뷰 및 학습방법 안녕하세요 오늘 소개해드릴 논문은 ORPO로 LLAMA3 가 나오고 거의 대부분 Training에 쓰이고 있는 최적화 방법입니다. 놀라운 건 이걸 KAIST에서 발표했네요. 역시 다릅니다. ORPO: Monolithic Preference Optimization without Reference ModelWhile recent preference alignment algorithms for language models have demonstrated promising results, supervised fine-tuning (SFT) remains imperative for achieving successful convergence. In this paper, we study the cru.. 2024. 4. 24. Vector DB의 Indexing 이란? Vector DB 인덱싱 개요 벡터 데이터베이스 인덱싱(Vector Database Indexing)은 고차원의 데이터를 효율적으로 관리하고 검색하기 위해 사용되는 기술입니다. 이 기술의 주된 목표는 검색 정확도와 검색 속도 사이의 최적의 균형(trade-off)을 찾는 것입니다. 인덱싱은 데이터를 구조화된 인덱스에 저장함으로써, 추후에 이루어지는 검색이 더 빠르고 정확하게 이루어질 수 있도록 합니다. 기술의 필요성 대용량의 데이터셋 내에서 특정 데이터를 빠르게 찾아내는 것은 매우 중요한 문제입니다. 특히, 이미지, 비디오, 오디오와 같은 멀티미디어 데이터들이나, 사용자의 선호도를 반영한 추천 시스템 등에서 사용되는 고차원 벡터들은 전통적인 데이터베이스 인덱스 기법으로는 효율적으로 관리하기 어렵습니다. .. 2024. 4. 23. 이전 1 ··· 4 5 6 7 8 9 10 ··· 23 다음