728x90
키워드 검색 (Keyword Search)
속성 필터 (Attribute Filter)
- 정의: 메타데이터를 기반으로 한 필터를 통해 자연어를 검색하는 방식입니다.
- 장점:
- 직관적이고 빠름: 구체적인 검색 요건에 맞춰 빠르게 결과를 제공합니다.
- 고유명사 검색 시 정확: 명확하고 구체적인 키워드일 경우 높은 정확도를 보입니다.
- 단점:
- 유연성 부족: 검색 결과의 다양성과 유연성이 부족합니다.
- 사용자의 검색 능력에 의존: 검색 품질이 사용자의 능력에 크게 좌우됩니다.
스파스 벡터 검색 (Sparse Vector Search)
- 정의: 문서 내 단어 은행을 기반으로 n-gram 벡터를 생성하여 검색을 수행합니다.
- 장점:
- 연관성 있는 문서 발췌 가능: 단어의 언급 빈도를 기반으로 관련 문서를 찾아냅니다.
- 단점:
- 유연성 부족: 텍스트의 의미를 완벽하게 파악하지 못하고, 구조적 유사성에만 초점을 맞춥니다.
의미적 검색 (Semantic Search)
- 정의: 문서의 의미적 유사성을 기반으로 벡터 간 거리를 계산하여 검색 결과를 도출합니다.
- 장점:
- 유연성 및 관련성: 검색 쿼리와 문맥적 유사성을 고려하여 높은 관련성의 결과를 제공합니다.
- 오타 및 유사어에 강함: 문맥을 이해하고, 유사어나 오타가 있어도 적절한 결과를 도출합니다.
- 단점:
- 속도 및 리소스: 더 많은 계산 자원과 시간을 요구합니다.
하이브리드 검색 (Hybrid Search)
- 정의: 키워드 기반의 전통적 검색과 의미적 검색을 조합하여 사용하는 검색 방식입니다.
- 장점:
- 유연성 및 정확성 향상: 복합적 자료의 해석과 정확한 검색 결과 도출에 유리합니다.
- 작동 방식:
- 초기 쿼리 처리: 사용자의 쿼리를 키워드 및 의미적 검색으로 분리하여 처리합니다.
- 검색 방식 조합: Attribute Filter 및 Semantic Search 방식을 조합하여 효과적인 결과를 도출합니다.
- 결과 통합: 두 검색 결과를 통합하여 최종 결과를 제공합니다.
하이브리드 검색 융합 방식 (Hybrid Search Fusion)
- 가중치 점수 방식 (Naive Weighted Score):
- 희소 점수와 밀집 점수를 조합하는 가장 간단한 방식입니다.
- 순위 역수 융합 (Reciprocal Rank Fusion, RRF):
- 검색 엔진의 결과 순위를 역수로 계산하여 통합합니다.
- 상대 점수 융합 (Relative Score Fusion, RSF):
- 각 결과의 점수를 정규화하여 통합합니다.
- 분포 기반 점수 융합 (Distribution-Based Score Fusion, DBSF):
- 각 검색 결과의 점수 분포를 기반으로 통합합니다.
728x90
'Study notes' 카테고리의 다른 글
FastAPI 기초부터 A to Z (0) | 2024.07.10 |
---|---|
Docker에 대하여 - (2) (0) | 2024.06.13 |
Docker에 대하여 - (1) (0) | 2024.06.13 |
Vector DB의 Indexing 이란? (0) | 2024.04.23 |
[3/27] Text embedding 관련, BERT , MTEB (0) | 2024.03.27 |