본문 바로가기
Study notes

Vector DB의 Querying 검색방법(keyword, semantic, hybrid)

by AI미남홀란드 2024. 5. 8.
728x90

키워드 검색 (Keyword Search)

속성 필터 (Attribute Filter)

  • 정의: 메타데이터를 기반으로 한 필터를 통해 자연어를 검색하는 방식입니다.
  • 장점:
    • 직관적이고 빠름: 구체적인 검색 요건에 맞춰 빠르게 결과를 제공합니다.
    • 고유명사 검색 시 정확: 명확하고 구체적인 키워드일 경우 높은 정확도를 보입니다.
  • 단점:
    • 유연성 부족: 검색 결과의 다양성과 유연성이 부족합니다.
    • 사용자의 검색 능력에 의존: 검색 품질이 사용자의 능력에 크게 좌우됩니다.

스파스 벡터 검색 (Sparse Vector Search)

  • 정의: 문서 내 단어 은행을 기반으로 n-gram 벡터를 생성하여 검색을 수행합니다.
  • 장점:
    • 연관성 있는 문서 발췌 가능: 단어의 언급 빈도를 기반으로 관련 문서를 찾아냅니다.
  • 단점:
    • 유연성 부족: 텍스트의 의미를 완벽하게 파악하지 못하고, 구조적 유사성에만 초점을 맞춥니다.

의미적 검색 (Semantic Search)

  • 정의: 문서의 의미적 유사성을 기반으로 벡터 간 거리를 계산하여 검색 결과를 도출합니다.
  • 장점:
    • 유연성 및 관련성: 검색 쿼리와 문맥적 유사성을 고려하여 높은 관련성의 결과를 제공합니다.
    • 오타 및 유사어에 강함: 문맥을 이해하고, 유사어나 오타가 있어도 적절한 결과를 도출합니다.
  • 단점:
    • 속도 및 리소스: 더 많은 계산 자원과 시간을 요구합니다.

하이브리드 검색 (Hybrid Search)

  • 정의: 키워드 기반의 전통적 검색과 의미적 검색을 조합하여 사용하는 검색 방식입니다.
  • 장점:
    • 유연성 및 정확성 향상: 복합적 자료의 해석과 정확한 검색 결과 도출에 유리합니다.
  • 작동 방식:
    1. 초기 쿼리 처리: 사용자의 쿼리를 키워드 및 의미적 검색으로 분리하여 처리합니다.
    2. 검색 방식 조합: Attribute Filter 및 Semantic Search 방식을 조합하여 효과적인 결과를 도출합니다.
    3. 결과 통합: 두 검색 결과를 통합하여 최종 결과를 제공합니다.

하이브리드 검색 융합 방식 (Hybrid Search Fusion)

  • 가중치 점수 방식 (Naive Weighted Score):
    • 희소 점수와 밀집 점수를 조합하는 가장 간단한 방식입니다.
  • 순위 역수 융합 (Reciprocal Rank Fusion, RRF):
    • 검색 엔진의 결과 순위를 역수로 계산하여 통합합니다.
  • 상대 점수 융합 (Relative Score Fusion, RSF):
    • 각 결과의 점수를 정규화하여 통합합니다.
  • 분포 기반 점수 융합 (Distribution-Based Score Fusion, DBSF):
    • 각 검색 결과의 점수 분포를 기반으로 통합합니다.
728x90

'Study notes' 카테고리의 다른 글

FastAPI 기초부터 A to Z  (0) 2024.07.10
Docker에 대하여 - (2)  (0) 2024.06.13
Docker에 대하여 - (1)  (0) 2024.06.13
Vector DB의 Indexing 이란?  (0) 2024.04.23
[3/27] Text embedding 관련, BERT , MTEB  (0) 2024.03.27