BERT - 교차인콛더를 사용해서 문장과 문장의 유사성의 점수를 매기는 구조
SBERT - 버트의 성능은 유지 하되 더 가볍게 !
특징 : 문장 단위의 임베딩(input 구조를 단을 문장으로 축소), 샴네트워크 구조(문장 페어별 벡터 연산대신 , 단일문장 단위의 샴쌍둥이 처럼 또하나 생성해서 두문장간 유사성 예측 연습, 이를 통해 임베딩 벡터는 서로의미가 비슷한 문장일 수록 벡터공간 내에, 거리도 가깝게 애초에 표현하도록 네트워크 학습)
MTEB : Massive Text Embedding Benchmark
임베딩을 평가하는 8가지의 지표가 있다
Bitext Mining (번역성능)
Classification (분류성능)
Clustering (클러스터 라벨링 성능)
Pair Classification (두 토큰 간의 유사성 분류 성능)
Reranking (INput Query와의 연관성 정렬 성능)
Retrieval (Input Query와 연관성 있는 문서 발췌 성능)
STS (두 문장간 유사성 계산 성능)
Summarization (기계요약 대비 인간요약간 거리 계산 성능)
MTEB Leaderboard
Max Tokens : 임베딩 당 토큰 수 제한, 임베딩의 단위 해석가능
Ebeddding Dimensions : 자연어 -> 벡터 변환 이후의 차원의 수 , 큰 차원일 수록 변환 실행 증가, 유사도 계싼 증가 , 벡터디비 용량 증거, 성능과 비용간 적절한 벨런싱이 중요함.
Open AI 임베딩의 예)
MiRACL average : 다국어 성능
'Study notes' 카테고리의 다른 글
FastAPI 기초부터 A to Z (0) | 2024.07.10 |
---|---|
Docker에 대하여 - (2) (0) | 2024.06.13 |
Docker에 대하여 - (1) (0) | 2024.06.13 |
Vector DB의 Querying 검색방법(keyword, semantic, hybrid) (3) | 2024.05.08 |
Vector DB의 Indexing 이란? (0) | 2024.04.23 |