탄생 배경

Embedding이란 무엇인가?

임베딩(Embedding)은 자연어 처리(NLP)에서 사용되는 개념으로, 텍스트 등을 수치화하여 고차원 공간에 매핑하는 기법이다.

Vector DB의 필요성

임베딩을 통해 텍스트, 이미지, 오디오 등 비정형 데이터를 고차원 벡터로 변환할 수 있게 되었지만, 이 벡터들을 실제 서비스에 활용하려면 빠르고 정확하게 유사도를 비교하고 검색할 수 있는 저장소가 필요해짐에 따라 탄생하게 되었다.

핵심 기능을 아래와 같다.

활용 사례

시멘틱 검색

기존의 키워드 검색은 사용자가 입력한 단어 그대로 일치하는 문서를 찾는 방식이다. 따라서 동의어, 문맥, 의도를 제대로 반영하지 못한다.

반면, 시멘틱 검색은 질문과 문서 모두를 벡터로 임베딩한 후, 질문 벡터와 가장 유사한 문서 벡터를 벡터 디비에서 검색함으로써, 사용자의 의도를 더 정확하게 반영할 수 있다.