Home / AI / AI 용어사전 / Embedding (벡터 임베딩)
TERM
Embedding (벡터 임베딩)
On this page
Embedding 은 텍스트·이미지·코드 같은 비정형 데이터를 고정 차원의 숫자 벡터로 바꾸는 기술입니다. 한국어로는 임베딩 또는 벡터 임베딩이라 부르며, AI 시스템이 의미를 비교·검색·분류하기 위한 핵심 입력 형태입니다.
정의와 동작 원리
임베딩은 서로 다른 단어·문장·문서가 의미적으로 얼마나 가까운지를 거리 계산이 가능한 좌표 공간 위에 매핑합니다. 예를 들어 cat 과 kitten 은 가까운 위치에, cat 과 banking 은 먼 위치에 자리합니다. 모델은 학습 과정에서 함께 등장한 문맥을 통해 이 좌표를 학습하므로, 사전 정의 없이도 의미 유사성을 수치화할 수 있습니다.
같은 모델로 만들어진 두 임베딩은 cosine similarity 또는 dot product 로 비교합니다. 1 에 가까우면 의미가 비슷하고, 0 에 가까우면 무관합니다. 이 단순한 비교가 AI 검색·추천·분류의 기반입니다.
핵심 활용 시나리오
첫째, 의미 검색입니다. 키워드 일치가 아닌 의미 일치로 검색합니다. 예를 들어 자동차 라고 검색해도 sedan, vehicle, automobile 같은 동의어 문서를 찾아냅니다.
둘째, RAG (검색증강생성) 의 검색 단계입니다. 사용자 질문을 임베딩으로 바꾸고, 미리 임베딩해 둔 사내 문서 중 가까운 것 N개를 가져와 LLM 에 컨텍스트로 주입합니다. 이 방식이 AI 챗봇의 사실 정확도를 끌어올리는 표준 패턴입니다.
셋째, 분류·클러스터링입니다. 고객 문의 1만 건을 임베딩한 뒤 클러스터링하면 자주 나오는 주제 그룹을 자동으로 발견할 수 있습니다.
주요 임베딩 모델
2026 년 4 월 기준 자주 쓰이는 임베딩 모델은 OpenAI text-embedding-3 (1536·3072 차원), Google gemini-embedding-001 (3072 차원, 768 로 축소 가능), Anthropic 은 2025 년 말 voyage-3 시리즈를 통해 우회 제공합니다. 오픈웨이트 모델로는 BGE-M3 (다국어), e5-mistral 시리즈가 한국어 품질이 무난합니다.
중요한 운영 원칙은 한 번 시스템에 들어간 임베딩 모델은 쉽게 교체하기 어렵다는 것입니다. 다른 모델은 다른 좌표 공간이라 cosine similarity 가 호환되지 않습니다. 모델을 바꾸면 모든 문서를 다시 임베딩해야 합니다.
차원과 비용
임베딩 차원이 높을수록 표현력이 좋지만 저장·검색 비용이 함께 늘어납니다. 1536 차원 vs 768 차원은 메모리 2배 차이입니다. 실무에서는 768 또는 1536 이 균형점입니다. 3072 는 검색 정확도가 약간 더 높지만 운영 비용이 빠르게 누적됩니다.
또한 임베딩은 한 번 만들면 끝이 아닙니다. 새 문서가 들어올 때마다 임베딩 호출 비용이 발생하고, 모델 교체 시 재임베딩 비용까지 쌓입니다. 시작 단계에서 캐싱·배치 처리를 함께 설계하는 것이 운영 비용을 결정합니다.
한계와 주의
임베딩은 의미를 잘 잡지만 사실 검증은 못 합니다. 가까운 문서가 항상 정답인 것은 아닙니다. 검색 결과 중 잘못된 정보를 가져오면 RAG 응답도 틀립니다. 검색 단계에 reranker 또는 메타데이터 필터를 추가하는 것이 권장됩니다.
또한 짧은 텍스트는 임베딩 품질이 낮습니다. 단어 1~2 개의 의미 비교는 임베딩보다 BM25 같은 키워드 검색이 더 정확할 수 있습니다. 입력 길이별로 알고리즘을 분기하는 하이브리드 검색이 안전합니다.
운영 메모
임베딩 도입 시 가장 먼저 정해야 할 것은 모델·차원·저장소입니다. 모델은 한 번 정하면 교체 비용이 크고, 차원은 운영 비용에 직결되며, 저장소는 검색 속도를 결정합니다. 작은 프로젝트는 PostgreSQL pgvector 로 시작해도 충분합니다. 1 천만 row 이상이면 Qdrant·Pinecone·Weaviate 같은 전용 벡터 DB 가 유리합니다.
또 한 번 임베딩하면 새 모델이 나와도 곧장 갈아타지 마세요. A/B 테스트로 검색 품질 차이를 실측한 뒤 비용·정확도 균형이 맞을 때 마이그레이션하는 것이 안전합니다.