Google Cloud Vertex AI Vector Search vector database와 관련된 기능을 사용하는 방법을 보여줍니다.
Google Vertex AI Vector Search는 이전 명칭 Vertex AI Matching Engine으로, 업계 최고 수준의 고확장 저지연 vector database를 제공합니다. 이러한 vector database는 일반적으로 vector similarity-matching 또는 approximate nearest neighbor(ANN) 서비스로 불립니다.주의: LangChain API는 이미 생성되어 배포된 endpoint와 index가 있다고 가정합니다. Index 생성에는 최대 1시간이 소요될 수 있습니다.
Index 생성 방법은 섹션 Create Index and deploy it to an Endpoint를 참고하세요. 이미 배포된 index가 있다면, Create VectorStore from texts로 건너뛰세요.
Create Index and deploy it to an Endpoint
- 이 섹션에서는 새 index를 생성하고 endpoint에 배포하는 방법을 보여줍니다.
임베딩 모델로 VertexAIEmbeddings 사용하기
빈 Index 생성하기
주의: Index를 생성할 때 “index_update_method”를 “BATCH_UPDATE” 또는 “STREAM_UPDATE” 중 하나로 지정해야 합니다.배치 index는 주간 또는 월간 등 일정 기간 동안 저장된 데이터를 한 번에 업데이트할 때 사용합니다. 스트리밍 index는 데이터스토어에 새 데이터가 추가될 때마다 index 데이터가 즉시 업데이트되도록 할 때 사용합니다. 선택한 유형에 따라 설정과 요구 사항이 달라지므로 중요합니다.Index 구성에 대한 자세한 내용은 공식 문서를 참고하세요.
Endpoint 생성하기
Index를 Endpoint에 배포하기
Create Vector Store from texts
참고: 기존 Index와 Endpoints가 있는 경우, 아래 코드를 사용하여 로드할 수 있습니다.간단한 vectorstore 생성 (필터 없음)
선택 사항: Datastore에 vector를 생성하고 chunk를 저장할 수도 있습니다
metadata filters가 있는 vectorstore 생성
Vector Store를 retriever로 사용하기
Question Answering Chains에서 retriever와 함께 filters 사용하기
PDF 읽기, chunk, vectorise 및 인덱싱
Hybrid Search
Vector Search는 hybrid search를 지원합니다. Hybrid search는 semantic search와 keyword search(token 기반 검색이라고도 함)를 결합한 정보 검색(IR)에서 널리 사용되는 아키텍처 패턴입니다. Hybrid search를 사용하면 두 접근 방식의 장점을 모두 활용하여 검색 품질을 효과적으로 향상시킬 수 있습니다. 자세한 내용은 여기를 클릭하세요. Hybrid search를 사용하려면 sparse embedding vectorizer를 학습시키고, Vector Search 통합 외부에서 embeddings를 처리해야 합니다. Sparse embedding vectorizer의 예로 sklearn TfidfVectorizer가 있으며, BM25 같은 다른 기법도 사용할 수 있습니다.Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.