Google Cloud Vertex Feature Store는 Google Cloud BigQuery에 있는 데이터를 낮은 지연 시간으로 서빙할 수 있도록 하여, 임베딩에 대한 근사 이웃 검색 기능까지 포함해 ML feature 관리와 온라인 서빙 프로세스를 간소화합니다.이 튜토리얼은 BigQuery 데이터로부터 직접 저지연 벡터 검색과 근사 최근접 이웃 검색을 손쉽게 수행하는 방법을 보여줍니다. 최소한의 설정으로 강력한 ML 애플리케이션을 구현할 수 있습니다. 우리는 이를
VertexFSVectorStore 클래스를 사용해 진행합니다.
이 클래스는 Google Cloud에서 통합 데이터 스토리지와 유연한 벡터 검색을 제공하는 2가지 클래스 세트의 일부입니다:
- BigQuery Vector Search: 인프라 설정 없이 빠른 프로토타이핑과 배치 검색에 이상적인
BigQueryVectorStore클래스. - Feature Store Online Store: 수동 또는 예약 데이터 동기화를 통해 저지연 검색을 가능하게 하는
VertexFSVectorStore클래스. 사용자 지향의 프로덕션 준비 GenAI 애플리케이션에 적합합니다.
시작하기
라이브러리 설치
시작 전 준비
프로젝트 ID 설정
프로젝트 ID를 모르는 경우 다음을 시도하세요:gcloud config list실행gcloud projects list실행- 지원 페이지 참고: 프로젝트 ID 찾기
리전 설정
BigQuery에서 사용하는REGION 변수도 변경할 수 있습니다. BigQuery 리전에 대해 자세히 알아보세요.
Dataset 및 Table 이름 설정
이들이 BigQuery Vector Store가 됩니다.노트북 환경 인증
- 이 노트북을 Colab에서 실행 중이라면, 아래 셀의 주석을 해제하고 진행하세요.
- Vertex AI Workbench를 사용 중이라면, 여기의 설정 안내를 확인하세요.
데모: VertexFSVectorStore
Embedding 클래스 인스턴스 생성
프로젝트에서 Vertex AI API를 활성화해야 할 수 있습니다. 다음을 실행하세요:gcloud services enable aiplatform.googleapis.com --project {PROJECT_ID}
({PROJECT_ID}를 프로젝트 이름으로 대체)
어떤 LangChain embeddings 모델이든 사용할 수 있습니다.
VertexFSVectorStore 초기화
BigQuery Dataset과 Table은 존재하지 않을 경우 자동으로 생성됩니다. 선택 가능한 모든 매개변수는 클래스 정의에서 확인하세요.텍스트 추가
참고: 첫 동기화 프로세스는 Feature Online Store 생성으로 인해 약 20분 정도 소요됩니다.
sync_data 메서드를 실행하여 온디맨드로 동기화를 시작할 수도 있습니다.
cron_schedule 클래스 매개변수를 사용해 자동 예약 동기화를 설정할 수도 있습니다.
예:
문서 검색
벡터로 문서 검색
메타데이터 필터로 문서 검색
임베딩과 함께 텍스트 추가
add_texts_with_embeddings 메서드를 사용하여 직접 생성한 임베딩을 함께 제공할 수도 있습니다.
이는 임베딩 생성 전에 커스텀 전처리가 필요할 수 있는 멀티모달 데이터에 특히 유용합니다.
BigQuery로 배치 서빙
.to_bq_vector_store() 메서드를 사용하면 간단히 BigQueryVectorStore 객체를 얻을 수 있으며, 이는 배치 사용 사례에 최적화된 성능을 제공합니다. 필수 매개변수는 기존 클래스에서 자동으로 전달됩니다. 사용할 수 있는 모든 매개변수는 클래스 정의에서 확인하세요.
.to_vertex_fs_vector_store() 메서드를 사용하면 BigQueryVectorStore로부터 다시 VertexFSVectorStore로 손쉽게 전환할 수 있습니다.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.