Activeloop Deep Lake는 embedding과 text, json, image, audio, video 등을 포함한 메타데이터를 저장하는 Multi-Modal Vector Store입니다. 데이터를 로컬, 클라우드 또는 Activeloop storage에 저장합니다. embedding과 그 속성을 포함한 hybrid search를 수행합니다.이 notebook은
Activeloop Deep Lake와 관련된 기본 기능을 소개합니다. Deep Lake는 embedding을 저장할 수 있지만, 모든 유형의 데이터를 저장할 수 있습니다. 버전 관리, 쿼리 엔진 및 딥러닝 프레임워크를 위한 streaming dataloader를 갖춘 serverless data lake입니다.
자세한 내용은 Deep Lake 문서를 참조하세요.
설정
Activeloop에서 제공하는 예제
LangChain과의 통합.로컬 Deep Lake
로컬 dataset 생성
./my_deeplake/에 로컬로 dataset을 생성한 다음 유사도 검색을 실행합니다. Deeplake+LangChain 통합은 내부적으로 Deep Lake dataset을 사용하므로 dataset과 vector store는 상호 교환적으로 사용됩니다. 자신의 클라우드 또는 Deep Lake storage에 dataset을 생성하려면 경로를 적절히 조정하세요.
Dataset 쿼리
read_only=True로 설정하면 업데이트가 필요하지 않을 때 vector store의 우발적인 수정을 방지합니다. 이는 명시적으로 의도하지 않는 한 데이터가 변경되지 않도록 보장합니다. 의도하지 않은 업데이트를 피하기 위해 이 인수를 지정하는 것이 일반적으로 좋은 관행입니다.
Retrieval Question/Answering
메타데이터의 속성 기반 필터링
문서가 생성된 연도를 포함하는 메타데이터가 있는 또 다른 vector store를 생성해 보겠습니다.거리 함수 선택
거리 함수L2는 Euclidean, cos는 cosine similarity
Maximal Marginal relevance
Maximal marginal relevance 사용Dataset 삭제
클라우드(Activeloop, AWS, GCS 등) 또는 메모리의 Deep Lake dataset
기본적으로 Deep Lake dataset은 로컬에 저장됩니다. 메모리, Deep Lake Managed DB 또는 모든 object storage에 저장하려면 vector store를 생성할 때 해당 경로와 자격 증명을 제공할 수 있습니다. 일부 경로는 Activeloop에 등록하고 여기에서 검색할 수 있는 API token을 생성해야 합니다.TQL Search
또한 similarity_search method 내에서 쿼리 실행이 지원되며, Deep Lake의 Tensor Query Language(TQL)를 사용하여 쿼리를 지정할 수 있습니다.AWS S3에 vector store 생성
Deep Lake API
db.vectorstore에서 Deep Lake dataset에 액세스할 수 있습니다
로컬 dataset을 클라우드로 전송
이미 생성된 dataset을 클라우드로 복사합니다. 클라우드에서 로컬로도 전송할 수 있습니다.Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.