Apache Doris는 실시간 분석을 위한 현대적인 데이터 웨어하우스입니다. 대규모 실시간 데이터에 대해 매우 빠른 분석을 제공합니다.
일반적으로 Apache Doris는 OLAP으로 분류되며, ClickBench — a Benchmark For Analytical DBMS에서 뛰어난 성능을 보여주었습니다. 초고속 벡터화 실행 엔진을 갖추고 있어 빠른 vectordb로도 사용할 수 있습니다.
이 통합을 사용하려면 pip install -qU langchain-community로 langchain-community를 설치해야 합니다
여기서는 Apache Doris Vector Store를 사용하는 방법을 보여드리겠습니다.
Setup
update_vectordb = False로 설정합니다. 업데이트된 문서가 없다면 문서의 embedding을 다시 빌드할 필요가 없습니다
문서를 로드하고 token으로 분할하기
docs 디렉토리 아래의 모든 markdown 파일을 로드합니다
Apache Doris 문서의 경우, github.com/apache/doris에서 repo를 clone할 수 있으며, 그 안에 docs 디렉토리가 있습니다.
update_vectordb = True로 설정합니다.
vectordb instance 생성하기
Apache Doris를 vectordb로 사용하기
token을 embedding으로 변환하고 vectordb에 저장하기
여기서는 Apache Doris를 vectordb로 사용하며,ApacheDorisSettings를 통해 Apache Doris instance를 구성할 수 있습니다.
Apache Doris instance 구성은 mysql instance 구성과 매우 유사합니다. 다음을 지정해야 합니다:
- host/port
- username(기본값: ‘root’)
- password(기본값: ”)
- database(기본값: ‘default’)
- table(기본값: ‘langchain’)
QA를 구축하고 질문하기
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.