Pebblo Safe DocumentLoader

Pebblo는 개발자가 조직의 규정 준수 및 보안 요구 사항에 대한 걱정 없이 안전하게 데이터를 로드하고 Gen AI 앱을 배포로 승격할 수 있도록 지원합니다. 이 프로젝트는 로드된 데이터에서 발견된 의미론적 주제와 엔티티를 식별하고 UI 또는 PDF 보고서에 요약합니다.

Pebblo는 두 가지 구성 요소로 이루어져 있습니다.

LangChain용 Pebblo Safe DocumentLoader
Pebblo Server

이 문서는 기존 LangChain DocumentLoader를 Pebblo Safe DocumentLoader로 보강하여 Gen-AI LangChain 애플리케이션에 수집된 주제 및 엔티티 유형에 대한 심층적인 데이터 가시성을 얻는 방법을 설명합니다. Pebblo Server에 대한 자세한 내용은 이 pebblo server 문서를 참조하세요. Pebblo Safeloader는 LangChain DocumentLoader에 대한 안전한 데이터 수집을 가능하게 합니다. 이는 document loader 호출을 Pebblo Safe DocumentLoader로 래핑하여 수행됩니다. 참고: pebblo의 기본 URL(localhost:8000)이 아닌 다른 URL에서 pebblo server를 구성하려면 PEBBLO_CLASSIFIER_URL 환경 변수에 올바른 URL을 입력하세요. 이는 classifier_url 키워드 인수를 사용하여 구성할 수도 있습니다. 참조: server-configurations

Document Loading을 Pebblo로 활성화하는 방법은?

추론을 위해 CSV 문서를 읽기 위해 CSVLoader를 사용하는 LangChain RAG 애플리케이션 스니펫을 가정해 봅시다. 다음은 CSVLoader를 사용한 Document loading 스니펫입니다.

from langchain_community.document_loaders import CSVLoader

loader = CSVLoader("data/corp_sens_data.csv")
documents = loader.load()
print(documents)

Pebblo SafeLoader는 위 스니펫에 몇 줄의 코드 변경으로 활성화할 수 있습니다.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
)
documents = loader.load()
print(documents)

Pebblo cloud server로 의미론적 주제 및 식별자 전송

pebblo-cloud로 의미론적 데이터를 전송하려면 PebbloSafeLoader에 api-key를 인수로 전달하거나, 또는 PEBBLO_API_KEY 환경 변수에 api-key를 입력하세요.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
    api_key="my-api-key",  # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
)
documents = loader.load()
print(documents)

로드된 metadata에 의미론적 주제 및 식별자 추가

로드된 문서의 metadata에 의미론적 주제와 의미론적 엔티티를 추가하려면 load_semantic을 인수로 True로 설정하거나, 또는 새로운 환경 변수 PEBBLO_LOAD_SEMANTIC을 정의하고 True로 설정하세요.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
    api_key="my-api-key",  # API key (Optional, can be set in the environment variable PEBBLO_API_KEY)
    load_semantic=True,  # Load semantic data (Optional, default is False, can be set in the environment variable PEBBLO_LOAD_SEMANTIC)
)
documents = loader.load()
print(documents[0].metadata)

모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화

VectorDB로 들어가는 스니펫과 생성된 보고서에서 모든 개인 식별 정보(PII)를 익명화하려면 anonymize_snippets를 True로 설정하세요.

참고: _Pebblo Entity Classifier_는 개인 식별 정보(PII)를 효과적으로 식별하며 지속적으로 발전하고 있습니다. 재현율이 아직 100%는 아니지만 꾸준히 개선되고 있습니다. 자세한 내용은 Pebblo Entity Classifier docs를 참조하세요.

from langchain_community.document_loaders import CSVLoader, PebbloSafeLoader

loader = PebbloSafeLoader(
    CSVLoader("data/corp_sens_data.csv"),
    name="acme-corp-rag-1",  # App name (Mandatory)
    owner="Joe Smith",  # Owner (Optional)
    description="Support productivity RAG application",  # Description (Optional)
    anonymize_snippets=True,  # Whether to anonymize entities in the PDF Report (Optional, default=False)
)
documents = loader.load()
print(documents[0].metadata)

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Popular Providers

Integrations by component

Document Loading을 Pebblo로 활성화하는 방법은?

Pebblo cloud server로 의미론적 주제 및 식별자 전송

로드된 metadata에 의미론적 주제 및 식별자 추가

모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화

Popular Providers

Integrations by component

​Document Loading을 Pebblo로 활성화하는 방법은?

​Pebblo cloud server로 의미론적 주제 및 식별자 전송

​로드된 metadata에 의미론적 주제 및 식별자 추가

​모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화

Document Loading을 Pebblo로 활성화하는 방법은?

Pebblo cloud server로 의미론적 주제 및 식별자 전송

로드된 metadata에 의미론적 주제 및 식별자 추가

모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화