Pebblo는 개발자가 조직의 규정 준수 및 보안 요구 사항에 대한 걱정 없이 안전하게 데이터를 로드하고 Gen AI 앱을 배포로 승격할 수 있도록 지원합니다. 이 프로젝트는 로드된 데이터에서 발견된 의미론적 주제와 엔티티를 식별하고 UI 또는 PDF 보고서에 요약합니다.Pebblo는 두 가지 구성 요소로 이루어져 있습니다.
- LangChain용 Pebblo Safe DocumentLoader
- Pebblo Server
Pebblo Server에 대한 자세한 내용은 이 pebblo server 문서를 참조하세요.
Pebblo Safeloader는 LangChain DocumentLoader에 대한 안전한 데이터 수집을 가능하게 합니다. 이는 document loader 호출을 Pebblo Safe DocumentLoader로 래핑하여 수행됩니다.
참고: pebblo의 기본 URL(localhost:8000)이 아닌 다른 URL에서 pebblo server를 구성하려면 PEBBLO_CLASSIFIER_URL 환경 변수에 올바른 URL을 입력하세요. 이는 classifier_url 키워드 인수를 사용하여 구성할 수도 있습니다. 참조: server-configurations
Document Loading을 Pebblo로 활성화하는 방법은?
추론을 위해 CSV 문서를 읽기 위해CSVLoader를 사용하는 LangChain RAG 애플리케이션 스니펫을 가정해 봅시다.
다음은 CSVLoader를 사용한 Document loading 스니펫입니다.
Pebblo cloud server로 의미론적 주제 및 식별자 전송
pebblo-cloud로 의미론적 데이터를 전송하려면 PebbloSafeLoader에 api-key를 인수로 전달하거나, 또는PEBBLO_API_KEY 환경 변수에 api-key를 입력하세요.
로드된 metadata에 의미론적 주제 및 식별자 추가
로드된 문서의 metadata에 의미론적 주제와 의미론적 엔티티를 추가하려면 load_semantic을 인수로 True로 설정하거나, 또는 새로운 환경 변수PEBBLO_LOAD_SEMANTIC을 정의하고 True로 설정하세요.
모든 PII 세부 정보를 삭제하기 위해 스니펫 익명화
VectorDB로 들어가는 스니펫과 생성된 보고서에서 모든 개인 식별 정보(PII)를 익명화하려면anonymize_snippets를 True로 설정하세요.
참고: _Pebblo Entity Classifier_는 개인 식별 정보(PII)를 효과적으로 식별하며 지속적으로 발전하고 있습니다. 재현율이 아직 100%는 아니지만 꾸준히 개선되고 있습니다. 자세한 내용은 Pebblo Entity Classifier docs를 참조하세요.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.