LLM Sherpa를 사용하여 다양한 유형의 파일을 로드하는 방법을 다룹니다. LLM Sherpa는 DOCX, PPTX, HTML, TXT, XML을 포함한 다양한 파일 형식을 지원합니다.
LLMSherpaFileLoader는 LLMSherpa 라이브러리의 일부인 LayoutPDFReader를 사용합니다. 이 도구는 대부분의 PDF to text parser를 사용할 때 손실되는 레이아웃 정보를 보존하면서 PDF를 파싱하도록 설계되었습니다.
다음은 LayoutPDFReader의 주요 기능입니다:
- 섹션과 하위 섹션을 레벨과 함께 식별하고 추출할 수 있습니다.
- 줄을 결합하여 단락을 형성합니다.
- 섹션과 단락 간의 링크를 식별할 수 있습니다.
- 테이블이 발견된 섹션과 함께 테이블을 추출할 수 있습니다.
- 목록과 중첩된 목록을 식별하고 추출할 수 있습니다.
- 페이지에 걸쳐 분산된 콘텐츠를 결합할 수 있습니다.
- 반복되는 헤더와 푸터를 제거할 수 있습니다.
- 워터마크를 제거할 수 있습니다.
정보: 이 라이브러리는 일부 pdf 파일에서 실패할 수 있으므로 주의해서 사용하세요.
LLMSherpaFileLoader
내부적으로 LLMSherpaFileLoader는 파일 콘텐츠를 로드하기 위한 몇 가지 전략을 정의합니다: [“sections”, “chunks”, “html”, “text”],llmsherpa_api_url을 얻기 위해 nlm-ingestor를 설정하거나 기본값을 사용하세요.
sections strategy: 파일을 섹션으로 파싱하여 반환
chunks strategy: 파일을 청크로 파싱하여 반환
html strategy: 파일을 하나의 html 문서로 반환
text strategy: 파일을 하나의 텍스트 문서로 반환
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.