Dedoc은 다양한 형식의 파일에서 텍스트, 표, 첨부 파일 및 문서 구조 (예: 제목, 목록 항목 등)를 추출하는 오픈소스 라이브러리/서비스입니다.
Dedoc은 DOCX, XLSX, PPTX, EML, HTML, PDF, 이미지 등을 지원합니다.
지원되는 형식의 전체 목록은 여기에서 확인할 수 있습니다.
Installation and Setup
Dedoc 라이브러리
pip을 사용하여 Dedoc을 설치할 수 있습니다.
이 경우 의존성을 설치해야 하므로,
자세한 정보는 여기를
참조하세요.
Dedoc API
Dedoc API를 사용하려는 경우, dedoc 라이브러리를 설치할 필요가 없습니다.
이 경우 Dedoc 서비스를 실행해야 합니다. 예를 들어 Docker 컨테이너를 사용할 수 있습니다
(자세한 내용은 문서를
참조하세요):
Document Loader
-
Dedoc이 지원하는 모든 형식의 파일을 처리하려면DedocFileLoader를 사용할 수 있습니다: -
PDF 파일(텍스트 레이어 유무와 관계없이)을 처리하려면
DedocPDFLoader를 사용할 수 있습니다: -
라이브러리 설치 없이 모든 형식의 파일을 처리하려면
DedocAPIFileLoader와 함께Dedoc API를 사용할 수 있습니다:
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.