Unstructured.IO의unstructured패키지는 PDF 및 Word 문서와 같은 원본 소스 문서에서 깨끗한 텍스트를 추출합니다. 이 페이지에서는 LangChain 내에서unstructured생태계를 사용하는 방법을 다룹니다.
Installation and Setup
로컬에서 실행되는 loader를 사용하는 경우, 다음 단계를 따라unstructured와 그
종속성을 실행하세요.
-
가장 작은 설치 공간과 오픈 소스
unstructured패키지에서 사용할 수 없는 기능을 활용하려면,pip install unstructured-client로 Python SDK를 설치하고pip install langchain-unstructured를 설치하여UnstructuredLoader를 사용하고 Unstructured API에 대해 원격으로 partition하세요. 이 loader는langchain-community저장소 대신 LangChain 파트너 저장소에 있으며api_key가 필요합니다. 무료 키는 여기에서 생성할 수 있습니다.- SDK에 대한 Unstructured의 문서는 여기에서 찾을 수 있습니다: https://docs.unstructured.io/api-reference/api-services/sdk
-
모든 것을 로컬에서 실행하려면,
pip install unstructured로 오픈 소스 python 패키지를 설치하고pip install langchain-community를 설치한 후 위에서 언급한 것과 동일한UnstructuredLoader를 사용하세요.- extras를 사용하여 문서별 종속성을 설치할 수 있습니다. 예:
pip install "unstructured[docx]". extras에 대한 자세한 내용은 여기에서 확인하세요. - 모든 문서 유형에 대한 종속성을 설치하려면
pip install "unstructured[all-docs]"를 사용하세요.
- extras를 사용하여 문서별 종속성을 설치할 수 있습니다. 예:
-
시스템에 아직 설치되지 않은 경우 다음 시스템 종속성을 설치하세요. 예: Mac의 경우
brew install. 파싱하는 문서 유형에 따라 이 모든 것이 필요하지 않을 수 있습니다.libmagic-dev(파일 유형 감지)poppler-utils(이미지 및 PDF)tesseract-ocr(이미지 및 PDF)qpdf(PDF)libreoffice(MS Office 문서)pandoc(EPUB)
- 로컬에서 실행할 때, Unstructured는 모든 시스템 종속성이 올바르게 설치되도록 이 가이드를 따라 Docker를 사용할 것을 권장합니다.
Data Loaders
Unstructured의 주요 사용법은 data loader입니다.
UnstructuredLoader
로컬 partitioning과 서버리스 Unstructured API를 사용한 원격 partitioning 모두에 이 loader를 사용하는 방법을 보려면 사용 예제를 참조하세요.UnstructuredCHMLoader
CHM은 Microsoft Compiled HTML Help를 의미합니다.
UnstructuredCSVLoader
comma-separated values (CSV) 파일은 쉼표를 사용하여 값을 구분하는 구분된 텍스트 파일입니다.
파일의 각 줄은 데이터 레코드입니다.
각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다.
사용 예제를 참조하세요.
UnstructuredEmailLoader
사용 예제를 참조하세요.UnstructuredEPubLoader
EPUB은 “.epub” 파일 확장자를 사용하는전자책 파일 형식입니다.
이 용어는 electronic publication의 약자이며 때때로 ePub으로 표기됩니다.
EPUB은 많은 전자책 리더에서 지원되며, 호환 가능한 소프트웨어는 대부분의 스마트폰, 태블릿 및 컴퓨터에서 사용할 수 있습니다.
사용 예제를 참조하세요.
UnstructuredExcelLoader
사용 예제를 참조하세요.UnstructuredFileIOLoader
사용 예제를 참조하세요.UnstructuredHTMLLoader
UnstructuredImageLoader
사용 예제를 참조하세요.UnstructuredMarkdownLoader
사용 예제를 참조하세요.UnstructuredODTLoader
Open Document Format for Office Applications (ODF), 또는 OpenDocument로 알려진 형식은
워드 프로세싱 문서, 스프레드시트, 프레젠테이션 및 그래픽을 위한 오픈 파일 형식이며
ZIP으로 압축된 XML 파일을 사용합니다. 이는 오피스 애플리케이션을 위한 개방형 XML 기반 파일 형식 사양을
제공하기 위한 목적으로 개발되었습니다.
사용 예제를 참조하세요.
UnstructuredOrgModeLoader
Org Mode 문서는 자유 소프트웨어 텍스트 편집기 Emacs 내에서 노트, 계획 및 작성을 위해 설계된 문서 편집, 서식 지정 및 구성 모드입니다. 사용 예제를 참조하세요.UnstructuredPDFLoader
UnstructuredPowerPointLoader
사용 예제를 참조하세요.UnstructuredRSTLoader
reStructured Text (RST) 파일은 주로 Python 프로그래밍 언어 커뮤니티에서
기술 문서를 위해 사용되는 텍스트 데이터용 파일 형식입니다.
사용 예제를 참조하세요.
UnstructuredRTFLoader
API 문서에서 사용 예제를 참조하세요.UnstructuredTSVLoader
tab-separated values (TSV) 파일은 표 형식 데이터를 저장하기 위한 간단한 텍스트 기반 파일 형식입니다.
레코드는 줄바꿈으로 구분되며, 레코드 내의 값은 탭 문자로 구분됩니다.
사용 예제를 참조하세요.
UnstructuredURLLoader
사용 예제를 참조하세요.UnstructuredWordDocumentLoader
사용 예제를 참조하세요.UnstructuredXMLLoader
사용 예제를 참조하세요.Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.