Unstructured.IOunstructured 패키지는 PDF 및 Word 문서와 같은 원본 소스 문서에서 깨끗한 텍스트를 추출합니다. 이 페이지에서는 LangChain 내에서 unstructured 생태계를 사용하는 방법을 다룹니다.

Installation and Setup

로컬에서 실행되는 loader를 사용하는 경우, 다음 단계를 따라 unstructured와 그 종속성을 실행하세요.
  • 가장 작은 설치 공간과 오픈 소스 unstructured 패키지에서 사용할 수 없는 기능을 활용하려면, pip install unstructured-client로 Python SDK를 설치하고 pip install langchain-unstructured를 설치하여 UnstructuredLoader를 사용하고 Unstructured API에 대해 원격으로 partition하세요. 이 loader는 langchain-community 저장소 대신 LangChain 파트너 저장소에 있으며 api_key가 필요합니다. 무료 키는 여기에서 생성할 수 있습니다.
  • 모든 것을 로컬에서 실행하려면, pip install unstructured로 오픈 소스 python 패키지를 설치하고 pip install langchain-community를 설치한 후 위에서 언급한 것과 동일한 UnstructuredLoader를 사용하세요.
    • extras를 사용하여 문서별 종속성을 설치할 수 있습니다. 예: pip install "unstructured[docx]". extras에 대한 자세한 내용은 여기에서 확인하세요.
    • 모든 문서 유형에 대한 종속성을 설치하려면 pip install "unstructured[all-docs]"를 사용하세요.
  • 시스템에 아직 설치되지 않은 경우 다음 시스템 종속성을 설치하세요. 예: Mac의 경우 brew install. 파싱하는 문서 유형에 따라 이 모든 것이 필요하지 않을 수 있습니다.
    • libmagic-dev (파일 유형 감지)
    • poppler-utils (이미지 및 PDF)
    • tesseract-ocr(이미지 및 PDF)
    • qpdf (PDF)
    • libreoffice (MS Office 문서)
    • pandoc (EPUB)
  • 로컬에서 실행할 때, Unstructured는 모든 시스템 종속성이 올바르게 설치되도록 이 가이드를 따라 Docker를 사용할 것을 권장합니다.
Unstructured API는 요청을 하기 위해 API 키가 필요합니다. 여기에서 API 키를 요청하고 오늘부터 사용을 시작할 수 있습니다! API 호출을 시작하려면 여기 README를 확인하세요. 여러분의 피드백을 듣고 싶습니다. 커뮤니티 slack에서 어떻게 진행되는지 알려주세요. 품질과 성능 모두의 개선을 기대해 주세요! Unstructured API를 자체 호스팅하거나 로컬에서 실행하려면 여기 지침을 확인하세요.

Data Loaders

Unstructured의 주요 사용법은 data loader입니다.

UnstructuredLoader

로컬 partitioning과 서버리스 Unstructured API를 사용한 원격 partitioning 모두에 이 loader를 사용하는 방법을 보려면 사용 예제를 참조하세요.
from langchain_unstructured import UnstructuredLoader

UnstructuredCHMLoader

CHMMicrosoft Compiled HTML Help를 의미합니다.
from langchain_community.document_loaders import UnstructuredCHMLoader

UnstructuredCSVLoader

comma-separated values (CSV) 파일은 쉼표를 사용하여 값을 구분하는 구분된 텍스트 파일입니다. 파일의 각 줄은 데이터 레코드입니다. 각 레코드는 쉼표로 구분된 하나 이상의 필드로 구성됩니다. 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredCSVLoader

UnstructuredEmailLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredEmailLoader

UnstructuredEPubLoader

EPUB은 “.epub” 파일 확장자를 사용하는 전자책 파일 형식입니다. 이 용어는 electronic publication의 약자이며 때때로 ePub으로 표기됩니다. EPUB은 많은 전자책 리더에서 지원되며, 호환 가능한 소프트웨어는 대부분의 스마트폰, 태블릿 및 컴퓨터에서 사용할 수 있습니다. 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredEPubLoader

UnstructuredExcelLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredExcelLoader

UnstructuredFileIOLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredFileIOLoader

UnstructuredHTMLLoader

from langchain_community.document_loaders import UnstructuredHTMLLoader

UnstructuredImageLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredImageLoader

UnstructuredMarkdownLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredMarkdownLoader

UnstructuredODTLoader

Open Document Format for Office Applications (ODF), 또는 OpenDocument로 알려진 형식은 워드 프로세싱 문서, 스프레드시트, 프레젠테이션 및 그래픽을 위한 오픈 파일 형식이며 ZIP으로 압축된 XML 파일을 사용합니다. 이는 오피스 애플리케이션을 위한 개방형 XML 기반 파일 형식 사양을 제공하기 위한 목적으로 개발되었습니다. 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredODTLoader

UnstructuredOrgModeLoader

Org Mode 문서는 자유 소프트웨어 텍스트 편집기 Emacs 내에서 노트, 계획 및 작성을 위해 설계된 문서 편집, 서식 지정 및 구성 모드입니다. 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredOrgModeLoader

UnstructuredPDFLoader

from langchain_community.document_loaders import UnstructuredPDFLoader

UnstructuredPowerPointLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredPowerPointLoader

UnstructuredRSTLoader

reStructured Text (RST) 파일은 주로 Python 프로그래밍 언어 커뮤니티에서 기술 문서를 위해 사용되는 텍스트 데이터용 파일 형식입니다. 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredRSTLoader

UnstructuredRTFLoader

API 문서에서 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredRTFLoader

UnstructuredTSVLoader

tab-separated values (TSV) 파일은 표 형식 데이터를 저장하기 위한 간단한 텍스트 기반 파일 형식입니다. 레코드는 줄바꿈으로 구분되며, 레코드 내의 값은 탭 문자로 구분됩니다. 사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredTSVLoader

UnstructuredURLLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredURLLoader

UnstructuredWordDocumentLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredWordDocumentLoader

UnstructuredXMLLoader

사용 예제를 참조하세요.
from langchain_community.document_loaders import UnstructuredXMLLoader

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I