이 가이드는 WRITER PDFParser document loader를 시작하기 위한 간단한 개요를 제공합니다. WRITER의 PDF Parser는 PDF 문서를 텍스트나 Markdown과 같은 다른 형식으로 변환합니다. 이는 추가 분석이나 워크플로우 통합을 위해 PDF 파일에서 텍스트 콘텐츠를 추출하고 처리해야 할 때 특히 유용합니다. langchain-writer에서는 WRITER의 PDF Parser를 LangChain document parser로 사용할 수 있도록 제공합니다.

Overview

Integration details

ClassPackageLocalSerializableJS supportDownloadsVersion
PDFParserlangchain-writerPyPI - DownloadsPyPI - Version

Setup

PDFParserlangchain-writer 패키지에서 사용할 수 있습니다:
pip install --quiet -U langchain-writer

Credentials

WRITER AI Studio에 가입하여 API key를 생성하세요 (이 Quickstart를 따라할 수 있습니다). 그런 다음 WRITER_API_KEY environment variable을 설정하세요:
import getpass
import os

if not os.getenv("WRITER_API_KEY"):
    os.environ["WRITER_API_KEY"] = getpass.getpass("Enter your WRITER API key: ")
최고 수준의 관찰성을 위해 LangSmith를 설정하는 것도 도움이 됩니다(필수는 아닙니다). 설정하려면 LANGSMITH_TRACINGLANGSMITH_API_KEY environment variable을 설정할 수 있습니다:
os.environ["LANGSMITH_TRACING"] = "true"
# os.environ["LANGSMITH_API_KEY"] = getpass.getpass()

Instantiation

다음으로, 원하는 출력 형식으로 WRITER PDF Parser의 인스턴스를 생성하세요:
from langchain_writer.pdf_parser import PDFParser

parser = PDFParser(format="markdown")

Usage

PDF Parser를 사용하는 방법은 동기식과 비동기식 두 가지가 있습니다. 어느 경우든 PDF Parser는 Document 객체의 리스트를 반환하며, 각 객체는 PDF 파일의 페이지에서 파싱된 콘텐츠를 포함합니다.

Synchronous usage

PDF Parser를 동기식으로 호출하려면, 파싱하려는 PDF 파일을 참조하는 Blob 객체를 parse 메서드에 전달하세요:
from langchain_core.documents.base import Blob

file = Blob.from_path("../example_data/layout-parser-paper.pdf")

parsed_pages = parser.parse(blob=file)
parsed_pages

Asynchronous usage

PDF Parser를 비동기식으로 호출하려면, 파싱하려는 PDF 파일을 참조하는 Blob 객체를 aparse 메서드에 전달하세요:
parsed_pages_async = await parser.aparse(blob=file)
parsed_pages_async

API reference

모든 PDFParser 기능과 구성에 대한 자세한 문서는 API reference를 참조하세요.

Additional resources

WRITER의 모델(비용, context window, 지원되는 입력 타입 포함)과 도구에 대한 정보는 WRITER docs에서 확인할 수 있습니다.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I