GROBID는 원시 문서를 추출, 파싱 및 재구조화하기 위한 머신 러닝 라이브러리입니다. 학술 논문을 파싱하도록 설계되고 사용되도록 만들어졌으며, 특히 이 분야에서 뛰어난 성능을 발휘합니다. 참고: Grobid에 제공되는 논문이 특정 요소 수를 초과하는 대용량 문서(예: 학위 논문)인 경우, 처리되지 않을 수 있습니다. 이 페이지에서는 LangChain에서 논문을 파싱하기 위해 Grobid를 사용하는 방법을 다룹니다.

Installation

grobid 설치는 https://grobid.readthedocs.io/en/latest/Install-Grobid/ 에 자세히 설명되어 있습니다. 그러나 여기에 문서화된 것처럼 docker container를 통해 grobid를 실행하는 것이 아마도 더 쉽고 문제가 적을 것입니다.

LangChain과 함께 Grobid 사용하기

grobid가 설치되고 실행 중이면(http://localhost:8070 에 접속하여 확인할 수 있습니다), 사용할 준비가 완료된 것입니다. 이제 GrobidParser를 사용하여 문서를 생성할 수 있습니다
from langchain_community.document_loaders.parsers import GrobidParser
from langchain_community.document_loaders.generic import GenericLoader

#Produce chunks from article paragraphs
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=False)
)
docs = loader.load()

#Produce chunks from article sentences
loader = GenericLoader.from_filesystem(
    "/Users/31treehaus/Desktop/Papers/",
    glob="*",
    suffixes=[".pdf"],
    parser= GrobidParser(segment_sentences=True)
)
docs = loader.load()
Chunk metadata에는 Bounding Box가 포함됩니다. 파싱하기에는 다소 까다롭지만, https://grobid.readthedocs.io/en/latest/Coordinates-in-PDF/ 에 설명되어 있습니다.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I