Wikipedia는 Wikipedians로 알려진 자원봉사자 커뮤니티가 개방형 협업과 MediaWiki라는 위키 기반 편집 시스템을 통해 작성하고 유지 관리하는 다국어 무료 온라인 백과사전입니다. Wikipedia는 역사상 가장 크고 가장 많이 읽히는 참고 자료입니다.
이 노트북은 wikipedia.org에서 wiki 페이지를 다운스트림에서 사용되는 Document 형식으로 검색하는 방법을 보여줍니다.

Integration details

Setup

개별 도구의 자동 추적을 활성화하려면 LangSmith API key를 설정하세요:
os.environ["LANGSMITH_API_KEY"] = getpass.getpass("Enter your LangSmith API key: ")
os.environ["LANGSMITH_TRACING"] = "true"

Installation

이 integration은 langchain-community package에 포함되어 있습니다. 또한 wikipedia python package 자체도 설치해야 합니다.
pip install -qU langchain-community wikipedia

Instantiation

이제 retriever를 인스턴스화할 수 있습니다: WikipediaRetriever parameters는 다음을 포함합니다:
  • optional lang: default=“en”. Wikipedia의 특정 언어 부분에서 검색하는 데 사용합니다
  • optional load_max_docs: default=100. 다운로드할 문서 수를 제한하는 데 사용합니다. 100개의 문서를 모두 다운로드하는 데 시간이 걸리므로 실험에는 작은 숫자를 사용하세요. 현재 최대 300개로 제한되어 있습니다.
  • optional load_all_available_meta: default=False. 기본적으로 가장 중요한 필드만 다운로드됩니다: Published (문서가 게시/마지막 업데이트된 날짜), title, Summary. True로 설정하면 다른 필드도 다운로드됩니다.
get_relevant_documents()는 하나의 argument를 가집니다, query: Wikipedia에서 문서를 찾는 데 사용되는 자유 텍스트
from langchain_community.retrievers import WikipediaRetriever

retriever = WikipediaRetriever()

Usage

docs = retriever.invoke("TOKYO GHOUL")
print(docs[0].page_content[:400])
Tokyo Ghoul (Japanese: 東京喰種(トーキョーグール), Hepburn: Tōkyō Gūru) is a Japanese dark fantasy manga series written and illustrated by Sui Ishida. It was serialized in Shueisha's seinen manga magazine Weekly Young Jump from September 2011 to September 2014, with its chapters collected in 14 tankōbon volumes. The story is set in an alternate version of Tokyo where humans coexist with ghouls, beings who loo

API reference

모든 WikipediaRetriever features와 configurations에 대한 자세한 문서는 API reference를 참조하세요.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I