Hyperbrowser는 headless 브라우저를 실행하고 확장하기 위한 플랫폼입니다. 대규모로 브라우저 세션을 시작하고 관리할 수 있으며, 단일 페이지 스크래핑부터 전체 사이트 크롤링까지 모든 웹 스크래핑 요구사항에 대한 사용하기 쉬운 솔루션을 제공합니다. 주요 기능:
  • 즉각적인 확장성 - 인프라 걱정 없이 수백 개의 브라우저 세션을 몇 초 만에 시작
  • 간편한 통합 - Puppeteer 및 Playwright와 같은 인기 있는 도구와 원활하게 작동
  • 강력한 API - 모든 사이트를 스크래핑/크롤링하기 위한 사용하기 쉬운 API 등
  • 봇 차단 우회 - 내장된 스텔스 모드, 광고 차단, 자동 CAPTCHA 해결 및 순환 프록시
이 가이드는 Hyperbrowser document loader 시작하기에 대한 간단한 개요를 제공합니다. Hyperbrowser에 대한 자세한 내용은 Hyperbrowser 웹사이트를 방문하거나, 문서를 확인하려면 Hyperbrowser 문서를 방문하세요.

Overview

Integration details

ClassPackageLocalSerializableJS support
HyperbrowserLoaderlangchain-hyperbrowser

Loader features

SourceDocument Lazy LoadingNative Async Support
HyperbrowserLoader

Setup

Hyperbrowser document loader에 액세스하려면 langchain-hyperbrowser integration package를 설치하고, Hyperbrowser 계정을 생성하여 API key를 받아야 합니다.

Credentials

Hyperbrowser로 이동하여 가입하고 API key를 생성하세요. 완료되면 HYPERBROWSER_API_KEY environment variable을 설정하세요:

Installation

langchain-hyperbrowser를 설치하세요.
pip install -qU langchain-hyperbrowser

Initialization

이제 model object를 인스턴스화하고 document를 로드할 수 있습니다:
from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(
    urls="https://example.com",
    api_key="YOUR_API_KEY",
)

Load

docs = loader.load()
docs[0]
Document(metadata={'title': 'Example Domain', 'viewport': 'width=device-width, initial-scale=1', 'sourceURL': 'https://example.com'}, page_content='Example Domain\n\n# Example Domain\n\nThis domain is for use in illustrative examples in documents. You may use this\ndomain in literature without prior coordination or asking for permission.\n\n[More information...](https://www.iana.org/domains/example)')
print(docs[0].metadata)

Lazy Load

page = []
for doc in loader.lazy_load():
    page.append(doc)
    if len(page) >= 10:
        # do some paged operation, e.g.
        # index.upsert(page)

        page = []

Advanced Usage

loader가 수행할 작업을 지정할 수 있습니다. 기본 작업은 scrape입니다. scrape의 경우 스크래핑할 단일 URL 또는 URL 목록을 제공할 수 있습니다. crawl의 경우 단일 URL만 제공할 수 있습니다. crawl 작업은 제공된 페이지와 하위 페이지를 크롤링하고 각 페이지에 대한 document를 반환합니다.
loader = HyperbrowserLoader(
    urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)
loader에 대한 선택적 params도 params argument에 제공할 수 있습니다. 지원되는 params에 대한 자세한 내용은 docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 또는 docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait를 방문하세요.
loader = HyperbrowserLoader(
    urls="https://example.com",
    api_key="YOUR_API_KEY",
    operation="scrape",
    params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}},
)

API reference


Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I