Hyperbrowser는 headless browser를 실행하고 확장하기 위한 플랫폼입니다. 대규모로 browser session을 시작하고 관리할 수 있으며, 단일 페이지 스크래핑부터 전체 사이트 크롤링까지 모든 웹 스크래핑 요구사항에 대한 사용하기 쉬운 솔루션을 제공합니다. 주요 기능:
  • 즉각적인 확장성 - 인프라 문제 없이 수백 개의 browser session을 몇 초 만에 시작
  • 간편한 통합 - Puppeteer 및 Playwright와 같은 인기 있는 도구와 원활하게 작동
  • 강력한 API - 모든 사이트를 스크래핑/크롤링하기 위한 사용하기 쉬운 API 등
  • 봇 방지 조치 우회 - 내장된 스텔스 모드, 광고 차단, 자동 CAPTCHA 해결 및 순환 프록시
Hyperbrowser에 대한 자세한 정보는 Hyperbrowser 웹사이트를 방문하거나, 문서를 확인하려면 Hyperbrowser 문서를 방문하세요.

설치 및 설정

langchain-hyperbrowser를 시작하려면 pip를 사용하여 패키지를 설치할 수 있습니다:
pip install langchain-hyperbrowser
그리고 다음 환경 변수를 설정하여 자격 증명을 구성해야 합니다: HYPERBROWSER_API_KEY=<your-api-key> https://app.hyperbrowser.ai/에서 API Key를 받으세요.

사용 가능한 도구

Hyperbrowser는 다음과 같은 작업에 특히 유용한 두 가지 주요 도구 카테고리를 제공합니다:
  • 복잡한 웹사이트에서 웹 스크래핑 및 데이터 추출
  • 반복적인 웹 작업 자동화
  • 인증이 필요한 웹 애플리케이션과 상호작용
  • 여러 웹사이트에서 연구 수행
  • 웹 애플리케이션 테스트

Browser Agent Tools

Hyperbrowser는 여러 Browser Agents 도구를 제공합니다. 현재 지원되는 도구는 다음과 같습니다:
  • Claude Computer Use
  • OpenAI CUA
  • Browser Use
자세한 내용은 여기에서 확인할 수 있습니다.

Browser Use Tool

자연어 명령을 통해 다양한 웹 작업을 처리할 수 있는 범용 browser 자동화 도구입니다.
from langchain_hyperbrowser import HyperbrowserBrowserUseTool

tool = HyperbrowserBrowserUseTool()
result = tool.run({
    "task": "Go to npmjs.com, find the React package, and tell me when it was last updated"
})
print(result)

OpenAI CUA Tool

고급 웹 상호작용 및 정보 수집을 위해 OpenAI의 Computer Use Agent 기능을 활용합니다.
from langchain_hyperbrowser import HyperbrowserOpenAICUATool

tool = HyperbrowserOpenAICUATool()
result = tool.run({
    "task": "Go to Hacker News and summarize the top 5 posts right now"
})
print(result)

Claude Computer Use Tool

정교한 웹 브라우징 및 정보 처리 작업을 위해 Anthropic의 Claude를 활용합니다.
from langchain_hyperbrowser import HyperbrowserClaudeComputerUseTool

tool = HyperbrowserClaudeComputerUseTool()
result = tool.run({
    "task": "Go to GitHub's trending repositories page, and list the top 3 posts there right now"
})
print(result)

Web Scraping Tools

다음은 Hyperbrowser에서 사용 가능한 Web Scraping Tools에 대한 간략한 설명입니다. 자세한 내용은 여기에서 확인할 수 있습니다.

Scrape Tool

Scrape Tool을 사용하면 단일 웹페이지에서 markdown, HTML 또는 link 형식으로 콘텐츠를 추출할 수 있습니다.
from langchain_hyperbrowser import HyperbrowserScrapeTool

tool = HyperbrowserScrapeTool()
result = tool.run({
    "url": "https://example.com",
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

Crawl Tool

Crawl Tool을 사용하면 주어진 URL에서 시작하여 구성 가능한 페이지 제한으로 전체 웹사이트를 탐색할 수 있습니다.
from langchain_hyperbrowser import HyperbrowserCrawlTool

tool = HyperbrowserCrawlTool()
result = tool.run({
    "url": "https://example.com",
    "max_pages": 2,
    "scrape_options": {"formats": ["markdown"]}
})
print(result)

Extract Tool

Extract Tool은 AI를 사용하여 미리 정의된 schema를 기반으로 웹 페이지에서 구조화된 데이터를 추출하므로 데이터 추출 작업에 완벽합니다.
from langchain_hyperbrowser import HyperbrowserExtractTool
from pydantic import BaseModel

class SimpleExtractionModel(BaseModel):
    title: str

tool = HyperbrowserExtractTool()
result = tool.run({
    "url": "https://example.com",
    "schema": SimpleExtractionModel
})
print(result)

Document Loader

langchain-hyperbrowserHyperbrowserLoader class는 단일 페이지 또는 여러 페이지의 콘텐츠를 로드하거나 전체 사이트를 크롤링하는 데 쉽게 사용할 수 있습니다. 콘텐츠는 markdown 또는 html로 로드할 수 있습니다.
from langchain_hyperbrowser import HyperbrowserLoader

loader = HyperbrowserLoader(urls="https://example.com")
docs = loader.load()

print(docs[0])

고급 사용법

loader가 수행할 작업을 지정할 수 있습니다. 기본 작업은 scrape입니다. scrape의 경우 스크래핑할 단일 URL 또는 URL 목록을 제공할 수 있습니다. crawl의 경우 단일 URL만 제공할 수 있습니다. crawl 작업은 제공된 페이지와 하위 페이지를 크롤링하고 각 페이지에 대한 document를 반환합니다.
loader = HyperbrowserLoader(
  urls="https://hyperbrowser.ai", api_key="YOUR_API_KEY", operation="crawl"
)
loader에 대한 선택적 매개변수는 params 인수에서도 제공할 수 있습니다. 지원되는 매개변수에 대한 자세한 내용은 https://docs.hyperbrowser.ai/reference/sdks/python/scrape#start-scrape-job-and-wait 또는 https://docs.hyperbrowser.ai/reference/sdks/python/crawl#start-crawl-job-and-wait를 방문하세요.
loader = HyperbrowserLoader(
  urls="https://example.com",
  api_key="YOUR_API_KEY",
  operation="scrape",
  params={"scrape_options": {"include_tags": ["h1", "h2", "p"]}}
)

추가 리소스


Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I