Overview
Integration details
| Class | Package | Local | Serializable | [JS support] | Downloads | Version |
|---|---|---|---|---|---|---|
| ChatXinference | langchain-xinference | ✅ | ❌ | ✅ | ✅ | ✅ |
Model features
| Tool calling | Structured output | JSON mode | Image input | Audio input | Video input | Token-level streaming | Native async | Token usage | Logprobs |
|---|---|---|---|---|---|---|---|---|---|
| ✅ | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ | ✅ | ❌ | ❌ |
Setup
PyPI를 통해Xinference를 설치합니다:
로컬 또는 분산 클러스터에 Xinference 배포하기
로컬 배포의 경우xinference를 실행합니다.
클러스터에 Xinference를 배포하려면 먼저 xinference-supervisor를 사용하여 Xinference supervisor를 시작합니다. -p 옵션으로 포트를 지정하고 -H 옵션으로 호스트를 지정할 수 있습니다. 기본 포트는 8080이고 기본 호스트는 0.0.0.0입니다.
그런 다음 실행하려는 각 서버에서 xinference-worker를 사용하여 Xinference worker를 시작합니다.
자세한 내용은 Xinference의 README 파일을 참조하세요.
Wrapper
LangChain과 함께 Xinference를 사용하려면 먼저 모델을 실행해야 합니다. 명령줄 인터페이스(CLI)를 사용하여 실행할 수 있습니다:Installation
LangChain Xinference integration은langchain-xinference 패키지에 있습니다:
Instantiation
이제 model object를 인스턴스화하고 chat completion을 생성할 수 있습니다:Invocation
API reference
모든 ChatXinference feature와 configuration에 대한 자세한 문서는 API reference를 참조하세요: github.com/TheSongg/langchain-xinferenceConnect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.