ChatXinference

Xinference는 노트북에서도 LLM, 음성 인식 모델, 멀티모달 모델을 제공하도록 설계된 강력하고 다재다능한 라이브러리입니다. chatglm, baichuan, whisper, vicuna, orca 등 GGML과 호환되는 다양한 모델을 지원합니다.

Overview

Integration details

Class	Package	Local	Serializable	[JS support]	Downloads	Version
ChatXinference	langchain-xinference	✅	❌	✅	✅	✅

Model features

Tool calling	Structured output	JSON mode	Image input	Audio input	Video input	Token-level streaming	Native async	Token usage	Logprobs
✅	✅	✅	❌	❌	❌	✅	✅	❌	❌

Setup

PyPI를 통해 Xinference를 설치합니다:

pip install -qU  "xinference[all]"

로컬 또는 분산 클러스터에 Xinference 배포하기

로컬 배포의 경우 xinference를 실행합니다. 클러스터에 Xinference를 배포하려면 먼저 xinference-supervisor를 사용하여 Xinference supervisor를 시작합니다. -p 옵션으로 포트를 지정하고 -H 옵션으로 호스트를 지정할 수 있습니다. 기본 포트는 8080이고 기본 호스트는 0.0.0.0입니다. 그런 다음 실행하려는 각 서버에서 xinference-worker를 사용하여 Xinference worker를 시작합니다. 자세한 내용은 Xinference의 README 파일을 참조하세요.

Wrapper

LangChain과 함께 Xinference를 사용하려면 먼저 모델을 실행해야 합니다. 명령줄 인터페이스(CLI)를 사용하여 실행할 수 있습니다:

%xinference launch -n vicuna-v1.3 -f ggmlv3 -q q4_0

Model uid: 7167b2b0-2a04-11ee-83f0-d29396a3f064

사용할 수 있는 model UID가 반환됩니다. 이제 LangChain과 함께 Xinference를 사용할 수 있습니다:

Installation

LangChain Xinference integration은 langchain-xinference 패키지에 있습니다:

pip install -qU langchain-xinference

structured output을 위해 최신 Xinference 버전을 사용하고 있는지 확인하세요.

Instantiation

이제 model object를 인스턴스화하고 chat completion을 생성할 수 있습니다:

from langchain_xinference.chat_models import ChatXinference

llm = ChatXinference(
    server_url="your_server_url", model_uid="7167b2b0-2a04-11ee-83f0-d29396a3f064"
)

llm.invoke(
    "Q: where can we visit in the capital of France?",
    config={"max_tokens": 1024},
)

Invocation

from langchain.messages import HumanMessage, SystemMessage
from langchain_xinference.chat_models import ChatXinference

llm = ChatXinference(
    server_url="your_server_url", model_uid="7167b2b0-2a04-11ee-83f0-d29396a3f064"
)

system_message = "You are a helpful assistant that translates English to French. Translate the user sentence."
human_message = "I love programming."

llm.invoke([HumanMessage(content=human_message), SystemMessage(content=system_message)])

API reference

모든 ChatXinference feature와 configuration에 대한 자세한 문서는 API reference를 참조하세요: github.com/TheSongg/langchain-xinference

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Popular Providers

Integrations by component

Overview

Integration details

Model features

Setup

로컬 또는 분산 클러스터에 Xinference 배포하기

Wrapper

Installation

Instantiation

Invocation

API reference

Popular Providers

Integrations by component

​Overview

​Integration details

​Model features

​Setup

​로컬 또는 분산 클러스터에 Xinference 배포하기

​Wrapper

​Installation

​Instantiation

​Invocation

​API reference

Overview

Integration details

Model features

Setup

로컬 또는 분산 클러스터에 Xinference 배포하기

Wrapper

Installation

Instantiation

Invocation

API reference