Xinference는 노트북에서도 LLM, 음성 인식 모델, 멀티모달 모델을 제공하도록 설계된 강력하고 다재다능한 라이브러리입니다. chatglm, baichuan, whisper, vicuna, orca 등 GGML과 호환되는 다양한 모델을 지원합니다.

Overview

Integration details

ClassPackageLocalSerializable[JS support]DownloadsVersion
ChatXinferencelangchain-xinference

Model features

Tool callingStructured outputJSON modeImage inputAudio inputVideo inputToken-level streamingNative asyncToken usageLogprobs

Setup

PyPI를 통해 Xinference를 설치합니다:
pip install -qU  "xinference[all]"

로컬 또는 분산 클러스터에 Xinference 배포하기

로컬 배포의 경우 xinference를 실행합니다. 클러스터에 Xinference를 배포하려면 먼저 xinference-supervisor를 사용하여 Xinference supervisor를 시작합니다. -p 옵션으로 포트를 지정하고 -H 옵션으로 호스트를 지정할 수 있습니다. 기본 포트는 8080이고 기본 호스트는 0.0.0.0입니다. 그런 다음 실행하려는 각 서버에서 xinference-worker를 사용하여 Xinference worker를 시작합니다. 자세한 내용은 Xinference의 README 파일을 참조하세요.

Wrapper

LangChain과 함께 Xinference를 사용하려면 먼저 모델을 실행해야 합니다. 명령줄 인터페이스(CLI)를 사용하여 실행할 수 있습니다:
%xinference launch -n vicuna-v1.3 -f ggmlv3 -q q4_0
Model uid: 7167b2b0-2a04-11ee-83f0-d29396a3f064
사용할 수 있는 model UID가 반환됩니다. 이제 LangChain과 함께 Xinference를 사용할 수 있습니다:

Installation

LangChain Xinference integration은 langchain-xinference 패키지에 있습니다:
pip install -qU langchain-xinference
structured output을 위해 최신 Xinference 버전을 사용하고 있는지 확인하세요.

Instantiation

이제 model object를 인스턴스화하고 chat completion을 생성할 수 있습니다:
from langchain_xinference.chat_models import ChatXinference

llm = ChatXinference(
    server_url="your_server_url", model_uid="7167b2b0-2a04-11ee-83f0-d29396a3f064"
)

llm.invoke(
    "Q: where can we visit in the capital of France?",
    config={"max_tokens": 1024},
)

Invocation

from langchain.messages import HumanMessage, SystemMessage
from langchain_xinference.chat_models import ChatXinference

llm = ChatXinference(
    server_url="your_server_url", model_uid="7167b2b0-2a04-11ee-83f0-d29396a3f064"
)

system_message = "You are a helpful assistant that translates English to French. Translate the user sentence."
human_message = "I love programming."

llm.invoke([HumanMessage(content=human_message), SystemMessage(content=system_message)])

API reference

모든 ChatXinference feature와 configuration에 대한 자세한 문서는 API reference를 참조하세요: github.com/TheSongg/langchain-xinference
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I