OpenVINO™는 AI 추론을 최적화하고 배포하기 위한 오픈소스 툴킷입니다. OpenVINO™ Runtime은 x86 및 ARM CPU, Intel GPU를 포함한 다양한 하드웨어 장치를 지원합니다. Computer Vision, 자동 음성 인식, 자연어 처리 및 기타 일반적인 작업에서 딥러닝 성능을 향상시키는 데 도움이 될 수 있습니다. Hugging Face embedding 모델은 OpenVINOEmbeddings 클래스를 통해 OpenVINO에서 지원될 수 있습니다. Intel GPU가 있는 경우 model_kwargs={"device": "GPU"}를 지정하여 추론을 실행할 수 있습니다.
pip install -U-strategy eager "optimum[openvino,nncf]" --quiet
Note: you may need to restart the kernel to use updated packages.
from langchain_community.embeddings import OpenVINOEmbeddings
model_name = "sentence-transformers/all-mpnet-base-v2"
model_kwargs = {"device": "CPU"}
encode_kwargs = {"mean_pooling": True, "normalize_embeddings": True}

ov_embeddings = OpenVINOEmbeddings(
    model_name_or_path=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
)
text = "This is a test document."
query_result = ov_embeddings.embed_query(text)
query_result[:3]
[-0.048951778560876846, -0.03986183926463127, -0.02156277745962143]
doc_result = ov_embeddings.embed_documents([text])

IR 모델 내보내기

OVModelForFeatureExtraction을 사용하여 embedding 모델을 OpenVINO IR 형식으로 내보내고 로컬 폴더에서 모델을 로드할 수 있습니다.
from pathlib import Path

ov_model_dir = "all-mpnet-base-v2-ov"
if not Path(ov_model_dir).exists():
    ov_embeddings.save_model(ov_model_dir)
ov_embeddings = OpenVINOEmbeddings(
    model_name_or_path=ov_model_dir,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
)
Compiling the model to CPU ...

OpenVINO와 함께 BGE 사용하기

OpenVINO를 사용하는 OpenVINOBgeEmbeddings 클래스를 통해 BGE embedding 모델에 액세스할 수도 있습니다.
from langchain_community.embeddings import OpenVINOBgeEmbeddings

model_name = "BAAI/bge-small-en"
model_kwargs = {"device": "CPU"}
encode_kwargs = {"normalize_embeddings": True}
ov_embeddings = OpenVINOBgeEmbeddings(
    model_name_or_path=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs,
)
embedding = ov_embeddings.embed_query("hi this is harrison")
len(embedding)
384
자세한 내용은 다음을 참조하세요:
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I