CTranslate2는 Transformer 모델의 효율적인 추론을 위한 C++ 및 Python 라이브러리입니다. 이 프로젝트는 가중치 양자화, 레이어 융합, 배치 재정렬 등과 같은 많은 성능 최적화 기법을 적용하여 CPU와 GPU에서 Transformer 모델의 속도를 높이고 메모리 사용량을 줄이는 커스텀 런타임을 구현합니다. 전체 기능 목록과 지원되는 모델은 프로젝트 저장소에 포함되어 있습니다. 시작하려면 공식 빠른 시작 가이드를 확인하세요.
설치 및 설정
Python 패키지를 설치합니다:LLMs
사용 예제를 참조하세요.Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.