DeepEval은 LLM을 단위 테스트하기 위한 패키지입니다. Confident를 사용하면 누구나 단위 테스트와 통합 테스트를 통해 더 빠른 반복으로 강력한 언어 모델을 구축할 수 있습니다. 합성 데이터 생성부터 테스트까지 반복의 각 단계를 지원합니다.이 가이드에서는 LLM의 성능을 테스트하고 측정하는 방법을 보여드립니다. callback을 사용하여 성능을 측정하는 방법과 자체 metric을 정의하여 대시보드에 기록하는 방법을 보여드립니다. DeepEval은 다음과 같은 기능도 제공합니다:
- 합성 데이터 생성 방법
- 성능 측정 방법
- 시간 경과에 따른 결과를 모니터링하고 검토할 수 있는 대시보드
Installation and Setup
API Credentials 가져오기
DeepEval API credentials를 가져오려면 다음 단계를 따르세요:- app.confident-ai.com으로 이동합니다
- “Organization”을 클릭합니다
- API Key를 복사합니다.
implementation 이름을 설정하라는 메시지가 표시됩니다. implementation 이름은 구현 유형을 설명하는 데 필요합니다. (프로젝트를 어떻게 부르고 싶은지 생각해보세요. 설명적으로 만드는 것을 권장합니다.)
DeepEval 설정
기본적으로DeepEvalCallbackHandler를 사용하여 추적하려는 metric을 설정할 수 있습니다. 그러나 현재는 metric에 대한 지원이 제한적입니다(곧 더 추가될 예정). 현재 지원하는 항목:
시작하기
DeepEvalCallbackHandler를 사용하려면 implementation_name이 필요합니다.
시나리오 1: LLM에 입력하기
그런 다음 OpenAI를 사용하여 LLM에 입력할 수 있습니다.is_successful() method를 호출하여 metric이 성공했는지 확인할 수 있습니다.
시나리오 2: callback 없이 chain에서 LLM 추적하기
callback 없이 chain에서 LLM을 추적하려면 마지막에 연결할 수 있습니다. 아래와 같이 간단한 chain을 정의하는 것으로 시작할 수 있습니다.다음 단계는?
여기에서 자체 custom metric을 만들 수 있습니다. DeepEval은 자동으로 단위 테스트 생성, 환각 테스트와 같은 다른 기능도 제공합니다. 관심이 있으시다면 https://github.com/confident-ai/deepeval에서 Github repository를 확인하세요. LLM 성능 향상 방법에 대한 PR과 논의를 환영합니다.Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.