기본 예제
Evaluator 인자
code evaluator 함수는 특정 인자 이름을 가져야 합니다. 다음 인자들 중 일부를 사용할 수 있습니다:run: Run: 주어진 example에 대해 애플리케이션이 생성한 전체 Run 객체입니다.example: Example: example input, output(사용 가능한 경우), metadata(사용 가능한 경우)를 포함한 전체 데이터셋 Example입니다.inputs: dict: 데이터셋의 단일 example에 해당하는 input의 dictionary입니다.outputs: dict: 주어진inputs에 대해 애플리케이션이 생성한 output의 dictionary입니다.reference_outputs/referenceOutputs: dict: example과 연관된 reference output의 dictionary입니다(사용 가능한 경우).
inputs, outputs, reference_outputs만 필요합니다. run과 example은 애플리케이션의 실제 input과 output 외에 추가적인 trace나 example metadata가 필요한 경우에만 유용합니다.
JS/TS를 사용할 때는 이들을 모두 단일 객체 인자의 일부로 전달해야 합니다.
Evaluator output
Code evaluator는 다음 타입 중 하나를 반환해야 합니다: Python과 JS/TSdict:{"score" | "value": ..., "key": ...}형태의 dict를 사용하면 metric 타입(“score”는 수치형, “value”는 범주형)과 metric 이름을 커스터마이즈할 수 있습니다. 예를 들어, 정수를 범주형 metric으로 기록하고 싶을 때 유용합니다.
int | float | bool: 평균을 구하거나 정렬할 수 있는 연속형 metric으로 해석됩니다. 함수 이름이 metric의 이름으로 사용됩니다.str: 범주형 metric으로 해석됩니다. 함수 이름이 metric의 이름으로 사용됩니다.list[dict]: 단일 함수를 사용하여 여러 metric을 반환합니다.
추가 예제
langsmith>=0.2.0 필요
관련 항목
- 전체 experiment 결과 평가하기: 전체 experiment에 대한 metric을 계산하는 summary evaluator를 정의합니다.
- 두 experiment를 비교하는 평가 실행하기: 두 개(또는 그 이상)의 experiment를 서로 비교하여 metric을 계산하는 pairwise evaluator를 정의합니다.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.