기본 예제
여기서는 precision과 recall의 조합인 f1-score를 계산하겠습니다. 이러한 종류의 메트릭은 실험의 모든 예제에 걸쳐서만 계산할 수 있으므로, evaluator는 outputs 목록과 reference_outputs 목록을 입력으로 받습니다.evaluate 메서드에 전달할 수 있습니다:
Summary evaluator 인자
Summary evaluator 함수는 특정 인자 이름을 가져야 합니다. 다음 인자들의 하위 집합을 받을 수 있습니다:inputs: list[dict]: 데이터셋의 단일 예제에 해당하는 입력 목록입니다.outputs: list[dict]: 주어진 입력에 대해 각 실험이 생성한 dict 출력 목록입니다.reference_outputs/referenceOutputs: list[dict]: 사용 가능한 경우, 예제와 연관된 참조 출력 목록입니다.runs: list[Run]: 주어진 예제에 대해 두 실험이 생성한 전체 Run 객체 목록입니다. 각 실행의 중간 단계나 메타데이터에 접근해야 하는 경우 사용합니다.examples: list[Example]: 예제 입력, 출력(사용 가능한 경우), 메타데이터(사용 가능한 경우)를 포함한 모든 데이터셋 Example 객체입니다.
Summary evaluator 출력
Summary evaluator는 다음 타입 중 하나를 반환해야 합니다: Python과 JS/TSdict:{"score": ..., "name": ...}형태의 dict를 사용하면 숫자 또는 boolean 점수와 메트릭 이름을 전달할 수 있습니다.
int | float | bool: 이것은 평균을 내거나 정렬할 수 있는 연속 메트릭으로 해석됩니다. 함수 이름이 메트릭의 이름으로 사용됩니다.
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.