실험 결과를 비교하는 방법

LLM 애플리케이션을 반복 개선할 때(예: 모델 변경 또는 프롬프트 변경), 서로 다른 실험의 결과를 비교하고 싶을 것입니다. LangSmith는 서로 다른 실험 간의 주요 차이점, 성능 저하 및 개선 사항을 집중적으로 확인할 수 있는 비교 뷰를 지원합니다.

비교 뷰 열기

실험 비교 뷰에 접근하려면 Datasets & Experiments 페이지로 이동합니다.
dataset을 선택하면 Experiments 탭이 열립니다.
두 개 이상의 실험을 선택한 다음 Compare를 클릭합니다.

3개의 실험이 선택되고 Compare 버튼이 강조 표시된 UI의 Experiments 뷰.

테이블 표시 조정

Comparing Experiments 페이지 상단의 Full 또는 Compact를 클릭하여 다양한 뷰 간에 전환할 수 있습니다. Full을 토글하면 각 run의 input, output 및 reference output의 전체 텍스트가 표시됩니다. reference output이 테이블에 표시하기에 너무 길면 Expand detailed view를 클릭하여 전체 내용을 볼 수 있습니다. 또한 Display 설정 드롭다운에서 개별 feedback key 또는 개별 metric을 선택하고 숨겨서 비교 뷰에서 필요한 정보를 분리할 수 있습니다.

성능 저하 및 개선 사항 보기

비교 뷰에서 baseline 실험 대비 지정한 feedback key에서 성능이 저하된 run은 빨간색으로 강조 표시되고, 개선된 run은 녹색으로 강조 표시됩니다. 각 열의 상단에서 해당 실험에서 baseline 실험보다 더 나은 성능을 보인 run의 수와 더 나쁜 성능을 보인 run의 수를 확인할 수 있습니다. 각 열 상단의 regressions 또는 improvements 버튼을 클릭하여 해당 특정 실험에서 성능이 저하되거나 개선된 run으로 필터링합니다. 각각 빨간색과 녹색으로 강조 표시된 성능 저하 및 개선 사항과 함께 2개의 실험을 비교하는 비교 뷰.

각각 빨간색과 녹색으로 강조 표시된 성능 저하 및 개선 사항과 함께 2개의 실험을 비교하는 비교 뷰.

baseline 실험 및 metric 업데이트

성능 저하를 추적하려면 다음이 필요합니다:

비교 뷰 상단의 Baseline 드롭다운에서 비교할 Baseline experiment를 선택합니다. 기본적으로 가장 최신 실험이 baseline으로 선택됩니다.
비교하려는 Feedback key(평가 metric)를 선택합니다. 기본적으로 하나가 할당되지만 필요에 따라 조정할 수 있습니다.
선택한 feedback key에 대해 더 높은 점수가 더 나은지 여부를 구성합니다. 이 기본 설정은 저장됩니다.

선택된 실험과 "hallucination"의 feedback key가 있는 강조 표시된 Baseline 드롭다운.

trace 열기

평가 중인 example이 수집된 run에서 가져온 것이라면, output cell 위에 마우스를 올리고 trace 아이콘을 클릭하여 해당 run의 trace 뷰를 열 수 있습니다. 그러면 사이드 패널에 trace가 열립니다. 수집된 run에서 강조 표시된 View trace 아이콘.

상세 뷰 확장

모든 cell에서 hover 상태의 확장 아이콘을 클릭하여 해당 특정 example input에 대한 모든 실험 결과와 feedback key 및 점수의 상세 뷰를 열 수 있습니다. 반복의 확장된 뷰를 보여주는 Comparing Experiments 뷰의 예시.

요약 차트 보기

페이지 상단의 Charts 탭을 클릭하여 요약 차트를 봅니다. 비교를 위한 8개의 요약 차트가 있는 Charts 요약 페이지.

실험 metadata를 차트 레이블로 사용

실험 metadata를 기반으로 차트의 x축 레이블을 구성할 수 있습니다. x-axis 드롭다운에서 metadata key를 선택하여 차트 레이블을 변경합니다. 실험에 첨부된 metadata 목록과 함께 강조 표시된 x-axis 드롭다운.

Edit the source of this page on GitHub.

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

실험 결과를 비교하는 방법

비교 뷰 열기

테이블 표시 조정

성능 저하 및 개선 사항 보기

baseline 실험 및 metric 업데이트

trace 열기

상세 뷰 확장

요약 차트 보기

실험 metadata를 차트 레이블로 사용

Datasets

Set up evaluations

Analyze experiment results

Annotation & human feedback

Common data types

​비교 뷰 열기

​테이블 표시 조정

​성능 저하 및 개선 사항 보기

​baseline 실험 및 metric 업데이트

​trace 열기

​상세 뷰 확장

​요약 차트 보기

​실험 metadata를 차트 레이블로 사용

비교 뷰 열기

테이블 표시 조정

성능 저하 및 개선 사항 보기

baseline 실험 및 metric 업데이트

trace 열기

상세 뷰 확장

요약 차트 보기

실험 metadata를 차트 레이블로 사용