TensorFlow Datasets는 TensorFlow 또는 Jax와 같은 다른 Python ML 프레임워크에서 바로 사용할 수 있는 데이터셋 모음입니다. 모든 데이터셋은 tf.data.Datasets로 제공되어 사용하기 쉽고 고성능의 입력 파이프라인을 구성할 수 있습니다. 시작하려면 가이드와 데이터셋 목록을 참조하세요.이 노트북은
TensorFlow Datasets를 다운스트림에서 사용할 수 있는 Document 형식으로 로드하는 방법을 보여줍니다.
Installation
tensorflow와 tensorflow-datasets python 패키지를 설치해야 합니다.
Example
예제로mlqa/en dataset을 사용합니다.
MLQA(Multilingual Question Answering Dataset)는 다국어 질문 응답 성능을 평가하기 위한 벤치마크 데이터셋입니다. 이 데이터셋은 아랍어, 독일어, 스페인어, 영어, 힌디어, 베트남어, 중국어 등 7개 언어로 구성되어 있습니다.
- Homepage: github.com/facebookresearch/MLQA
- Source code:
tfds.datasets.mlqa.Builder- Download size: 72.21 MiB
context 필드를 Document.page_content로 사용하고 다른 필드들은 Document.metadata에 배치하겠습니다.
TensorflowDatasetLoader는 다음 매개변수를 가집니다:
dataset_name: 로드할 데이터셋의 이름split_name: 로드할 split의 이름. 기본값은 “train”입니다.load_max_docs: 로드할 문서 수의 제한. 기본값은 100입니다.sample_to_document_function: 데이터셋 샘플을 Document로 변환하는 함수
Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.