YouTube는 Google이 만든 온라인 비디오 공유 및 소셜 미디어 플랫폼입니다.
이 노트북은 YouTube transcripts에서 문서를 로드하는 방법을 다룹니다.
from langchain_community.document_loaders import YoutubeLoader
pip install -qU  youtube-transcript-api
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=False
)
loader.load()

비디오 정보 추가하기

pip install -qU  pytube
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg", add_video_info=True
)
loader.load()

언어 설정 추가하기

Language param : 우선순위가 높은 순서대로 나열된 언어 코드 목록이며, 기본값은 en입니다. translation param : 번역 설정으로, 사용 가능한 transcript를 원하는 언어로 번역할 수 있습니다.
loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=QsYGlZkevEg",
    add_video_info=True,
    language=["en", "id"],
    translation="en",
)
loader.load()

타임스탬프가 포함된 청크로 transcript 가져오기

하나 이상의 Document 객체를 가져오며, 각 객체는 비디오 transcript의 청크를 포함합니다. 청크의 길이는 초 단위로 지정할 수 있습니다. 각 청크의 metadata에는 YouTube 비디오의 URL이 포함되어 있으며, 해당 청크의 시작 부분부터 비디오가 재생됩니다. transcript_format param: langchain_community.document_loaders.youtube.TranscriptFormat 값 중 하나입니다. 이 경우 TranscriptFormat.CHUNKS입니다. chunk_size_seconds param: 각 transcript 데이터 청크가 나타내는 비디오 초 단위의 정수입니다. 기본값은 120초입니다.
from langchain_community.document_loaders.youtube import TranscriptFormat

loader = YoutubeLoader.from_youtube_url(
    "https://www.youtube.com/watch?v=TKCMw0utiak",
    add_video_info=True,
    transcript_format=TranscriptFormat.CHUNKS,
    chunk_size_seconds=30,
)
print("\n\n".join(map(repr, loader.load())))

Google Cloud의 YouTube loader

사전 요구사항

  1. Google Cloud 프로젝트를 생성하거나 기존 프로젝트를 사용합니다
  2. Youtube Api를 활성화합니다
  3. 데스크톱 앱용 자격 증명 승인
  4. pip install -U google-api-python-client google-auth-httplib2 google-auth-oauthlib youtube-transcript-api

🧑 Google Docs 데이터 수집 지침

기본적으로 GoogleDriveLoadercredentials.json 파일이 ~/.credentials/credentials.json에 있을 것으로 예상하지만, credentials_file 키워드 인수를 사용하여 구성할 수 있습니다. token.json도 마찬가지입니다. token.json은 loader를 처음 사용할 때 자동으로 생성됩니다. GoogleApiYoutubeLoader는 Google Docs 문서 ID 목록 또는 폴더 ID에서 로드할 수 있습니다. URL에서 폴더 및 문서 ID를 얻을 수 있습니다: 설정에 따라 service_account_path를 설정해야 할 수 있습니다. 자세한 내용은 여기를 참조하세요.
# Init the GoogleApiClient
from pathlib import Path

from langchain_community.document_loaders import GoogleApiClient, GoogleApiYoutubeLoader

google_api_client = GoogleApiClient(credentials_path=Path("your_path_creds.json"))


# Use a Channel
youtube_loader_channel = GoogleApiYoutubeLoader(
    google_api_client=google_api_client,
    channel_name="Reducible",
    captions_language="en",
)

# Use Youtube Ids

youtube_loader_ids = GoogleApiYoutubeLoader(
    google_api_client=google_api_client, video_ids=["TrdevFK_am4"], add_video_info=True
)

# returns a list of Documents
youtube_loader_channel.load()

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I