Microsoft SharePoint는 Microsoft에서 개발한 웹사이트 기반 협업 시스템으로, 워크플로우 애플리케이션, “list” 데이터베이스, 기타 웹 파트 및 보안 기능을 사용하여 비즈니스 팀이 함께 작업할 수 있도록 지원합니다.
이 노트북은 SharePoint Document Library에서 문서를 로드하는 방법을 다룹니다. 기본적으로 document loader는 pdf, doc, docxtxt 파일을 로드합니다. 적절한 parser를 제공하여 다른 파일 유형을 로드할 수 있습니다(아래 참조).

Prerequisites

  1. Microsoft identity platform 지침에 따라 애플리케이션을 등록합니다.
  2. 등록이 완료되면 Azure portal에 앱 등록의 Overview 창이 표시됩니다. Application (client) ID가 표시됩니다. client ID라고도 하는 이 값은 Microsoft identity platform에서 애플리케이션을 고유하게 식별합니다.
  3. 항목 1에서 수행할 단계 중에 redirect URI를 https://login.microsoftonline.com/common/oauth2/nativeclient로 설정할 수 있습니다.
  4. 항목 1에서 수행할 단계 중에 Application Secrets 섹션에서 새 password(client_secret)를 생성합니다.
  5. 문서의 지침에 따라 애플리케이션에 다음 SCOPES(offline_accessSites.Read.All)를 추가합니다.
  6. Document Library에서 파일을 검색하려면 해당 ID가 필요합니다. 이를 얻으려면 Tenant Name, Collection IDSubsite ID 값이 필요합니다.
  7. Tenant Name을 찾으려면 이 문서의 지침을 따르세요. 이를 얻은 후 값에서 .onmicrosoft.com을 제거하고 나머지를 Tenant Name으로 보관합니다.
  8. Collection IDSubsite ID를 얻으려면 SharePoint site-name이 필요합니다. SharePoint site URL은 다음 형식을 갖습니다: https://<tenant-name>.sharepoint.com/sites/<site-name>. 이 URL의 마지막 부분이 site-name입니다.
  9. Site Collection ID를 얻으려면 브라우저에서 다음 URL을 방문하세요: https://<tenant>.sharepoint.com/sites/<site-name>/_api/site/id 그리고 Edm.Guid 속성의 값을 복사합니다.
  10. Subsite ID(또는 web ID)를 얻으려면 다음을 사용하세요: https://<tenant>.sharepoint.com/sites/<site-name>/_api/web/id 그리고 Edm.Guid 속성의 값을 복사합니다.
  11. SharePoint site ID는 다음 형식을 갖습니다: <tenant-name>.sharepoint.com,<Collection ID>,<subsite ID>. 이 값을 다음 단계에서 사용하기 위해 보관할 수 있습니다.
  12. Graph Explorer Playground를 방문하여 Document Library ID를 얻습니다. 첫 번째 단계는 SharePoint 사이트와 연결된 계정으로 로그인되어 있는지 확인하는 것입니다. 그런 다음 https://graph.microsoft.com/v1.0/sites/<SharePoint site ID>/drive에 요청을 해야 하며, 응답은 Document Library ID의 ID를 포함하는 id 필드가 있는 payload를 반환합니다.

🧑 SharePoint Document Library에서 문서를 수집하기 위한 지침

🔑 Authentication

기본적으로 SharePointLoaderCLIENT_IDCLIENT_SECRET 값이 각각 O365_CLIENT_IDO365_CLIENT_SECRET라는 이름의 환경 변수로 저장되어야 합니다. 애플리케이션 루트에 .env 파일을 통해 또는 스크립트에서 다음 명령을 사용하여 이러한 환경 변수를 전달할 수 있습니다.
os.environ['O365_CLIENT_ID'] = "YOUR CLIENT ID"
os.environ['O365_CLIENT_SECRET'] = "YOUR CLIENT SECRET"
이 loader는 on behalf of a user라는 인증을 사용합니다. 사용자 동의가 필요한 2단계 인증입니다. loader를 인스턴스화하면 사용자가 필요한 권한에 대해 앱에 동의하기 위해 방문해야 하는 url을 출력합니다. 그런 다음 사용자는 이 url을 방문하여 애플리케이션에 동의해야 합니다. 그런 다음 사용자는 결과 페이지 url을 복사하여 콘솔에 다시 붙여넣어야 합니다. 그러면 로그인 시도가 성공한 경우 메서드가 True를 반환합니다.
from langchain_community.document_loaders.sharepoint import SharePointLoader

loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID")
인증이 완료되면 loader는 ~/.credentials/ 폴더에 token(o365_token.txt)을 저장합니다. 이 token은 나중에 앞서 설명한 복사/붙여넣기 단계 없이 인증하는 데 사용할 수 있습니다. 인증에 이 token을 사용하려면 loader 인스턴스화 시 auth_with_token 매개변수를 True로 변경해야 합니다.
from langchain_community.document_loaders.sharepoint import SharePointLoader

loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", auth_with_token=True)

🗂️ Documents loader

📑 Document Library Directory에서 문서 로드하기

SharePointLoader는 Document Library 내의 특정 폴더에서 문서를 로드할 수 있습니다. 예를 들어, Document Library 내의 Documents/marketing 폴더에 저장된 모든 문서를 로드하려는 경우입니다.
from langchain_community.document_loaders.sharepoint import SharePointLoader

loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", folder_path="Documents/marketing", auth_with_token=True)
documents = loader.load()
Resource not found for the segment 오류가 발생하는 경우, Microsoft Graph API에서 얻을 수 있는 folder_id를 folder path 대신 사용해 보세요.
loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", auth_with_token=True
                          folder_id="<folder-id>")
documents = loader.load()
루트 디렉토리에서 문서를 로드하려면 folder_id, folder_pathdocuments_ids를 생략할 수 있으며 loader가 루트 디렉토리를 로드합니다.
# loads documents from root directory
loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", auth_with_token=True)
documents = loader.load()
recursive=True와 결합하면 전체 SharePoint에서 모든 문서를 간단히 로드할 수 있습니다:
# loads documents from root directory
loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID",
                          recursive=True,
                          auth_with_token=True)
documents = loader.load()

📑 Documents ID 목록에서 문서 로드하기

또 다른 가능성은 로드하려는 각 문서에 대한 object_id 목록을 제공하는 것입니다. 이를 위해 관심 있는 모든 문서 ID를 찾기 위해 Microsoft Graph API를 쿼리해야 합니다. 이 링크는 문서 ID를 검색하는 데 도움이 되는 endpoint 목록을 제공합니다. 예를 들어, data/finance/ 폴더에 저장된 모든 객체에 대한 정보를 검색하려면 다음에 요청해야 합니다: https://graph.microsoft.com/v1.0/drives/<document-library-id>/root:/data/finance:/children. 관심 있는 ID 목록을 얻은 후 다음 매개변수로 loader를 인스턴스화할 수 있습니다.
from langchain_community.document_loaders.sharepoint import SharePointLoader

loader = SharePointLoader(document_library_id="YOUR DOCUMENT LIBRARY ID", object_ids=["ID_1", "ID_2"], auth_with_token=True)
documents = loader.load()

📑 지원되는 파일 유형 및 선호하는 parser 선택하기

기본적으로 SharePointLoader는 기본 parser를 사용하여 document_loaders/parsers/registry에 정의된 파일 유형을 로드합니다(아래 참조).
def _get_default_parser() -> BaseBlobParser:
    """Get default mime-type based parser."""
    return MimeTypeBasedParser(
        handlers={
            "application/pdf": PyMuPDFParser(),
            "text/plain": TextParser(),
            "application/msword": MsWordParser(),
            "application/vnd.openxmlformats-officedocument.wordprocessingml.document": (
                MsWordParser()
            ),
        },
        fallback_parser=None,
    )
SharePointLoaderhandlers 인수를 전달하여 이 동작을 재정의할 수 있습니다. 파일 확장자("doc", "pdf" 등) 또는 MIME type("application/pdf", "text/plain" 등)을 parser에 매핑하는 dictionary를 전달하세요. 파일 확장자 또는 MIME type 중 하나만 독점적으로 사용해야 하며 혼합할 수 없습니다. 파일 확장자에는 앞의 점을 포함하지 마세요.
# using file extensions:
handlers = {
    "doc": MsWordParser(),
    "pdf": PDFMinerParser(),
    "mp3": OpenAIWhisperParser()
}

# using MIME types:
handlers = {
    "application/msword": MsWordParser(),
    "application/pdf": PDFMinerParser(),
    "audio/mpeg": OpenAIWhisperParser()
}

loader = SharePointLoader(document_library_id="...",
                            handlers=handlers # pass handlers to SharePointLoader
                            )
여러 파일 확장자가 동일한 MIME type에 매핑되는 경우 마지막 dictionary 항목이 적용됩니다. 예시:
# 'jpg' and 'jpeg' both map to 'image/jpeg' MIME type. SecondParser() will be used
# to parse all jpg/jpeg files.
handlers = {
    "jpg": FirstParser(),
    "jpeg": SecondParser()
}

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I