John Snow Labs NLP & LLM 생태계는 대규모 최첨단 AI, 책임 있는 AI, No-Code AI를 위한 소프트웨어 라이브러리와 의료, 법률, 금융 등을 위한 20,000개 이상의 모델에 대한 액세스를 포함합니다. 모델은 nlp.load로 로드되며 spark session은 내부적으로 nlp.start()로 시작됩니다. 24,000개 이상의 모든 모델은 John Snow Labs Model Models Hub에서 확인하세요

설정하기

pip install -qU  johnsnowlabs
# If you have a enterprise license, you can run this to install enterprise features
# from johnsnowlabs import nlp
# nlp.install()

예제

from langchain_community.embeddings.johnsnowlabs import JohnSnowLabsEmbeddings
Johnsnowlabs Embeddings와 Spark Session 초기화
embedder = JohnSnowLabsEmbeddings("en.embed_sentence.biobert.clinical_base_cased")
예제 텍스트를 정의합니다. 이는 분석하려는 모든 문서가 될 수 있습니다 - 예를 들어, 뉴스 기사, 소셜 미디어 게시물 또는 제품 리뷰 등입니다.
texts = ["Cancer is caused by smoking", "Antibiotics aren't painkiller"]
텍스트에 대한 embedding을 생성하고 출력합니다. JohnSnowLabsEmbeddings class는 각 문서에 대한 embedding을 생성하며, 이는 문서 내용의 수치적 표현입니다. 이러한 embedding은 문서 유사도 비교 또는 텍스트 분류와 같은 다양한 자연어 처리 작업에 사용될 수 있습니다.
embeddings = embedder.embed_documents(texts)
for i, embedding in enumerate(embeddings):
    print(f"Embedding for document {i + 1}: {embedding}")
단일 텍스트에 대한 embedding을 생성하고 출력합니다. 검색 쿼리와 같은 단일 텍스트에 대한 embedding도 생성할 수 있습니다. 이는 주어진 쿼리와 유사한 문서를 찾고자 하는 정보 검색과 같은 작업에 유용할 수 있습니다.
query = "Cancer is caused by smoking"
query_embedding = embedder.embed_query(query)
print(f"Embedding for query: {query_embedding}")

Connect these docs programmatically to Claude, VSCode, and more via MCP for real-time answers.
I