■ SpacyTextSplitter 클래스의 split_text 메소드를 사용해 문자열을 문자열 리스트로 분할하는 방법을 보여준다.
▶ main.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
import warnings from langchain_text_splitters import SpacyTextSplitter with open("appendix-keywords.txt") as textIOWrapper: fileContent = textIOWrapper.read() warnings.filterwarnings("ignore") spacyTextSplitter = SpacyTextSplitter( chunk_size = 200, chunk_overlap = 50 ) textList = spacyTextSplitter.split_text(fileContent) print(textList[0]) """ Semantic Search 정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다. 예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다. """ |
▶ requirements.txt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 |
annotated-types==0.7.0 anyio==4.8.0 blis==1.2.0 catalogue==2.0.10 certifi==2024.12.14 charset-normalizer==3.4.1 click==8.1.8 cloudpathlib==0.20.0 confection==0.1.5 cymem==2.0.10 en_core_web_sm @ https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl#sha256=1932429db727d4bff3deed6b34cfc05df17794f4a52eeb26cf8928f7c1a0fb85 exceptiongroup==1.2.2 h11==0.14.0 httpcore==1.0.7 httpx==0.28.1 idna==3.10 Jinja2==3.1.5 jsonpatch==1.33 jsonpointer==3.0.0 langchain-core==0.3.29 langchain-text-splitters==0.3.5 langcodes==3.5.0 langsmith==0.2.10 language_data==1.3.0 marisa-trie==1.2.1 markdown-it-py==3.0.0 MarkupSafe==3.0.2 mdurl==0.1.2 murmurhash==1.0.11 numpy==2.2.1 orjson==3.10.14 packaging==24.2 preshed==3.0.9 pydantic==2.10.5 pydantic_core==2.27.2 Pygments==2.19.1 PyYAML==6.0.2 requests==2.32.3 requests-toolbelt==1.0.0 rich==13.9.4 shellingham==1.5.4 smart-open==7.1.0 sniffio==1.3.1 spacy==3.8.3 spacy-legacy==3.0.12 spacy-loggers==1.0.5 srsly==2.5.0 tenacity==9.0.0 thinc==8.3.4 tqdm==4.67.1 typer==0.15.1 typing_extensions==4.12.2 urllib3==2.3.0 wasabi==1.1.3 weasel==0.4.1 wrapt==1.17.1 |
※ pip install langchain-text-splitters spacy 명령을 실행했다.
※ 위 pip install 명령을 실행 후 python -m spacy download en_core_web_sm –quiet 명령을 실행한다.