■ KonlpyTextSplitter 클래스의 split_text 메소드를 사용해 한글 문자열에서 한글 문자열 리스트를 구하는 방법을 보여준다.
▶ main.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 |
from langchain_text_splitters import KonlpyTextSplitter with open("sample.txt") as textIOWrapper: fileContent = textIOWrapper.read() konlpyTextSplitter = KonlpyTextSplitter() stringList = konlpyTextSplitter.split_text(fileContent) for string in stringList[:3]: print(string) print() """ ' 잔느' 는 귀족의 딸로 부모의 사랑을 받으며 어려움 없이 자란 소녀였다. 열일곱 살인 그녀는, 수녀원 부속 여학교를 졸업하고 행복에 대한 기대로 가득 차 있었다. 아버지인 ' 시 몽 자크 르 페르튀 데 보' 남작은 선량하고 다정했고, 어머니는 따뜻했다. 다만 어머니는 심장 비대증으로 고생 중이었는데, 로잘리가 잘 부축했다. 따뜻한 집안 분위기로 인해, 하녀인 ' 로잘리' 는 둘째 딸 같은 대접을 받았다. 마을의 피코 신부는 이제 막 수녀원을 졸업한 잔느에게 한 청년을 소개해 주었다. 그는 ' 줄 리 앙 장 드 라 마르' 자작으로, 검소하고 외모가 출중한 청년이었다. 줄리앙과 함께 소풍을 다녀온 잔 느는 줄리앙을 사랑하게 되고, 결국 둘은 결혼을 한다. 그러나 결혼식 후, 그들의 첫날 밤은 달콤하지 않았다. 잔 느는 난폭하게 자신의 욕구만 채우고 잠든 줄리앙에게 심한 모욕감을 느낀다. 심지어 신혼여행 중 줄리앙은 잔느의 용돈 2천 프랑을 맡아 준다며 가져가지만, 잔느가 쇼핑을 할 때마다 심한 눈치를 주었다. 결국 잔 느는 쇼핑도 제대로 못하고, 줄리앙에게 자신의 용돈을 고스란히 빼앗기고 만다. """ |
▶ requirements.txt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
annotated-types==0.7.0 certifi==2024.6.2 charset-normalizer==3.3.2 idna==3.7 JPype1==1.5.0 jsonpatch==1.33 jsonpointer==3.0.0 konlpy==0.6.0 langchain-core==0.2.10 langchain-text-splitters==0.2.2 langsmith==0.1.82 lxml==5.2.2 numpy==2.0.0 orjson==3.10.5 packaging==24.1 pydantic==2.7.4 pydantic_core==2.18.4 PyYAML==6.0.1 requests==2.32.3 tenacity==8.4.2 typing_extensions==4.12.2 urllib3==2.2.2 |
※ pip install langchain-text-splitters konlpy 명령을 실행했다.