■ CharacterTextSplitter 클래스의 split_text 메소드를 사용해 문자열에서 문자열 리스트를 구하는 방법을 보여준다.
▶ main.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 |
from transformers import GPT2TokenizerFast from langchain_text_splitters import CharacterTextSplitter with open("sample.txt") as textIOWrapper: fileContent = textIOWrapper.read() gpt2TokenizerFast = GPT2TokenizerFast.from_pretrained("gpt2") characterTextSplitter = CharacterTextSplitter.from_huggingface_tokenizer(gpt2TokenizerFast, chunk_size = 100, chunk_overlap = 0) stringList = characterTextSplitter.split_text(fileContent) for string in stringList: print(string) print() """ '잔느'는 귀족의 딸로 부모의 사랑을 받으며 어려움 없이 자란 소녀였다. 열일곱 살인 그녀는, 수녀원 부속 여학교를 졸업하고 행복에 대한 기대로 가득 차 있었다. 아버지인 '시몽 자크 르 페르튀 데 보' 남작은 선량하고 다정했고, 어머니는 따뜻했다. 다만 어머니는 심장비대증으로 고생 중이었는데, 로잘리가 잘 부축했다. 따뜻한 집안 분위기로 인해, 하녀인 '로잘리'는 둘째 딸 같은 대접을 받았다. 마을의 피코 신부는 이제 막 수녀원을 졸업한 잔느에게 한 청년을 소개해 주었다. 그는 '줄리앙 장 드 라마르' 자작으로, 검소하고 외모가 출중한 청년이었다. 줄리앙과 함께 소풍을 다녀온 잔느는 줄리앙을 사랑하게 되고, 결국 둘은 결혼을 한다. 그러나 결혼식 후, 그들의 첫날밤은 달콤하지 않았다. 잔느는 난폭하게 자신의 욕구만 채우고 잠든 줄리앙에게 심한 모욕감을 느낀다. 심지어 신혼여행 중 줄리앙은 잔느의 용돈 2천 프랑을 맡아준다며 가져가지만, 잔느가 쇼핑을 할 때마다 심한 눈치를 주었다. 결국 잔느는 쇼핑도 제대로 못하고, 줄리앙에게 자신의 용돈을 고스란히 빼앗기고 만다. """ |
▶ requirements.txt
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 |
annotated-types==0.7.0 certifi==2024.6.2 charset-normalizer==3.3.2 filelock==3.15.4 fsspec==2024.6.1 huggingface-hub==0.23.4 idna==3.7 jsonpatch==1.33 jsonpointer==3.0.0 langchain-core==0.2.10 langchain-text-splitters==0.2.2 langsmith==0.1.82 numpy==1.26.4 orjson==3.10.5 packaging==24.1 pydantic==2.7.4 pydantic_core==2.18.4 PyYAML==6.0.1 regex==2024.5.15 requests==2.32.3 safetensors==0.4.3 tenacity==8.4.2 tokenizers==0.19.1 tqdm==4.66.4 transformers==4.42.3 typing_extensions==4.12.2 urllib3==2.2.2 |
※ pip install langchain-text-splitters transformers 명령을 실행했다.