[PYTHON/LANGCHAIN] CharacterTextSplitter 클래스 : create_documents 메소드를 사용해 문자열 리스트에서 문서 리스트 구하기

■ CharacterTextSplitter 클래스의 create_documents 메소드를 사용해 문자열 리스트에서 문서 리스트를 구하는 방법을 보여준다.

▶ main.py


from langchain_text_splitters import CharacterTextSplitter

with open("state_of_the_union.txt") as textIOWrapper:
    fileContent = textIOWrapper.read()

characterTextSplitter = CharacterTextSplitter(
    separator          = "\n\n",
    chunk_size         = 1000,
    chunk_overlap      = 200,
    length_function    = len,
    is_separator_regex = False
)

documentList = characterTextSplitter.create_documents([fileContent])

print(len(documentList))

"""
49
"""

from langchain_text_splitters import CharacterTextSplitter

with open("state_of_the_union.txt") as textIOWrapper:

fileContent = textIOWrapper.read()

characterTextSplitter = CharacterTextSplitter(

separator = "\n\n",

chunk_size = 1000,

chunk_overlap = 200,

length_function = len,

is_separator_regex = False

)

documentList = characterTextSplitter.create_documents([fileContent])

print(len(documentList))

"""

▶ requirements.txt


annotated-types==0.7.0
certifi==2024.6.2
charset-normalizer==3.3.2
idna==3.7
jsonpatch==1.33
jsonpointer==3.0.0
langchain-core==0.2.10
langchain-text-splitters==0.2.2
langsmith==0.1.82
orjson==3.10.5
packaging==24.1
pydantic==2.7.4
pydantic_core==2.18.4
PyYAML==6.0.1
requests==2.32.3
tenacity==8.4.2
typing_extensions==4.12.2
urllib3==2.2.2

annotated-types==0.7.0

certifi==2024.6.2

charset-normalizer==3.3.2

idna==3.7

jsonpatch==1.33

jsonpointer==3.0.0

langchain-core==0.2.10

langchain-text-splitters==0.2.2

langsmith==0.1.82

orjson==3.10.5

packaging==24.1

pydantic==2.7.4

pydantic_core==2.18.4

PyYAML==6.0.1

requests==2.32.3

tenacity==8.4.2

typing_extensions==4.12.2

urllib3==2.2.2

※ pip install langchain-text-splitters 명령을 실행했다.

state_of_the_union.zip