[PYTHON/LANGCHAIN] MarkdownHeaderTextSplitter 클래스 : 생성자에서 return_each_line 인자를 사용해 마크다운 라인별로 문서 리스트 구하기

■ MarkdownHeaderTextSplitter 클래스의 생성자에서 return_each_line 인자를 사용해 마크다운 라인별로 문서 리스트를 구하는 방법을 보여준다.

▶ main.py


from langchain_text_splitters import MarkdownHeaderTextSplitter

codeString = "# Foo\n\n    ## Bar\n\nHi this is Jim\n\nHi this is Joe\n\n ### Boo \n\n Hi this is Lance \n\n ## Baz\n\n Hi this is Molly"

headerListToSplitOn = [
    ("#"  , "Header 1"),
    ("##" , "Header 2"),
    ("###", "Header 3")
]

markdownHeaderTextSplitter = MarkdownHeaderTextSplitter(headerListToSplitOn, return_each_line = True)

documentList = markdownHeaderTextSplitter.split_text(codeString)

for document in documentList:
    print(document)

"""
page_content='Hi this is Jim' metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}
page_content='Hi this is Joe' metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}
page_content='Hi this is Lance' metadata={'Header 1': 'Foo', 'Header 2': 'Bar', 'Header 3': 'Boo'}
page_content='Hi this is Molly' metadata={'Header 1': 'Foo', 'Header 2': 'Baz'}
"""

from langchain_text_splitters import MarkdownHeaderTextSplitter

codeString = "# Foo\n\n ## Bar\n\nHi this is Jim\n\nHi this is Joe\n\n ### Boo \n\n Hi this is Lance \n\n ## Baz\n\n Hi this is Molly"

headerListToSplitOn = [

("#" , "Header 1"),

("##" , "Header 2"),

("###", "Header 3")

]

markdownHeaderTextSplitter = MarkdownHeaderTextSplitter(headerListToSplitOn, return_each_line = True)

documentList = markdownHeaderTextSplitter.split_text(codeString)

for document in documentList:

print(document)

"""

page_content='Hi this is Jim' metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}

page_content='Hi this is Joe' metadata={'Header 1': 'Foo', 'Header 2': 'Bar'}

page_content='Hi this is Lance' metadata={'Header 1': 'Foo', 'Header 2': 'Bar', 'Header 3': 'Boo'}

page_content='Hi this is Molly' metadata={'Header 1': 'Foo', 'Header 2': 'Baz'}

"""

▶ requirements.txt


annotated-types==0.7.0
certifi==2024.6.2
charset-normalizer==3.3.2
idna==3.7
jsonpatch==1.33
jsonpointer==3.0.0
langchain-core==0.2.10
langchain-text-splitters==0.2.2
langsmith==0.1.82
orjson==3.10.5
packaging==24.1
pydantic==2.7.4
pydantic_core==2.18.4
PyYAML==6.0.1
requests==2.32.3
tenacity==8.4.2
typing_extensions==4.12.2
urllib3==2.2.2

annotated-types==0.7.0

certifi==2024.6.2

charset-normalizer==3.3.2

idna==3.7

jsonpatch==1.33

jsonpointer==3.0.0

langchain-core==0.2.10

langchain-text-splitters==0.2.2

langsmith==0.1.82

orjson==3.10.5

packaging==24.1

pydantic==2.7.4

pydantic_core==2.18.4

PyYAML==6.0.1

requests==2.32.3

tenacity==8.4.2

typing_extensions==4.12.2

urllib3==2.2.2

※ pip install langchain-text-splitters 명령을 실행했다.