[PYTHON/TIKTOKEN] get_encoding 함수 : 토크나이저 인코딩 객체 구하기

■ get_encoding 함수를 사용해 토크나이저의 인코딩 객체를 구하는 방법을 보여준다.

• LLM의 인코딩은 텍스트가 토큰으로 분할되는 규칙이다.
• 모델마다 사용하는 인코딩이 다르다.
• 다음은 모델마다 사용하는 인코딩이다 :
– cl100k_base : text-embedding-ada-0002, GPT-3.5-turbo, GPT-4
– p50k_base : text-davinci-0002, text-davanci-003
– gpt2(또는 r50k_base : davinci, curie, babbage, ada

▶ main.py


import tiktoken

encoding = tiktoken.get_encoding("cl100k_base")

print(encoding)

"""
<Encoding 'cl100k_base'>
"""

import tiktoken

encoding = tiktoken.get_encoding("cl100k_base")

print(encoding)

"""

"""

▶ requirements.txt


certifi==2024.6.2
charset-normalizer==3.3.2
idna==3.7
regex==2024.5.15
requests==2.32.3
tiktoken==0.7.0
urllib3==2.2.1

certifi==2024.6.2

charset-normalizer==3.3.2

idna==3.7

regex==2024.5.15

requests==2.32.3

tiktoken==0.7.0

urllib3==2.2.1

※ pip install tiktoken 명령을 실행했다.