[PYTHON/TIKTOKEN] get_encoding 함수 : 토크나이저 인코딩 객체 구하기


■ get_encoding 함수를 사용해 토크나이저의 인코딩 객체를 구하는 방법을 보여준다.

• LLM의 인코딩은 텍스트가 토큰으로 분할되는 규칙이다.
• 모델마다 사용하는 인코딩이 다르다.
• 다음은 모델마다 사용하는 인코딩이다 :
– cl100k_base : text-embedding-ada-0002, GPT-3.5-turbo, GPT-4
– p50k_base : text-davinci-0002, text-davanci-003
– gpt2(또는 r50k_base : davinci, curie, babbage, ada

main.py

requirements.txt

※ pip install tiktoken 명령을 실행했다.