■ get_encoding 함수를 사용해 토크나이저의 인코딩 객체를 구하는 방법을 보여준다.
• LLM의 인코딩은 텍스트가 토큰으로 분할되는 규칙이다.
• 모델마다 사용하는 인코딩이 다르다.
• 다음은 모델마다 사용하는 인코딩이다 :
– cl100k_base : text-embedding-ada-0002, GPT-3.5-turbo, GPT-4
– p50k_base : text-davinci-0002, text-davanci-003
– gpt2(또는 r50k_base : davinci, curie, babbage, ada
▶ main.py
1 2 3 4 5 6 7 8 9 10 11 |
import tiktoken encoding = tiktoken.get_encoding("cl100k_base") print(encoding) """ <Encoding 'cl100k_base'> """ |
▶ requirements.txt
1 2 3 4 5 6 7 8 9 |
certifi==2024.6.2 charset-normalizer==3.3.2 idna==3.7 regex==2024.5.15 requests==2.32.3 tiktoken==0.7.0 urllib3==2.2.1 |
※ pip install tiktoken 명령을 실행했다.