■ word_tokenize 함수를 사용해 단어 토큰 리스트를 구하는 방법을 보여준다.
▶ main.py
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
import nltk wordTokenList = nltk.word_tokenize("""덴마크 항구 도시에는 오래된 성이 하나 있다. 바로 외국인들은 엘시노어라고 알고 있는 '크론보르크 성'이다. 크론보르크는 덴마크와 스웨덴 사이에 있는 외레순 해협의 끝에 있었다.""" ) print(wordTokenList) """ ['덴마크', '항구', '도시에는', '오래된', '성이', '하나', '있다', '.', '바로', '외국인들은', '엘시노어라고', '알고', '있는', "'크론보르크", "성'이다", '.', '크론보르크는', '덴마크와', '스웨덴', '사이에', '있는', '외레순', '해협의', '끝에', '있었다', '.'] """ |
▶ requirements.txt
1 2 3 4 5 6 7 |
click==8.1.7 joblib==1.4.2 nltk==3.8.1 regex==2024.5.15 tqdm==4.66.4 |
※ pip install nltk 명령을 실행했다.