
[NLP] Words and Token
·
ML
1.1. 단어를 세는 것의 어려움 They picnicked by the pool, then lay back on the grass and looked at the stars. 문장에 단어가 몇 개 있을까?이에 대해, 우리는 2가지로 문장 속 단어들을 셀 수 있다.유형 (Type): 텍스트에 등장하는 고유한 단어의 종류. 즉, 어휘 사전(Vocabulary)의 크기 사례 (Instance): 실행 중인 텍스트에서 해당 유형이 등장한 횟수, 대소문자를 다르게 처리할지 결정이 필요함구두점을 고려하지 않는다면, 14 types와 16 instances로 셀 수 있다. 하지만 고려해야 할 점들이 더 있다.구어의 경우 "uh", "um"과 같은 멈춤(Filled pauses)이나 "main-" 같은 단편(Fra..