[데이터 전처리] 전처리란?
데이터를 분석하기에 앞서 분석에 용이하도록 데이터를 정제/ 가공하는 작업 -> 영어는 NLTK 패키지를 , 한글은 KoNLPy 패키지를 사용한다. 텍스트 데이터 전처리로는 토큰화, 노이즈/불용어제거, 정규화, 품사태깅, 벡터화 등이 있다. 1️⃣ 토큰화 : 텍스트를 원하는 단위로 분절하는 작업이다. 문장 토큰화 단어토큰화 등이 있다. 여기서 말하는 '토큰'은 분절하는 기준이 되는 '문장'이나 '단어'라고 생각하면 된다. ✂️ * 의미를 가진 가장작은 단위인 '형태소' 단위로 토큰화(의미파괴되는 토큰화는 절대 안됨) Hannanum , Kkma, KOmoran, Okt(Twitter), Mecab(제일 빠름) 정규표현식(Regular Expression) : findall(), sub() 찾아주는 명령어 ..
2022. 11. 1.