머신러닝 실무자 특강
자연어(NLP) 고차원 , 저차원 측면으로 나뉜다. (차원의 구분은 난이도가아님) 고차원(문장) 번역, 감성분석, 대화 저차원(단어) 형태소분석, 의존구문분석, 구문분석, 개체명분석 *실무에선 개체명분석 > 대화(챗봇) > 감성분석 요청이 들어오는 편 N2N 입력갯수2출력개수 감성분석, 주제분류 - 감정을 예측 ex) 나 오늘 너무 행복해 -> 긍정 N21 형태소분석, 개체명분석 - N2N Problem 의존구문분석, 구문분석 - N2Path Problem (각각의 관계를 가지고 있는) 번역, 대화 - N2M Problem 중의적표현 완벽히 같은 글자의 조합이 여러 의미를 가지고 있음 "배"가 가진의미들 ex)맛있다, 타고가다 , 부피가 세배다, 규칙의 예외 - 형태론이라는 학문 분야가 존재할 만큼 언어..
2022. 11. 3.
[데이터 전처리] 전처리란?
데이터를 분석하기에 앞서 분석에 용이하도록 데이터를 정제/ 가공하는 작업 -> 영어는 NLTK 패키지를 , 한글은 KoNLPy 패키지를 사용한다. 텍스트 데이터 전처리로는 토큰화, 노이즈/불용어제거, 정규화, 품사태깅, 벡터화 등이 있다. 1️⃣ 토큰화 : 텍스트를 원하는 단위로 분절하는 작업이다. 문장 토큰화 단어토큰화 등이 있다. 여기서 말하는 '토큰'은 분절하는 기준이 되는 '문장'이나 '단어'라고 생각하면 된다. ✂️ * 의미를 가진 가장작은 단위인 '형태소' 단위로 토큰화(의미파괴되는 토큰화는 절대 안됨) Hannanum , Kkma, KOmoran, Okt(Twitter), Mecab(제일 빠름) 정규표현식(Regular Expression) : findall(), sub() 찾아주는 명령어 ..
2022. 11. 1.