본문 바로가기
Daily

머신러닝 실무자 특강

by AI미남홀란드 2022. 11. 3.
728x90

자연어(NLP)

 

고차원 , 저차원 측면으로 나뉜다. (차원의 구분은 난이도가아님)

 

고차원(문장) 

번역, 감성분석, 대화

저차원(단어)

형태소분석, 의존구문분석, 구문분석, 개체명분석

 

*실무에선 개체명분석 > 대화(챗봇) > 감성분석 요청이 들어오는 편

 

N2N     입력갯수2출력개수

감성분석, 주제분류 - 감정을 예측  ex) 나 오늘 너무 행복해 -> 긍정 N21                     

형태소분석, 개체명분석 - N2N Problem

의존구문분석, 구문분석  - N2Path Problem (각각의 관계를 가지고 있는)

번역, 대화 - N2M Problem

 

중의적표현

완벽히 같은 글자의 조합이 여러 의미를 가지고 있음

"배"가 가진의미들 

ex)맛있다, 타고가다 , 부피가 세배다,

 

규칙의 예외

- 형태론이라는 학문 분야가 존재할 만큼 언어의 규칙이 어렵고 복잡함.

언어규칙의예시

∙ -었이 들어간 한국어 동사는 과거형
∙ -ed로 끝나는 영어 동사는 과거형
∙ 이 들 모두 예외를 찾을 수 있음

숙어로 쓰인 동사나 명사는 원본 단어의 규칙을 그대로 적용할 수 없음

∙ hit the sace : 잠들다
∙ hit the brown sack : 갈색 자루를 때리다.

∙ 규칙을 모든 상황에 동일하게 적용할 수 없음 -> 컴퓨터 입장에선 이해하기 어려움

 

* 양 질의 데이터가 많아야 좋다. 

현재 의료는 데이터 추출 법적 개인 프라이버시 문제도 있고, 정확성에 따른 문제에도 예민하다. 문제가 생길수 도 있기에

- 이 회사가 인공지능을 무엇으로 쓰려고하는지 check 해보도록

 

언어의 유연성과 확장성

언어는 무한하다

  시대에 흐름에 따라 새로운 단어가 생김

  -> 과거의 데이터로 학습된 인공지능에 새로운 단어를 입력하면 이해하지 못한다.

 

단어가 들어갈 자리에 구를 넣어서 문장의 길이를 계속 늘릴 수 있음

  Man -> Old man

 

해결하기 위해

학습을 통해 통계적으로 처리

∙ 언어에 어떤 규칙이 있다면 그 단어나 어구 사이에 통계적으로 유미한 값이 도출된다는 가정

컴퓨터 성능이 발전하며 대량의 데이터를 빠르게 처리 가능하면서 발전

∙ 통계적 분석을 위해서는 학습에 필요한 대량의 문장들(코퍼스)이 필요함.

조건부 확률이라는 수학적 개념이 가장 핵심

∙ 어떤 상황 A가 일어났을 때 B라는 사건이 일어날 확률

∙ 과거의 단어들을 통해 다음에 어떤 단어가 나타날지 예측

∙ -> 나는 오늘 생일이라서 기분이 매우 좋다

 

 

 

728x90