자연어(NLP)
고차원 , 저차원 측면으로 나뉜다. (차원의 구분은 난이도가아님)
고차원(문장)
번역, 감성분석, 대화
저차원(단어)
형태소분석, 의존구문분석, 구문분석, 개체명분석
*실무에선 개체명분석 > 대화(챗봇) > 감성분석 요청이 들어오는 편
N2N 입력갯수2출력개수
감성분석, 주제분류 - 감정을 예측 ex) 나 오늘 너무 행복해 -> 긍정 N21
형태소분석, 개체명분석 - N2N Problem
의존구문분석, 구문분석 - N2Path Problem (각각의 관계를 가지고 있는)
번역, 대화 - N2M Problem
중의적표현
완벽히 같은 글자의 조합이 여러 의미를 가지고 있음
"배"가 가진의미들
ex)맛있다, 타고가다 , 부피가 세배다,
규칙의 예외
- 형태론이라는 학문 분야가 존재할 만큼 언어의 규칙이 어렵고 복잡함.
∙ 언어규칙의예시
∙ -었이 들어간 한국어 동사는 과거형
∙ -ed로 끝나는 영어 동사는 과거형
∙ 이 들 모두 예외를 찾을 수 있음
∙ 숙어로 쓰인 동사나 명사는 원본 단어의 규칙을 그대로 적용할 수 없음
∙ hit the sace : 잠들다
∙ hit the brown sack : 갈색 자루를 때리다.
∙ 규칙을 모든 상황에 동일하게 적용할 수 없음 -> 컴퓨터 입장에선 이해하기 어려움
* 양 질의 데이터가 많아야 좋다.
현재 의료는 데이터 추출 법적 개인 프라이버시 문제도 있고, 정확성에 따른 문제에도 예민하다. 문제가 생길수 도 있기에
- 이 회사가 인공지능을 무엇으로 쓰려고하는지 check 해보도록
언어의 유연성과 확장성
언어는 무한하다
시대에 흐름에 따라 새로운 단어가 생김
-> 과거의 데이터로 학습된 인공지능에 새로운 단어를 입력하면 이해하지 못한다.
단어가 들어갈 자리에 구를 넣어서 문장의 길이를 계속 늘릴 수 있음
Man -> Old man
해결하기 위해
학습을 통해 통계적으로 처리
∙ 언어에 어떤 규칙이 있다면 그 단어나 어구 사이에 통계적으로 유미한 값이 도출된다는 가정
컴퓨터 성능이 발전하며 대량의 데이터를 빠르게 처리 가능하면서 발전
∙ 통계적 분석을 위해서는 학습에 필요한 대량의 문장들(코퍼스)이 필요함.
조건부 확률이라는 수학적 개념이 가장 핵심
∙ 어떤 상황 A가 일어났을 때 B라는 사건이 일어날 확률
∙ 과거의 단어들을 통해 다음에 어떤 단어가 나타날지 예측
∙ -> 나는 오늘 생일이라서 기분이 매우 좋다
'Daily' 카테고리의 다른 글
하이퍼클로바 X 프로젝트 회고 (0) | 2024.08.16 |
---|---|
1년간 AI로만 개발한 사람의 팁과 노하우 (0) | 2024.08.12 |
Hyper CLOVA 스터디를 참여하게 되었다🙇 (20) | 2024.05.30 |
데이터 사이언티스트 특강 (0) | 2022.11.17 |