본문 바로가기

전체 글137

(머신러닝) Soft Max 기법 사실 이미 wx 만보고도 답은 정해져있다. 일반적으로 선형분류 모형의 경우 '일대다' 방식 위 예제처럼 선형경계선 찾고 -> 확률적 예측한다 -> 일단 양수로 변환 후 0~1 사이 확률값으로 변환 오차가 1이나 1이넘는 경우가 있기 때문에 실제 값은 1,0,0 0,1,0 0,0,1이 되어야한다 2022. 11. 9.
(머신러닝) 로지스틱 리그레션 정리 2022. 11. 9.
머신러닝의 정의 와 개념 및 원리 성능 향상 11.8 머신러닝 강의 머신러닝의 정의? 기계가 데이터의 상관관계를 학습한다. (X,Y의 상관관계의 폼) -> hypothesis 를 학습 시키는 것 -> Weight를 학습시키는것 -> Cost가 가장낮을 때의 Weights를 찾는것 컴퓨터는 사람이 할 수 있는 직관력이 없기 때문에, 여러가지의 경우의 수 의 답이 나올 수 있다. -> 그래서 우리가 그 답을 찾아주어야 한다. [기계가 하는 것은 (Weight) 찾기!] ❗️오차를 종합하는 것은 Cost ↓낮으면 좋고, ↑높으면 좋지 않은데 머신러닝은 낮은 코스트를 찾기 위함이다. min A. A: cost B: Weight B 0️⃣단계 hypo 폼 결정 y = W(1)x + W(2) 1️⃣단계 Weight 초기값 설정 y = ax + 3 2️⃣단계 .. 2022. 11. 9.
데이터분석한다? 데이터는 크게 정형데이터와 비정형 데이터, 반정형 데이터가 있다. 이번 과정에서는 정형 데이터를 다룬다. 1. 정형데이터 : 형식과 구조가 정형화되어 있는 데이터, 연산이 가능한 데이터, 우리가 흔히 다루는 테이블 데이터를 생각하면 된다. 2. 비정형데이터 : 형식과 구조가 정형화되어 있지 않은 데이터 ex) 이미지(사진, 영상), 자연어(텍스트, 음성) 등이 있다. 3. 반정형 데이터 : 앞서 정의한 정형데이터의 형식을 준수하지 않는 형식으로 이루어진 데이터 ex) XML, HTML 첫번째 테이블 핸들링의 시작은 ooo이다 (뽑기) - 전체 테이블에서 내가 필요한 일부만 뽑아내는 것이 핵심이다. 열뽑기 , 행뽑기(loc) 통상적으로 내가 원하는 데이터 부분행, 부분열이 되어 데이터 뽑기를 한다. ->선.. 2022. 11. 7.
(국민청원을 바탕으로한 예습)통계, 기술용어 통계 = 기술통계 + 추론 통계 기술통계 : 내가가지고 있는 데이터를 설명하기 위한 추론통계 : 내가가지고 있는 데이터로 다른 데이터를 예측 설명 기술통계 = 중심성분석 + 분산도 분석 기술통계치 분윗수 (데이터를 등급화) : Quantile - 4분위수 : Quartile ex) 1,2,3,4 티어 나누듯이 - 10분위수 : - 100분위수 등등 4분위(100%) 3분위(75%) 2분위(50%)= 중윗수(median) 1분위(25%) * 해당 1분위 위 줄이 분윗수다. ✔️평균과 중윗수가 같을이유는 없다 ex) 중위소득 이 얼마인데 평균이 높은경우 상위권이 끌어간경우(재용이형이 평균치를 올렸다), 마이클조던의 졸업년도 졸업생의 평균연봉 df_petition['votes][원하는조건] 원하는 조건 = 중.. 2022. 11. 7.
머신러닝 실무자 특강 자연어(NLP) 고차원 , 저차원 측면으로 나뉜다. (차원의 구분은 난이도가아님) 고차원(문장) 번역, 감성분석, 대화 저차원(단어) 형태소분석, 의존구문분석, 구문분석, 개체명분석 *실무에선 개체명분석 > 대화(챗봇) > 감성분석 요청이 들어오는 편 N2N 입력갯수2출력개수 감성분석, 주제분류 - 감정을 예측 ex) 나 오늘 너무 행복해 -> 긍정 N21 형태소분석, 개체명분석 - N2N Problem 의존구문분석, 구문분석 - N2Path Problem (각각의 관계를 가지고 있는) 번역, 대화 - N2M Problem 중의적표현 완벽히 같은 글자의 조합이 여러 의미를 가지고 있음 "배"가 가진의미들 ex)맛있다, 타고가다 , 부피가 세배다, 규칙의 예외 - 형태론이라는 학문 분야가 존재할 만큼 언어.. 2022. 11. 3.