본문 바로가기

전체 글129

머신러닝의 정의 와 개념 및 원리 성능 향상 11.8 머신러닝 강의 머신러닝의 정의? 기계가 데이터의 상관관계를 학습한다. (X,Y의 상관관계의 폼) -> hypothesis 를 학습 시키는 것 -> Weight를 학습시키는것 -> Cost가 가장낮을 때의 Weights를 찾는것 컴퓨터는 사람이 할 수 있는 직관력이 없기 때문에, 여러가지의 경우의 수 의 답이 나올 수 있다. -> 그래서 우리가 그 답을 찾아주어야 한다. [기계가 하는 것은 (Weight) 찾기!] ❗️오차를 종합하는 것은 Cost ↓낮으면 좋고, ↑높으면 좋지 않은데 머신러닝은 낮은 코스트를 찾기 위함이다. min A. A: cost B: Weight B 0️⃣단계 hypo 폼 결정 y = W(1)x + W(2) 1️⃣단계 Weight 초기값 설정 y = ax + 3 2️⃣단계 .. 2022. 11. 9.
데이터분석한다? 데이터는 크게 정형데이터와 비정형 데이터, 반정형 데이터가 있다. 이번 과정에서는 정형 데이터를 다룬다. 1. 정형데이터 : 형식과 구조가 정형화되어 있는 데이터, 연산이 가능한 데이터, 우리가 흔히 다루는 테이블 데이터를 생각하면 된다. 2. 비정형데이터 : 형식과 구조가 정형화되어 있지 않은 데이터 ex) 이미지(사진, 영상), 자연어(텍스트, 음성) 등이 있다. 3. 반정형 데이터 : 앞서 정의한 정형데이터의 형식을 준수하지 않는 형식으로 이루어진 데이터 ex) XML, HTML 첫번째 테이블 핸들링의 시작은 ooo이다 (뽑기) - 전체 테이블에서 내가 필요한 일부만 뽑아내는 것이 핵심이다. 열뽑기 , 행뽑기(loc) 통상적으로 내가 원하는 데이터 부분행, 부분열이 되어 데이터 뽑기를 한다. ->선.. 2022. 11. 7.
(국민청원을 바탕으로한 예습)통계, 기술용어 통계 = 기술통계 + 추론 통계 기술통계 : 내가가지고 있는 데이터를 설명하기 위한 추론통계 : 내가가지고 있는 데이터로 다른 데이터를 예측 설명 기술통계 = 중심성분석 + 분산도 분석 기술통계치 분윗수 (데이터를 등급화) : Quantile - 4분위수 : Quartile ex) 1,2,3,4 티어 나누듯이 - 10분위수 : - 100분위수 등등 4분위(100%) 3분위(75%) 2분위(50%)= 중윗수(median) 1분위(25%) * 해당 1분위 위 줄이 분윗수다. ✔️평균과 중윗수가 같을이유는 없다 ex) 중위소득 이 얼마인데 평균이 높은경우 상위권이 끌어간경우(재용이형이 평균치를 올렸다), 마이클조던의 졸업년도 졸업생의 평균연봉 df_petition['votes][원하는조건] 원하는 조건 = 중.. 2022. 11. 7.
머신러닝 실무자 특강 자연어(NLP) 고차원 , 저차원 측면으로 나뉜다. (차원의 구분은 난이도가아님) 고차원(문장) 번역, 감성분석, 대화 저차원(단어) 형태소분석, 의존구문분석, 구문분석, 개체명분석 *실무에선 개체명분석 > 대화(챗봇) > 감성분석 요청이 들어오는 편 N2N 입력갯수2출력개수 감성분석, 주제분류 - 감정을 예측 ex) 나 오늘 너무 행복해 -> 긍정 N21 형태소분석, 개체명분석 - N2N Problem 의존구문분석, 구문분석 - N2Path Problem (각각의 관계를 가지고 있는) 번역, 대화 - N2M Problem 중의적표현 완벽히 같은 글자의 조합이 여러 의미를 가지고 있음 "배"가 가진의미들 ex)맛있다, 타고가다 , 부피가 세배다, 규칙의 예외 - 형태론이라는 학문 분야가 존재할 만큼 언어.. 2022. 11. 3.
[데이터 전처리] 전처리란? 데이터를 분석하기에 앞서 분석에 용이하도록 데이터를 정제/ 가공하는 작업 -> 영어는 NLTK 패키지를 , 한글은 KoNLPy 패키지를 사용한다. 텍스트 데이터 전처리로는 토큰화, 노이즈/불용어제거, 정규화, 품사태깅, 벡터화 등이 있다. 1️⃣ 토큰화 : 텍스트를 원하는 단위로 분절하는 작업이다. 문장 토큰화 단어토큰화 등이 있다. 여기서 말하는 '토큰'은 분절하는 기준이 되는 '문장'이나 '단어'라고 생각하면 된다. ✂️ * 의미를 가진 가장작은 단위인 '형태소' 단위로 토큰화(의미파괴되는 토큰화는 절대 안됨) Hannanum , Kkma, KOmoran, Okt(Twitter), Mecab(제일 빠름) 정규표현식(Regular Expression) : findall(), sub() 찾아주는 명령어 .. 2022. 11. 1.
[웹크롤링] 요청거절당한 동적크롤링 1. 보내는 사람: 클라이언트 정보(requests header) 받는 사람 : 서버정보(response header) 2. 브라우저는 OK : 브라우저의 requests header는 OK 크롤러는 403 : 크롤러의 requests heade를 복붙해서 GET 하자. 3. 브라우저의 requests header를 복붙해서 GET 하자. 4. requests header 정보 중에서 1순위) user-agent, referrer 2순위) cookies 3순위) auth, authorization 등 권한을 의미하는 단어가 포함된 값 4순위) 전부 다 'JQuery ~~~~({딕셔너리)};' ~~~ #전체 댓글을 가져오기(1페이지 ~14페이지) 1단계 : 1페이지에서 원하는 정보(댓글, 공감수, 비공감수.. 2022. 10. 31.