본문 바로가기

bootcamp11

(국민청원을 바탕으로한 예습)통계, 기술용어 통계 = 기술통계 + 추론 통계 기술통계 : 내가가지고 있는 데이터를 설명하기 위한 추론통계 : 내가가지고 있는 데이터로 다른 데이터를 예측 설명 기술통계 = 중심성분석 + 분산도 분석 기술통계치 분윗수 (데이터를 등급화) : Quantile - 4분위수 : Quartile ex) 1,2,3,4 티어 나누듯이 - 10분위수 : - 100분위수 등등 4분위(100%) 3분위(75%) 2분위(50%)= 중윗수(median) 1분위(25%) * 해당 1분위 위 줄이 분윗수다. ✔️평균과 중윗수가 같을이유는 없다 ex) 중위소득 이 얼마인데 평균이 높은경우 상위권이 끌어간경우(재용이형이 평균치를 올렸다), 마이클조던의 졸업년도 졸업생의 평균연봉 df_petition['votes][원하는조건] 원하는 조건 = 중.. 2022. 11. 7.
[데이터 전처리] 전처리란? 데이터를 분석하기에 앞서 분석에 용이하도록 데이터를 정제/ 가공하는 작업 -> 영어는 NLTK 패키지를 , 한글은 KoNLPy 패키지를 사용한다. 텍스트 데이터 전처리로는 토큰화, 노이즈/불용어제거, 정규화, 품사태깅, 벡터화 등이 있다. 1️⃣ 토큰화 : 텍스트를 원하는 단위로 분절하는 작업이다. 문장 토큰화 단어토큰화 등이 있다. 여기서 말하는 '토큰'은 분절하는 기준이 되는 '문장'이나 '단어'라고 생각하면 된다. ✂️ * 의미를 가진 가장작은 단위인 '형태소' 단위로 토큰화(의미파괴되는 토큰화는 절대 안됨) Hannanum , Kkma, KOmoran, Okt(Twitter), Mecab(제일 빠름) 정규표현식(Regular Expression) : findall(), sub() 찾아주는 명령어 .. 2022. 11. 1.
[웹크롤링] 요청거절당한 동적크롤링 1. 보내는 사람: 클라이언트 정보(requests header) 받는 사람 : 서버정보(response header) 2. 브라우저는 OK : 브라우저의 requests header는 OK 크롤러는 403 : 크롤러의 requests heade를 복붙해서 GET 하자. 3. 브라우저의 requests header를 복붙해서 GET 하자. 4. requests header 정보 중에서 1순위) user-agent, referrer 2순위) cookies 3순위) auth, authorization 등 권한을 의미하는 단어가 포함된 값 4순위) 전부 다 'JQuery ~~~~({딕셔너리)};' ~~~ #전체 댓글을 가져오기(1페이지 ~14페이지) 1단계 : 1페이지에서 원하는 정보(댓글, 공감수, 비공감수.. 2022. 10. 31.
[웹크롤링] 동적페이지 크롤링 css 에서 셀렉터 기능이 있다! javascript로 되어있는 크롤링 당장 우리눈에 보여지는 페이지의 데이터가 아닌 아이프레임이나 자바스크립트 등 다른 URL 로 되어있는 페이지이다. 별도의 URL을 찾아내야 한다! 보통 동적인 기능(스크롤) 이 있으면 JavaScript일 확률이 크다. * 검사 -> 톱니바퀴 -> 프리퍼런스 -> Debugger -> Disable javascript click -> 리로드 크롤링 할 때 무조건 Javascript인 걸 확인하고 한다. 화면이 뜨지 않는다면. 별도의 URL을 찾는다 별도의 URL 찾는 방법 1. javascript disable 이 후 뜨지 않는다면 Elements -> Network 탭으로 변경 2. Tab 에서 Fetch/XHR 탭에 두고, 3. .. 2022. 10. 31.