통계 = 기술통계 + 추론 통계
기술통계 : 내가가지고 있는 데이터를 설명하기 위한
추론통계 : 내가가지고 있는 데이터로 다른 데이터를 예측 설명
기술통계 = 중심성분석 + 분산도 분석
기술통계치
분윗수 (데이터를 등급화) : Quantile
- 4분위수 : Quartile ex) 1,2,3,4 티어 나누듯이
- 10분위수 :
- 100분위수 등등
4분위(100%) |
3분위(75%) |
2분위(50%)= 중윗수(median) |
1분위(25%) |
* 해당 1분위 위 줄이 분윗수다.
✔️평균과 중윗수가 같을이유는 없다
ex) 중위소득 이 얼마인데 평균이 높은경우 상위권이 끌어간경우(재용이형이 평균치를 올렸다), 마이클조던의 졸업년도 졸업생의 평균연봉
df_petition['votes][원하는조건]
원하는 조건 = 중위값보다 작은 -> median() <
항상 데이터프레임의 이름을 명시해준다.
테이블
columns, index, values
sort_values = 벨류스를 정렬할 것이다.['votes'] 보츠 값을 기준으로
ascending 이란 값으로 오름차순 내림차순을 한다 False : 내림차순 , True : 오름차순
.head(5) 다섯개만 뽑아줘라.
#value_counts() : 벨류를 카운트하겠다.
- 카테고리 별로 몇개가 있는지 알아보고 싶은 경우
# 나만의 custom fuction을 컬럼(시리즈, Series)에 적용하기.
-> map(), apply()
시리즈 -> 함수 적용 -> map() *맵은 시리즈만
데이터 프레임 -> 함수 적용 -> apply() * 모두 , 길자나 기니깐 apply
A.map(B) : A에게 B를 적용하겠다.
'category' 가 -> map( ladmbda x에 들어간다)
앞에 데이터 프레임을 명시 한 후에 '컬럼명'을 적는게 효율적인 방법
#데이터 프레임에서 특정 시리즈의 형변환
시리즈.astype(타입)
pd.to_타입(시리즈)
Info() 를 통해서 데이터 타입 확인후 오브젝트인지 , 데이트타임인지 확인
#특정 시리즈를 기준으로 집계
ex) df_petition 을 시작일을 기준으로 집계
'start' 시작일을 기준
-> A.groupby(B) : df_petition.groupby(start),count()
EDA자동화
데이터 분석의 전 과정
[수집 -> 데이터 이해(탐색): 분석 계획 수립 -> 전처리 -> 모델링, 학습 -> 검증]
검증-> 분석 계획 수정 루프
import pandas-Profiling
'bootcamp' 카테고리의 다른 글
[데이터 전처리] 전처리란? (0) | 2022.11.01 |
---|---|
[웹크롤링] 요청거절당한 동적크롤링 (0) | 2022.10.31 |
[웹크롤링] 동적페이지 크롤링 (0) | 2022.10.31 |
[웹크롤링] 공부방법!? (0) | 2022.10.30 |
[웹크롤링] 썸네일 이미지 가져오기 (0) | 2022.10.28 |