본문 바로가기
bootcamp

(국민청원을 바탕으로한 예습)통계, 기술용어

by AI미남홀란드 2022. 11. 7.
728x90

통계 = 기술통계 + 추론 통계

기술통계 : 내가가지고 있는 데이터를 설명하기 위한

추론통계 : 내가가지고 있는 데이터로 다른 데이터를 예측 설명

 

기술통계 = 중심성분석 + 분산도 분석

 

기술통계치

분윗수 (데이터를 등급화) : Quantile 

- 4분위수 : Quartile                    ex) 1,2,3,4 티어 나누듯이

- 10분위수 : 

- 100분위수 등등

4분위(100%)
3분위(75%)
2분위(50%)= 중윗수(median)
1분위(25%)

* 해당 1분위 위 줄이 분윗수다.

✔️평균과 중윗수가 같을이유는 없다

ex) 중위소득 이 얼마인데 평균이 높은경우 상위권이 끌어간경우(재용이형이 평균치를 올렸다), 마이클조던의 졸업년도 졸업생의 평균연봉 

df_petition['votes][원하는조건]

원하는 조건 = 중위값보다 작은 -> median() <

항상 데이터프레임의 이름을 명시해준다.

 

테이블

columns, index, values

sort_values = 벨류스를 정렬할 것이다.['votes']  보츠 값을 기준으로 

ascending 이란 값으로 오름차순 내림차순을 한다  False : 내림차순 , True : 오름차순 

.head(5) 다섯개만 뽑아줘라.

#value_counts() : 벨류를 카운트하겠다.

- 카테고리 별로 몇개가 있는지 알아보고 싶은 경우

value_counts()

# 나만의 custom fuction을 컬럼(시리즈, Series)에 적용하기.

-> map(), apply()

시리즈 -> 함수 적용 -> map() *맵은 시리즈만

데이터 프레임 -> 함수 적용 -> apply() * 모두 , 길자나 기니깐 apply

 

A.map(B) : A에게 B를 적용하겠다.

'category' 가 -> map( ladmbda x에 들어간다)

앞에 데이터 프레임을 명시 한 후에 '컬럼명'을 적는게 효율적인 방법

 

#데이터 프레임에서 특정 시리즈의 형변환

시리즈.astype(타입)

pd.to_타입(시리즈)

Info() 를 통해서 데이터 타입 확인후 오브젝트인지 , 데이트타임인지 확인

데이터 프레임의 형변환

#특정 시리즈를 기준으로 집계 

ex) df_petition 을 시작일을 기준으로 집계

'start' 시작일을 기준

-> A.groupby(B) : df_petition.groupby(start),count()

 

EDA자동화

데이터 분석의 전 과정

[수집 -> 데이터 이해(탐색): 분석 계획 수립 -> 전처리 -> 모델링, 학습 -> 검증]

검증-> 분석 계획 수정 루프

 

import pandas-Profiling

 

728x90