Do it! 데이터 분석을 위한 판다스 입문 - 11 그룹 연산

Python : Pandas

Do it! 데이터 분석을 위한 판다스 입문 - 11 그룹 연산

오핸 2021. 12. 17. 17:13

728x90

11 그룹 연산.ipynb

거의 막바지까지 스터디 진행했다.

조금만 더 진행하면 끝이 보인다!

(물론 배움에는 끝이 없다.)

그룹 연산은 분할 - 반영 - 결합의 과정이다.

짧고 굵게 요약해준다.

연도별 평균값 구하기다.

각 연도별 총합을 구한 뒤 다 더한다.

집계시 사용하는 메소드가 나열되어있다.

이 부분은 정말 밥먹듯이 자주 쓰기 때문에 다른 무엇보다도 숙지할 필요가 있다.

groupby 메소드를 조합하기 위한 agg 메소드를 사용

두 매개변수 간의 차이를 구하는 메소드

그것의 평균을 구한다.

여러 개의 집계 내용을 리스트나 딕셔너리에 담아서 전달한다.

표준점수 계산하기다. 표준화일 뿐 집계는 하지 않는다.

누락 값 평균으로 처리하기다.

sample 메소드를 이용해 가져오고 4개만 누락 값 처리한다.

성별로 구분해 데이터를 받아서 평균값을 구하는 함수를 만들었다.

데이터를 필터링해본다.

필요한 부분만 발췌하는 것으로 이용할 수 있다.

여러 개로 나뉜 데이터를 그룹화하여 집계, 변환, 필터 작업을 수행

계산이 안 되는 행은 제외한다.

특정 데이터만 추출할 때는 get_group 메소드를 사용한다.

본문 읽어보면 타입은 튜플이고,

길이는 2,

첫 번째 요소는 남자,

str 타입이고,

다음 요소는 표와 같다.

멀티 인덱스가 등장한다.

가끔 깔끔한 데이터가 아니게 될 때, 확인 가능한데....

처리방법은 다음을 보도록 하자.

멀티 인덱스 일 경우 reset_index를 통해 새로 인덱스 부여가 가능하다.

대신 as_index 매개변수를 False로 설정해도 결과는 같다.

728x90

저작자표시 비영리 변경금지 (새창열림)