일상 속 공감을 공유하다.

공부/판다스

Do it! 데이터 분석을 위한 판다스 입문 - 06 누락값이란?

ohhw 2021. 7. 16. 14:49
728x90
반응형

06 누락값 처리하기.ipynb
0.02MB

 

누락 값...

일하다 보면 가장 많이 마주치는 친구가 아닐까 싶다.

 

잘 알겠지만 '0'과는 다른 개념이다.

다음을 참조하자.

 

 

 

 

numpy 라이브러리에서 NaN, NAN, nan을 불러온다.

0이나 공백과는 또 다른 개념이므로, 같다는 개념이 성립되지 않는다.

 

 

 

 

누락 값을 확인하는 메서드 isnull()과,

누락 값이 아닌 경우를 확인하는 메서드 notnull()이다.

 

 

 

 

데이터를 불러온다. visited와 survey.

 

 

 

 

누락 값이 있는 데이터를 연결하면 더 많은 누락 값이 발생한다.

 

 

 

 

데이터를 잘못 입력하는 경우에도 누락값이 발생한다.

 

 

 

 

누락 값을 입력할 수도 있다.

 

 

 

 

gapminder라는 데이터를 불러와서 연도별로 그룹화한다.

 

 

 

 

누락 값이 아닌 것의 개수를 구한다.

shape [0]에 전체 행의 데이터 개수가 저장되어 있다.

여기서 누락 값이 아닌 것을 개수를 빼면 누락 값의 개수를 구할 수 있다.

 

 

 

 

count_zero는 배열에서 0이 아닌 것의 개수를 세는 것.

value_counts는 열의 빈도를 구하는 것.

fillna()는 괄호 안에 작성한 것을 누락 값과 대치하는 것으로 정말 많이 쓴다.

fillna(method='ffill)로 지정하는 누락 값이 나타나기 전의 값으로 변경된다.

 

 

 

 

ffill이 누락값누락 값 이전의 값으로 변경되었다면, bfill은 누락 값 발생 후 첫 번째 값으로 변경한다.

interpolate는 누락값 양쪽의 값을 이용해 중간값을 이용해 처리하는 방법이다.

 

 

 

 

누락 값 삭제할 때는 dropna()를 이용해서 날린다.

누락 값을 이용한 사칙연산은 당연히 누락 값이 나오므로,

skipna=True라는 매개변수 입력을 해주면 계산이 된다.

728x90