누락 값...
일하다 보면 가장 많이 마주치는 친구가 아닐까 싶다.
잘 알겠지만 '0'과는 다른 개념이다.
다음을 참조하자.
numpy 라이브러리에서 NaN, NAN, nan을 불러온다.
0이나 공백과는 또 다른 개념이므로, 같다는 개념이 성립되지 않는다.
누락 값을 확인하는 메서드 isnull()과,
누락 값이 아닌 경우를 확인하는 메서드 notnull()이다.
데이터를 불러온다. visited와 survey.
누락 값이 있는 데이터를 연결하면 더 많은 누락 값이 발생한다.
데이터를 잘못 입력하는 경우에도 누락값이 발생한다.
누락 값을 입력할 수도 있다.
gapminder라는 데이터를 불러와서 연도별로 그룹화한다.
누락 값이 아닌 것의 개수를 구한다.
shape [0]에 전체 행의 데이터 개수가 저장되어 있다.
여기서 누락 값이 아닌 것을 개수를 빼면 누락 값의 개수를 구할 수 있다.
count_zero는 배열에서 0이 아닌 것의 개수를 세는 것.
value_counts는 열의 빈도를 구하는 것.
fillna()는 괄호 안에 작성한 것을 누락 값과 대치하는 것으로 정말 많이 쓴다.
fillna(method='ffill)로 지정하는 누락 값이 나타나기 전의 값으로 변경된다.
ffill이 누락값누락 값 이전의 값으로 변경되었다면, bfill은 누락 값 발생 후 첫 번째 값으로 변경한다.
interpolate는 누락값 양쪽의 값을 이용해 중간값을 이용해 처리하는 방법이다.
누락 값 삭제할 때는 dropna()를 이용해서 날린다.
누락 값을 이용한 사칙연산은 당연히 누락 값이 나오므로,
skipna=True라는 매개변수 입력을 해주면 계산이 된다.
'공부 > 판다스' 카테고리의 다른 글
Do it! 데이터 분석을 위한 판다스 입문 - 08 판다스 자료형 (0) | 2021.12.16 |
---|---|
Do it! 데이터 분석을 위한 판다스 입문 - 07 깔끔한 데이터 (0) | 2021.12.16 |
Do it! 데이터 분석을 위한 판다스 입문 - 05 데이터 연결하기 (0) | 2021.07.16 |
Do it! 데이터 분석을 위한 판다스 입문 - 04 그래프 그리기 (0) | 2021.07.15 |
Do it! 데이터 분석을 위한 판다스 입문 - 03 판다스 데이터프레임과 시리즈 (0) | 2021.07.13 |