Python : Pandas
Do it! 데이터 분석을 위한 판다스 입문 - 08 판다스 자료형
오핸
2021. 12. 16. 18:00
728x90
반응형
자료형 챕터가 왔다.
판다스를 쓰는 입장에서 파이썬은 따라오기 마련인데...
사실 분석하다보면 TIMESTAMP 외에 다른 자료형에 대해서 깊게 생각할 일이 있었나 싶다.
파이썬의 장점이자 단점일 수도 있는 부분이 아닐까 한다.
결과를 보면 타입이 변경된 것을 알 수 있다.
달갑지 않은 에러메세지가 뜬다.
우리는 이런 에러메세지를 그냥 무시하고 넘어가면 안 된다!
에러 메시지를 읽는 습관을 기르자!
오류는 실수가 아니고 문자열 타입이었던 total_bill의 문제였던 것이다.
astype 메소드로 해결이 가능한지 테스트해도 안된다!
이유는 판다스는 문자열을 실수로 변환하는 방법을 모르기 때문이다.
방법이 없는가? 그건 아니다.
하지만 역시 to_numeric 메소드를 사용해서 변환 실행해보지만, 문자열을 실수로 변환할 수는 없다.
다만 to_numeric 메소드의 errors 매개변수에 raise, coerce, ignore를 지정해 오류를 어느 정도 제어할 순 있다.
앞서 설명한 to_numeric의 파라미터들이다.
하지만 여전히 빨간 표시가 뜬다.
이번엔 float64로 변환되었다.
하지만 float32보다 2배의 용량을 차지하는 float64를 다운 캐스트 해본다.
카테고리 자료형이다.
유한한 범위의 값을 가질 수 있고, 용량과 속도면에서 아주 빠르다.
주로 동일한 문자열이 반복되는 데이터를 구성 시 사용한다.
728x90
반응형