일상 속 공감을 공유하다.
728x90

파이썬 33

Do it! 데이터 분석을 위한 판다스 입문 - 12 시계열 데이터

대망의 마지막 챕터다. 우리는 늘 흐르는 시간 속에 살고 있다. 그것을 다룬 것 시계열 데이터다. datetime은 기본적으로 날짜와 시간을 처리하기 위한 것이다. now 메소드는 밀리초단위까지 현재 시간을 구한다. 당연히 시간을 계산하기 위해 사용하며 이로 변환하기 위해서는 to_datetime 메소드를 사용하면 된다. 데이터 프레임 정보를 살펴보면 Date가 object 타입으로 들어가 있다. date_dt라는 것을 새로 만들고 Date를 타입 변경하여 내용을 채운다. 시간 형식 지정자들을 이용해 입력하면 원하는 포맷으로 출력이 가능하다. 다양한 시간 형식 지정자와 그 결과다. 필요한 부분은 꼭 메모해서 이용하도록 하자. 시계열 데이터 구분해서 추출하는 파트다. strftime 메소드와 시간 형식 지..

공부/판다스 2021.12.20

Do it! 데이터 분석을 위한 판다스 입문 - 10 apply 메소드 활용

슬슬 막바지까지 왔다. apply 메소드 작성 및 활용까지 온 것이다. 함수를 만드는 방법은 간단하다. 아래로 예시 제곱함수가 있다. apply 메소드 사용하기다. 데이터 프레임에 특정 컬럼을 지정해 제곱해도 같은 결과가 나온다. 1개와 2개의 매개변수를 받게 구성해도 결과가 나온다. 이 부분에서 정말 많이 쓰이는 것은 axis 매개변수인데 axis=0은 행, axis=1은 열을 의미하므로 꼭 기억하도록 하자! 3개의 매개변수를 받아 계산하는 함수도 정의했다. 오랜만에 보는 에러메시지다. 2개의 값이 더 필요하다는 문구다. 하나만 입력했기 때문에 나오는 지극히 당연한 문구다. 여기에선 우리가 익숙한 for문과 shape가 나온다. 타이타닉 데이터다. 데이터 쪽 스터디하다보면 거의 바이블급으로 볼 수 있는..

공부/판다스 2021.12.17

Do it! 데이터 분석을 위한 판다스 입문 - 09 문자열 처리하기

다양한 문자열을 처리하는 챕터가 왔다. 스터디해보고 직접 실습하면 이해가 더 잘되지 않을까 생각한다. 슬라이싱을 통한 문자열 출력이다. 슬라이싱의 개념을 이해한다면 무리 없이 진행 가능하다. 역시 슬라이싱 개념이 이어진다. 다음은 문자열에 관련된 메소드인데 실제 작업환경에서 유용한 기능이 많다. 실제 내가 사용해본 것은...count, find, index, uppe, replace, strip, split... 이것저것 많이 사용해본 것 같다. join하고 split 하는 내용이다. 간단하므로 한번 훑어보면 충분히 구현 가능하다. 문자열 포매팅은 사용할 일이 많다. 플레이스 홀더 등 주요 내용에 대해서 꼭 잊지 말고 확인하도록 하자. 중요한 내용이 하나 나온다. % 연산자를 이용한 포매팅이다. 더불어 ..

공부/판다스 2021.12.17

Do it! 데이터 분석을 위한 판다스 입문 - 08 판다스 자료형

자료형 챕터가 왔다. 판다스를 쓰는 입장에서 파이썬은 따라오기 마련인데... 사실 분석하다보면 TIMESTAMP 외에 다른 자료형에 대해서 깊게 생각할 일이 있었나 싶다. 파이썬의 장점이자 단점일 수도 있는 부분이 아닐까 한다. 결과를 보면 타입이 변경된 것을 알 수 있다. 달갑지 않은 에러메세지가 뜬다. 우리는 이런 에러메세지를 그냥 무시하고 넘어가면 안 된다! 에러 메시지를 읽는 습관을 기르자! 오류는 실수가 아니고 문자열 타입이었던 total_bill의 문제였던 것이다. astype 메소드로 해결이 가능한지 테스트해도 안된다! 이유는 판다스는 문자열을 실수로 변환하는 방법을 모르기 때문이다. 방법이 없는가? 그건 아니다. 하지만 역시 to_numeric 메소드를 사용해서 변환 실행해보지만, 문자열을..

공부/판다스 2021.12.16

Do it! 데이터 분석을 위한 판다스 입문 - 07 깔끔한 데이터

깔끔한 데이터 일하다 보면 정말 늘 마주치고 싶은 데이터다. 이번에는 pew 데이터로 스터디를 시작한다. 이번 스터디에서는 '깔끔한 데이터'가 메인이기 때문에 첫 스터디 내용이 행과 열을 위주로 나온다. id_vars는 열 지정을 해놓고 그 외에 것을 variable로 묶어서 정리한다. 마지막 pew_long으로 종교 기준으로 수입을 묶고, 그것의 전체 개수를 헤아리는 것으로 마무리했다. 그다음으로는 빌보드 차트를 예시로 만든 데이터다. 이 부분에서 중요한 포인트는 Date와 Day를 고정하고, 나머지 행 부분을 피벗 하고 split 메소드를 이용하여 분리한 것이다. get 메소드를 사용하여 인덱스 내에 데이터를 한 번에 추출한다. 데이터를 쪼개서 필요한 부분을 새 컬럼으로 만들어 다시 합치는 일련의 과..

공부/판다스 2021.12.16
반응형