일상 속 공감을 공유하다.
728x90

파이썬 33

Do it! 데이터 분석을 위한 판다스 입문 - Intro

파이썬을 통한 데이터 프레임 핸들링 판다스를 제대로 입문하게 된 도서다. 이지스퍼블리싱에서 출판한 Do it! 데이터 분석을 위한 판다스 입문 강력 추천한다. 특히나 나는 전공이 이쪽이 아니기 때문에 정말 쉽고 간결하게 설명하고, 실습할 수 있는 도서가 필요했다. 먼저 파이썬 입문을 해당 출판사 도서로 했었기 때문에 거리낌 없이 읽을 수 있었다. 하나 팁을 주자면 해당 출판사 네이버 카페에 가입하면 '공부단' 다른 말로 서평단? 독자는 스터디 계획을 세워서 실제로 공부하고 지식을 공유한다. 출판사는 그 리뷰를 통해 광고효과를 누린다. 그러면 그에 대한 보상으로 다시 다른 도서를 독자에게 발송해주는 선순환 생태계가 구축되어있다. 참고로 나는 이 공부단으로 도서를 한 3권 정도 받은 것 같다. 아무튼 각설하..

공부/판다스 2021.07.13

구글 머신러닝 단기집중과정 - 실제 ML 시스템 - 문헌

실제 예: 18세기 문학 18세기 문학을 연구하는 교수가 작가들이 사용한 '마음에 대한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 예측하고자 했습니다. 18세기 문학을 연구하는 한 교수가 작가들이 사용한 '마음에 관한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 평가하고자 했습니다. 연구팀은 다양한 작가의 작품을 문장별로 라벨을 지정하여 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다. 학습된 모델은 테스트 데이터에서 거의 완벽한 성능을 보였지만, 연구자들은 결과가 의심스러울 만큼 정확하다고 느꼈습니다. 무엇이 잘못되었을까요? 테스트 정확성이 의심스러울 정도로 높은 이유가 무엇이라고 생각하시나요? 문제가 무엇인지 생각해 본 다음, 아래에 있는 재생 버튼(▶)을 클릭하여 내 생각이..

구글 머신러닝 단기집중과정 - 실제 ML 시스템 - 암 예측

실제 예: 암 예측 모델은 의료 기록을 통해 '환자가 암에 걸렸을 가능성'을 예측하도록 학습되었습니다. 환자의 연령, 성별, 이전 질병, 병원 이름, 활력 징후, 검사 결과 등을 특징으로 사용했습니다. 모델은 지속된 테스트 데이터에서 뛰어난 예측 결과를 보였습니다. 그렇지만 새 환자의 경우 평가 결과가 제대로 나오지 않았습니다. 이유가 무엇일까요? 실제 예: 암 평가 왜 새 환자의 경우에는 모델에서 평가 결과가 제대로 나오지 않는다고 생각하시나요? 문제가 무엇인지 생각해 본 다음, 아래에 있는 재생 버튼(▶)을 클릭하여 내 생각이 맞았는지 확인하세요. 라벨 누출 : 약간의 학습 라벨이 기능에 유출되어 모델의 속임수를 허용하는 것

파이썬 - 판다스를 이용해 데이터 시트 별로 파일 분리하기

EXCEL 혹은 CSV 파일의 다중 시트를 각각의 시트 단위로 분할해서 저장하고 싶을 때는 아래와 같은 코드를 실행하면 간단하게 분리할 수 있다. # 판다스 라이브러리 삽입 import pandas as pd # 데이터 불러오기 data = pd.read_excel('데이터 파일 경로', sheet_name=None) # 시트 이름별로 csv 파일 추출(저장경로는 데이터 파일 경로와 같다.) for key in data.keys(): data[key].to_csv('%s.csv' %key)

공부/판다스 2021.06.24

구글 머신러닝 단기집중과정 - ML 엔지니어링 - 데이터 종속성

프로덕션 ML 시스템: 데이터 종속성 ML 개발자에게 있어 데이터는 기존 프로그래머에게 있어 코드만큼 중요합니다. 이 강의에서는 데이터에 관해 알아야 할 질문에 중점을 둡니다. 특성 관리 입력 데이터(특성)가 ML 시스템 행동을 결정합니다. 소프트웨어 라이브러리용 유닛 테스트는 작성하지만 데이터는 어떤가요? 입력 신호를 선택할 때는 주의해야 합니다. 어떤 소프트웨어 라이브러리에 종속될지 결정할 때보다 더 주의해야 할 수도 있습니다. 입력 데이터에 관해 물어야 할 질문 신뢰성 신호를 사용할 수 없으면 어떻게 되나요? 어떻게 알게 되나요? 버전 차별화 이 신호를 계산하는 시스템이 변경되기도 하나요? 얼마나 자주 변경되고 무슨 결과가 생기나요? 필요성 신호의 유용성이 신호를 포함하는 비용을 정당화하나요? 상관..

반응형