공부/구글 머신러닝 단기집중과정
구글 머신러닝 단기집중과정 - 실제 ML 시스템 - 문헌
ohhw
2021. 7. 12. 14:07
728x90
반응형
실제 예: 18세기 문학
- 18세기 문학을 연구하는 교수가 작가들이 사용한 '마음에 대한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 예측하고자 했습니다.
- 18세기 문학을 연구하는 한 교수가 작가들이 사용한 '마음에 관한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 평가하고자 했습니다.
- 연구팀은 다양한 작가의 작품을 문장별로 라벨을 지정하여 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다.
- 학습된 모델은 테스트 데이터에서 거의 완벽한 성능을 보였지만, 연구자들은 결과가 의심스러울 만큼 정확하다고 느꼈습니다. 무엇이 잘못되었을까요?
테스트 정확성이 의심스러울 정도로 높은 이유가 무엇이라고 생각하시나요? 문제가 무엇인지 생각해 본 다음, 아래에 있는 재생 버튼(▶)을 클릭하여 내 생각이 맞았는지 확인하세요.
- 데이터 분할 A: 연구자는 각 작가의 예를 일부는 학습 세트에, 일부는 검증세트에, 일부는 테스트 세트에 넣었습니다.
- 데이터 분할 B: 연구자는 각 작가의 예시 전체를 하나의 세트에 넣었습니다.
- 데이터 분할 A: 연구자는 각 작가의 예를 일부는 학습 세트에, 일부는 검증세트에, 일부는 테스트 세트에 넣었습니다.
- 데이터 분할 B: 연구자는 각 작가의 예시 전체를 하나의 세트에 넣었습니다.
- 결과: 데이터 분할 A에서 학습된 모델의 정확성이 데이터 분할 B에서 학습된 모델보다 훨씬 높았습니다.
참고 사항: 예를 분할하는 방법을 신중하게 고려하세요.
데이터가 무엇을 나타내는지 알아야 합니다.
728x90