일상 속 공감을 공유하다.
728x90

과적합 4

구글 머신러닝 단기집중과정 - ML 개념 - 정규화 : 단순성

단순성을 위한 정규화 정규화란 모델의 복잡도에 페널티를 줌으로써 과적합을 줄이는 것입니다. 일반화 곡선 모델 복잡도에 페널티 부여 가능하면 모델 복잡도를 방지하려고 합니다. 학습 단계에서 수행하는 최적화에 이 아이디어를 적용할 수 있습니다. 경험적 위험 최소화 학습 오류를 낮추는 것이 목표 \( 최소화:\,손실(데이터|모델) \) 또한 복잡도를 낮출 수 있도록 조정 \( 최소화:\,손실(데이터|모델)\,+\,복잡도(모델) \) 정규화 복잡도(모델)를 정의하는 방법 더 작은 가중치 선호 여기에서 벗어나면 비용이 발생함 L2 정규화(일명 능선)를 통해 이 아이디어를 구현할 수 있음 복잡도(모델) = 가중치의 제곱의 합 아주 큰 가중치에 대한 페널티 부여 선형 모델에서는 더 평평한 기울기를 선호 베이지안 사전..

구글 머신러닝 단기집중과정 - ML 개념 - 검증세트

검증: 직관력 테스트 이 모듈을 시작하기 전에 학습 및 테스트 세트에 제시된 학습 프로세스를 사용하는 데 문제점이 있는지 확인해 보시기 바랍니다. 아래 옵션을 확인하세요. 테스트 세트 및 학습 세트를 사용하여 모델 개발 반복 과정을 진행하는 프로세스를 살펴보았습니다. 각 반복 과정에서는 학습 데이터를 학습하고 테스트 데이터로 평가하면서 테스트 데이터에 대한 평가 결과를 근거로 학습률, 특성 등의 다양한 모델 초매개변수를 선택하고 변화를 줍니다. 이 접근법에 잘못된 점이 있나요? 정답을 하나만 고르세요. 이 방식은 연산 효율이 낮습니다. 기본 초매개변수 세트를 선택하고 그대로 사용하여 리소스를 절약해야 합니다. 이러한 유형의 반복 과정은 많은 리소스를 사용하지만 모델 개발에서 핵심적인 부분을 차지합니다. ..

구글 머신러닝 단기집중과정 - ML 개념 - 학습 및 테스트 세트

학습 및 테스트 세트 테스트 세트는 학습 세트로부터 개발한 모델을 평가하는 데 사용되는 데이터 세트입니다. 데이터 세트 분할 학습 평가와 테스트 평가 데이터 세트가 하나뿐이라면 어떻게 하나요? 다음과 같이 두 세트로 분할합니다. 학습 세트 테스트 세트 기억해야 할 유의사항: 테스트 데이터로 학습하지 않기 손실이 이상할 정도로 적은가요? 기뻐하기는 이릅니다. 실수로 테스트 데이터로 학습하진 않았는지 확인해 보세요. 학습 및 평가 세트: 데이터 분할 이전 모듈에서는 데이터 세트를 다음과 같이 두 부분으로 나눈다는 개념을 소개했습니다. 학습 세트 - 모델을 학습시키기 위한 데이터 세트의 일부분 평가 세트 - 모델을 테스트하기 위한 데이터 세트의 일부분 데이터 세트 하나를 다음과 같이 분할하는 방법을 생각해 볼..

구글 머신러닝 단기집중과정 - ML 개념 - 일반화

일반화 일반화는 모델이 이를 만들기 위해 사용된 것과 같은 분포에서 추출된 이전에 보지 못했던 새로운 데이터에 제대로 적합할 수 있는지를 나타냅니다. 개요 목표: 숨겨진 실제 분포에서 추출된 새로운 데이터를 제대로 예측 문제: 진실을 알 수 없음 분포에서 추출된 샘플만 볼 수 있음 모델 h가 현재 샘플에 적합하면 다른 새로운 샘플도 잘 예측할 것이라고 신뢰할 수 있나요? 모델이 적합한지 어떻게 알 수 있나요? 이론적인 측면: 흥미로운 분야: 일반화 이론 모델의 단순성/복잡성 측정 아이디어를 기반으로 함 직관: 오컴의 면도날 원칙의 형식화 모델이 덜 복잡할수록 샘플 자체의 특성을 벗어나 좋은 경험적 결과를 얻을 가능성이 높음 경험적인 측면: 질문: 모델이 새로운 데이터 샘플에 효과적으로 작동하나요? 평가:..

반응형