-
Data set의 분류 (Training / Validation / Test)1) Tech 2020. 2. 24. 00:02반응형
Machine Learning은 Data를 training data, validation data와 test data 3개로 나눠 Training, Validation, Test를 수행한다.
먼저, traning data를 사용하여 training하면서 최적의 parameter를 찾는다. (Output으로 pre-trained weight가 나옴)
Validation data를 사용하여 user가 설정하는 Hyper parameter의 적정값을 찾아낸다.
그다음 test data를 사용하여 앞서 training한 model의 Accuracy를 측정한다. (pre-trained weight를 가지고 test를 진행)
1. Training Data : Network Model의 weight을 학습시키기 위한 Data
( Weight의 초깃값은 Random값이고 높은 Accuracy를 내기 위해 이 값들을 계속해서 수정한다. )
2. Validation Data : 여러 Network Model 중 어떤 Model이 적합한지 선택하기 위한 Data
(Hyper parameter setting마다 Network Model이 다르다. Hyper parameter는 사용자가 training 전에 설정하는 setting값이다.)
====================Validation도 training의 과정======================
3. Test Data : 최종 선택된 Model의 Accuracy를 확인하기 위한 Data, Unseen Data
(범용성을 확인하기 위해서는 training data와는 완전히 독립적인 data, 한마디로 앞선 데이터들은 수능 보기전 공부했던 문제들이라고 생각하면 편하고 Test Data는 수능 시험같은 것이다.)
*범용성 : 해당 Network가 training한 data이외의 data가 들어와도 좋은 성능(Accuracy)을 낼때 범용성이 있다고 표현한다. Machine Learning의 최종 목표는 범용성이 높은 Model을 만들어 내는 것.
(예를들면, 여러 문제집으로 공부를 한 학생이 처음보는 문제가 시험에 나와도 잘풀어내는 것을 의미)
반응형'1) Tech' 카테고리의 다른 글
epoch / batch / iteration (0) 2020.02.28 CNN이 다루는 문제들 (Classification, Localization, Segmentation) (0) 2020.02.25 [linux] 파일 이동(file move), 파일 옮기기 (0) 2020.01.31 [Pytorch] tensor to list (list to tensor), list to array (array to list), array to tensor (tensor to array) (6) 2020.01.29 [Numpy] 생략(' ... ') 제거 (0) 2020.01.28