:: The Journal of the Institute of Internet, Broadcasting and Communication ::, Vol.24 No.5 | (2024) pp.77~82
분류 머신러닝 모델의 동치 클래스 분할 테스트의 충분성 평가
Abstract
머신러닝의 테스트 집합은 학습 데이터로 참여하지 않은 나머지 데이터들로 이루어진다. 학습 데이터와 테스트 데이터를 나누는 기준은 양적 분할 즉 일정 양의 데이터를 떼어두는 방식을 적용하여, 랜덤 선택과 같은 효과를 나타낸 다. 그러나 소프트웨어 테스트 관점에서 보면, 랜덤 선택보다 오류를 잡아내기에 충분한 테스트 케이스들을 테스트 집합 으로 선정한다. 이를 테스트 케이스의 충분성(adequacy)이라 하며, 충분성이 높을수록 잘 선정된 테스트 케이스가 된 다. 머신러닝에서 사용되는 테스트 케이스는 이런 관점에서 충분한지를 소프트웨어 테스트의 동치분할 방식과 비교하여 살펴보고자 한다. 만일 소프트웨어 테스트 설계 기법, 즉 동치분할을 적용한 테스트 집합이 높은 충분성을 보장한다면, 적은 수의 테스트 집합으로 높은 효과를 볼 수 있다. 이는 테스트 집합의 크기를 작게하여 학습 데이터 집합의 크기가 상대적으로 커지고, 결국 학습할 데이터를 많이 확보하게 된다. 보다 큰 학습 데이터 집합으로 보다 정교한 모델을 구축 할 수 있음을 기대할 수 있다.
The test set of machine learning consists of the remaining data that did not participate as training data. It is quantitative division and it is setting aside a certain amount of data which has the same effect as random selection. However from a software testing perspective, test cases sufficient to catch errors are selected as a test set rather than a random selection. This is called the adequacy of the test case, and the higher the adequacy, the better the test case is selected. We want to examine whether the test cases used in machine learning are sufficient from this perspective by comparing them with the equivalence split method of software testing. If higher sufficiency is guaranteed when applying a software test design technique, that is, equivalence splitting, high effectiveness can be achieved with a small number of test sets. This reduces the size of the test set, thereby increasing the size of the training data set and ultimately securing more data to learn. It can be expected that more sophisticated models can be built with larger training data sets.
Equivalent class partition,Machine Learning,Test adequacy,Random partition