:: The Journal of the Institute of Internet, Broadcasting and Communication ::, Vol.24 No.4 | (2024) pp.57~64
스마트 팩토리 반도체 공정 데이터 최적화를 위한 향상된 머신러닝 전처리 방법 연구
Abstract
스마트 팩토리의 도입은 제조업 분야에서 객관적이고 효율적인 라인 관리로의 전환을 가져왔다. 그러나 대부분의 회사가 매초 수집되는 수많은 센서 데이터를 효과적으로 사용하지 못하고 있다. 본 연구에서는 이러한 데이터를 활용해 제품 품질을 예측하고 효율적인 생산 공정의 관리를 목표로 한다. 보안 문제로 구체적인 센서 데이터 확인이 불가하여, “SAMSUNG SDS Brightics AI” 사이트의 반도체 공정 관련 학습용 데이터를 확보하여 연구를 진행한다. 머신러닝 모델 에서 데이터의 전처리 과정은 성능을 결정짓는 중요한 요소이다. 따라서, 결측값 제거, 이상치 제거, 스케일링, 특성 제거 의 전처리 과정을 통해 최적의 센서 데이터를 확보하였다. 또한, 학습 데이터셋이 불균형 데이터를 이루고 있어 오버샘플 링 기법을 통해 동일한 비율을 맞추어 모델 평가 전 데이터를 준비하였다. 머신러닝에서 제공되는 다양한 모델 평가로 구한 SVM(rbf) 모델로 높은 성능(Accuracy : 97.07%, GM : 96.61%)을 확인했다. 또한, 동일한 데이터로 학습 시 “SAMSUNG SDS Brightics AI”에서 구현하였던 MLP 모델보다 더 높은 성능을 보인다. 본 연구는 센서 데이터를 활용 한 양품/불량품 예측 외에도 부품 주기, 공정 조건 예측 등 다양한 주제에 적용 가능하다.
The introduction of Smart Factories has transformed manufacturing towards more objective and efficient line management. However, most companies are not effectively utilizing the vast amount of sensor data collected every second. This study aims to use this data to predict product quality and manage production processes efficiently. Due to security issues, specific sensor data could not be verified, so semiconductor process-related training data from the "SAMSUNG SDS Brightics AI" site was used. Data preprocessing, including removing missing values, outliers, scaling, and feature elimination, was crucial for optimal sensor data. Oversampling was used to balance the imbalanced training dataset. The SVM (rbf) model achieved high performance (Accuracy: 97.07%, GM: 96.61%), surpassing the MLP model implemented by "SAMSUNG SDS Brightics AI". This research can be applied to various topics, such as predicting component lifecycles and process conditions.
Machine Learning,Preprocessing Methods,Semiconductor Process Data,Smart Factory