:: The Journal of the Institute of Internet, Broadcasting and Communication ::, Vol.24 No.3 | (2024) pp.63~67

유전 알고리즘을 이용한 클라우드 환경의 인공지능 워크로드 스케줄링

Seokmin Kwon

(정회원, 이화여자대학교 컴퓨터공학과)

Hyokyung Bahn

(정회원, 이화여자대학교 컴퓨터공학과)

Abstract

최근 스마트 물류, 핀테크, 엔터테인먼트 등 다양한 산업 분야의 인공지능 워크로드들이 클라우드 상에서 실행되 고 있다. 본 논문은 이기종 GPU 클러스터로 구성된 다중 테넌트 클라우드 시스템에서 다양한 인공지능 워크로드가 실행 될 때 발생하는 스케줄링 문제를 다룬다. 전통적인 스케줄링은 이러한 환경에서 GPU 이용률을 크게 저하시켜 시스템의 성능을 떨어뜨린다. 이러한 문제를 해결하기 위해, 본 논문에서는 유전 알고리즘 기반의 최적화 기법을 사용하는 새로운 스케줄링 접근 방식을 제안하고, 이를 프로세스 기반 이벤트 시뮬레이션 프레임워크에 구현하였다. 알리바바의 MLaaS 클러스터에서 수집한 광범위한 인공지능 작업들의 트레이스를 재현하는 실험을 통해 제안하는 스케줄링이 기존 스케줄 링에 비해 GPU 이용률을 크게 개선함을 확인하였다.
Recently, artificial intelligence (AI) workloads encompassing various industries such as smart logistics, FinTech, and entertainment are being executed on the cloud. In this paper, we address the scheduling issues of various AI workloads on a multi-tenant cloud system composed of heterogeneous GPU clusters. Traditional scheduling decreases GPU utilization in such environments, degrading system performance significantly. To resolve these issues, we present a new scheduling approach utilizing genetic algorithm-based optimization techniques, implemented within a process-based event simulation framework. Trace driven simulations with diverse AI workload traces collected from Alibaba’s MLaaS cluster demonstrate that the proposed scheduling improves GPU utilization compared to conventional scheduling significantly.
  task scheduling,artificial intelligence,machine learning,cloud,genetic algorithm

Download PDF List