:: The Journal of the Institute of Internet, Broadcasting and Communication ::, Vol.25 No.2 | (2025) pp.69~75
컨테이너 환경에서 딥러닝 워크로드의 성능 분석
Abstract
최근 딥러닝 워크로드가 컨테이너 환경에서 실행되는 사례가 늘고 있다. 컨테이너는 가상머신에 비해 낮은 오버 헤드와 높은 이식성을 제공하지만, 딥러닝 워크로드의 실행 시 시스템 자원의 비효율적 활용 문제가 발생할 수 있다. 본 논문에서는 컨테이너 환경에서 딥러닝 워크로드 실행으로 인한 오버헤드와 비효율성을 분석하기 위해 시스템콜 및 이벤트 추적 트레이스를 수집 및 분석하였다. 특히, 동일한 워크로드를 호스트 머신에서 직접 실행한 경우와 컨테이너 환경에서 실행한 경우를 비교하여 자원 소비 및 간섭과 관련된 컨테이너 환경의 오버헤드를 정량적으로 확인하였다. 분 석 결과 딥러닝 워크로드의 컨테이너 실행 시 성능 병목을 초래하는 주요 원인으로 주기적인 스토리지 플러시 작업이 확인되었으며, 다중 테넌트 환경에서는 자원 경합으로 인해 이러한 문제가 더욱 심화됨을 확인하였다. 본 연구의 결과는 컨테이너 환경에서 딥러닝 워크로드를 효율적으로 실행하기 위한 클라우드 및 엣지 시스템 설계에 중요한 인사이트를 제공할 수 있을 것으로 기대된다.
The execution of deep learning workloads in containerized environments has become increasingly common. While containers offer lower overhead and greater portability compared to virtual machines, they may lead to inefficiencies in system resource utilization during workload execution. This paper investigates the overhead and inefficiencies associated with containerized execution of deep learning workloads by collecting and analyzing system call and event traces. In particular, a comparative analysis was conducted to quantitatively evaluate the overheads related to resource consumption and interference by executing identical workloads directly on the host machine and within a containerized environment. The analysis identifies periodic storage flush operations as a key source of performance bottlenecks in containerized deep learning workloads. Furthermore, it was observed that resource contention exacerbates these issues in multi-tenant environments. The findings of this study are expected to provide valuable insights for designing cloud and edge systems to optimize the execution of deep learning workloads in containerized environments.
container,deep learning,performance,virtualization,workload