We are looking for the best
42dot의 AI 데이터 파이프라인 엔지니어는 전 세계에서 수집되는 데이터를 처리하고 관리하는 글로벌 데이터 파이프라인을 설계하고 확장합니다. 페타바이트(PB)급 데이터를 대규모 GPU 인프라에 안정적으로 전달하여, 핵심적인 AI 워크로드를 가동하는 고처리량 시스템을 구축하고 운영하게 됩니다.
At 42dot, our AI Data Pipeline Engineer architect and scale global data pipelines that ingest and process data from worldwide sources. You will design and operate high-throughput systems to reliably deliver petabyte-scale data to our large-scale GPU infrastructure, powering mission-critical AI workloads.
Responsibilities
다양한 AI 및 머신러닝 프로젝트를 지원하기 위한 고성능·고확장성 데이터 파이프라인 설계 및 구축
글로벌 데이터 가용성 및 원활한 동기화를 위한 멀티 리전(Multi-region) 데이터 인프라 아키텍처 설계 및 구현
여러 AI 프로젝트를 동시 지원할 수 있도록 복잡한 브랜칭 및 로직 격리가 가능한 유연한 파이프라인 아키텍처 개발
Databricks 및 Spark를 활용한 대규모 데이터 처리 워크로드 최적화(처리량 극대화 및 비용 최소화)
Kubernetes 기반 컨테이너 데이터 환경 유지 보수 및 고도화로 데이터 워크로드의 안정적 실행 보장
AI 리서처 및 플랫폼 팀과 협업하여 고품질 데이터를 학습 및 평가 파이프라인으로 효율적으로 공급
Design and build high-performance, scalable data pipelines to support diverse AI and Machine Learning initiatives across the organization.
Architect and implement multi-region data infrastructure to ensure global data availability and seamless synchronization.
Develop flexible pipeline architectures that allow for complex branching and logic isolation to support multiple concurrent AI projects.
Optimize large-scale data processing workloads using Databricks and Spark to maximize throughput and minimize processing costs.
Maintain and evolve the containerized data environment on Kubernetes, ensuring robust and reliable execution of data workloads.
Collaborate with AI researchers and platform teams to streamline the flow of high-quality data into training and evaluation pipelines.
Qualifications
대규모 AI/ML 데이터셋을 위한 프로덕션급 데이터 파이프라인 구축 및 운영 경험
Apache Spark 및 Databricks 생태계 등 분산 처리 프레임워크에 대한 높은 숙련도
Apache Airflow 등 워크플로우 오케스트레이션 도구를 활용한 복잡한 의존성 관리 및 실무 경험
Kubernetes 및 컨테이너 기술을 활용한 데이터 처리 컴포넌트 배포 및 확장 능력
Apache Kafka 등 분산 메시징 시스템을 활용한 고처리량 데이터 수집 및 이벤트 기반 아키텍처 이해
Python을 활용한 시스템 레벨 최적화 및 수준 높은 프로그래밍 역량
보안과 확장성을 고려한 클라우드 네이티브 서비스 및 인프라 구축 best practices에 대한 이해
복잡하고 거대한 시스템에서 근본 원인을 찾아 해결하는 논리적인 문제 해결 능력
다양한 유관 부서 및 파트너와 원활하게 소통할 수 있는 커뮤니케이션 역량
Extensive professional experience in building and operating production-grade data pipelines for massive-scale AI/ML datasets.
Strong proficiency in distributed processing frameworks, particularly Apache Spark and the Databricks ecosystem.
Deep hands-on experience with workflow orchestration tools like Apache Airflow for managing complex dependency graphs.
Solid understanding of Kubernetes and containerization for deploying and scaling data processing components.
Proficiency in distributed messaging systems such as Apache Kafka for high-throughput data ingestion and event-driven architectures.
Expert-level programming skills in Python for system-level optimizations.
Strong knowledge of cloud-native services and best practices for building secure and scalable data infrastructure.
Logical approach to problem-solving with the persistence to identify and resolve root causes in complex, large-scale systems.
Strong communication skills to effectively collaborate with cross-functional teams and external partners.
Preferred Qualifications
글로벌 멀티 리전 파이프라인 설계 및 국가 간 데이터 전송/지연 시간(Latency) 이슈 해결 경험
Ray 등 AI 워크로드를 위한 분산 컴퓨팅 프레임워크 구현 경험 또는 깊은 관심
Spark Streaming 또는 Flink를 이용한 실시간/준실시간(Near real-time) 파이프라인 구축 경험
Terraform 등 Infrastructure as Code(IaC) 도구를 활용한 복잡한 데이터 환경 관리 경험
전체 ML 생애주기(MLOps) 및 데이터 인프라가 모델 실험과 배포를 지원하는 메커니즘에 대한 이해
Experience in architecting global, multi-region data pipelines and solving challenges related to cross-border data transfer and latency.
Practical experience or a strong interest in implementing distributed computing frameworks like Ray for AI workloads.
Experience in building real-time or near-real-time pipelines using Spark Streaming or Flink.
Familiarity with Infrastructure as Code (IaC) tools such as Terraform to manage complex data environments.
Understanding of the end-to-end ML lifecycle (MLOps) and how data infrastructure supports model experimentation and deployment.
Interview Process
서류전형 - 코딩테스트 - 화상면접 (1시간 내외) - 대면 혹은 화상면접 (3시간 내외) - 최종합격
전형절차는 직무별로 다르게 운영될 수 있으며, 일정 및 상황에 따라 변동될 수 있습니다.
전형일정 및 결과는 지원서에 등록하신 이메일로 개별 안내드립니다.
Resume Screening - Coding Test - Virtual Interview (approximately 1 hour) - Onsite or Virtual Interview (approximately 3 hours) - Final Offer
Please note that the interview process may vary depending on the position and is subject to change based on scheduling and other circumstances.
Interview schedules and results will be communicated individually via the email address provided in your application.
Additional Information
모든 제출파일은 PDF 양식으로 업로드를 부탁드립니다.
국가보훈대상자 및 취업보호대상자는 관계법령에 따라 우대합니다.
장애인 고용촉진 및 직업재활법에 따라 장애인 등록증 소지자를 우대합니다.
42dot은 의뢰하지 않은 서치펌의 이력서를 받지 않으며, 요청하지 않은 이력서에 대해 수수료를 지불하지 않습니다.
Please upload all required documents in PDF format.
Veterans and applicants eligible for employment protection will receive preferential consideration in accordance with applicable laws and regulations.
In compliance with the Act on Employment Promotion and Vocational Rehabilitation for Persons with Disabilities, registered individuals with disabilities will receive preferential consideration.
42dot does not accept unsolicited resumes from search firms. We will not pay any fees for resumes submitted without prior agreement.
※ 지원 전 아래 내용을 꼭 확인해 주세요.
※ Please make sure to review the information below before applying.
42dot이 일하는 방식, 42dot Way 보러가기 →
Learn more about how we work at 42dot, 42dot Way →
42dot만의 업무몰입 프로그램, Employee Engagement Program 보러가기 →
Explore 42dot’s unique Employee Engagement Program, Employee Engagement Program →