June 10, 2026
Helion으로 작성한 이식 가능한 vLLM 모델 추론 커널
TL;DR Qwen3 모델을 사용하는 FP8 추론(inference)을 위해 Helion 커널을 vLLM에 통합하고, NVIDIA H100과 B200 GPU에서 평가했습니다. 실험 결과, Helion은 양자화(quantization), 정규화(normalization), 그리고 융합이 많은(fusion-heavy) 추론 커널 다수에서 성능을 끌어올리면서도, 융합형 GPU 커널을 개발하는 데 생산적인 PyTorch 네이티브 워크플로우를 제공한다는 점이 드러났습니다. 엔드투엔드(end-to-end) 벤치마크에서는 여러 서빙 시나리오에 걸쳐 처리량(throughput) 향상이 확인되었으며,...
June 01, 2026
LinkedIn은 PyTorch로 어떻게 극단적 규모의 최적화 문제를 푸는가
요약(TL;DR): 이 사례 연구는 LinkedIn이 분산 선형 계획법(linear programming) 솔버인 DuaLip을 GPU로 가속한 PyTorch 버전으로 개발하여, 웹 애플리케이션과 같은 극단적 규모의 최적화 과제를 다루기 위해 어떻게 재설계했는지를 보여줍니다. CPU에 묶여 있던 기존 스택에서 벗어난 이번 전환으로 자릿수 단위의 속도 향상과 효율적인 멀티 GPU 확장을 달성하는 동시에 엔지니어링 부담도 줄였습니다. TL;DR:...
May 27, 2026
PyTorch Compile은 어떻게 이렇게 빠를까: 커널 융합(Kernel Fusion)
PyTorch의 컴파일러를 사용하면 모델이 최대 10배까지 빠르게 실행됩니다. 그런데 실제로 무슨 일이 일어나는 걸까요? 컴파일을 하지 않으면 GPU는 코드에 있는 각 torch 연산마다 커널(kernel), 즉 GPU에서 동작하는 함수를 실행합니다. 이로 인해 두 가지 큰 속도 저하가 발생합니다. 메모리에서 데이터를 옮기는 데 드는 시간과, 매번 새로운 커널을 시작할 때 드는 오버헤드입니다....
May 19, 2026
vLLM과 PyTorch가 함께 만든 aarch64에서의 더 나은 개발자 경험
TL;DR: PyTorch 2.11부터는 aarch64 Linux에서도 PyPI를 통해 CUDA가 활성화된 PyTorch 휠(wheel)을 곧바로 설치할 수 있게 되었습니다. 이로써 NVIDIA GH200, GB200, GB300 등의 시스템에 배포할 때 그동안 발목을 잡아왔던 별도의 패키지 인덱스나 우회 방법(workaround)이 더 이상 필요하지 않습니다. 이 글에서는 Kaichao You(Inferact)가 이번 패키징 변경이 vLLM 사용자의 설치 경험을 어떻게 개선하는지...
May 18, 2026
ExecuTorch MLX 델리게이트로 Apple Silicon GPU에서 PyTorch 모델 실행하기
TL;DR: ExecuTorch MLX 델리게이트 소개 / TL;DR: Introducing the ExecuTorch MLX Delegate 새로운 MLX 델리게이트는 Apple의 MLX 프레임워크를 사용해 Apple Silicon Mac에서 PyTorch 모델의 GPU 가속 추론(inference)을 최적화된 형태로 수행할 수 있게 합니다. 이 델리게이트는 PyTorch 2 export 스택과 매끄럽게 통합되며, 다양한 양자화(quantization) 옵션(BF16, FP16, FP32, 2/4/8비트 affine, NVFP4)을 지원합니다....
May 13, 2026
PyTorch 2.12 출시 공지
PyTorch 2.12(릴리즈 노트)의 출시를 발표하게 되어 기쁩니다! We are excited to announce the release of PyTorch® 2.12 (release notes)! PyTorch 2.12 릴리즈에는 다음과 같은 변경 사항이 포함되어 있습니다: The PyTorch 2.12 release features the following changes: CUDA에서의 배치 linalg.eigh가 cuSolver 백엔드 선택 방식 개선으로 최대 100배 빨라졌습니다 새로운 torch.accelerator.Graph API가...
April 30, 2026
LLM 서빙에서 CPU를 GPU로부터 분리해야 하는 이유
시작: 대규모에서 GIL 벽에 부딪히다 / How It Started: Hitting the GIL Wall at Scale 프로덕션 모델 서빙을 수년간 운영해왔습니다. Shepherd Model Gateway를 처음 만들기 시작했을 때 목표는 소박했습니다. 캐시 인식(cache-aware) 부하 분산이 추론 복제본(replica) 간 라우팅을 개선할 수 있을지 알아보는 것이었습니다. We’ve been running production model serving for many...