조회수 4,615회 2026. 3. 15. #vllm #ollama #llm
Ollama를 뛰어넘는 괴물 같은 오픈소스 vLLM! 🚀
이번 영상에서는 Ollama 대비 TPS가 약 19배 높고, 응답 속도는 8배나 빠른 강력한 오픈소스 'vLLM'을 소개합니다.
vLLM의 핵심 기술인 PagedAttention과 Continuous Batching의 원리에 대해 알기 쉽게 살펴보고,
마지막으로 동일한 모델 환경에서 Ollama와 vLLM의 실제 추론 속도를 비교한 테스트 결과까지 전달해 드립니다.
⏱️ Timestamps (타임스탬프)
0:00 - 인트로: Ollama를 압도한 vLLM
0:42 - vLLM 프로젝트 소개
1:44 - vLLM의 핵심 기술 1: PagedAttention
4:13 - vLLM의 핵심 기술 2: Continuous Batching
5:10 - 추론 성능 비교: Ollama vs vLLM
6:58 - 마무리 (+ 개인적인 생각)
📑 Reference
vLLM 공식 GitHub
https://github.com/vllm-project/vllm
Qwen3-8B 양자화 모델 (HuggingFace)
https://huggingface.co/Qwen/Qwen3-8B-AWQ
vLLM의 PagedAttention 논문
https://arxiv.org/abs/2309.06180
Ollama와 vLLM 비교: 성능 벤치마킹 심층 분석 자료 (RedHat)
https://developers.redhat.com/article...
vLLM 개발자 '권우석' 박사님 프로필
https://woosuk.me/
NVIDIA-supported vLLM
https://docs.nvidia.com/deeplearning/...
AMD-supported vLLM
https://www.amd.com/ko/developer/reso...
vLLM 설치 명령어 정리
https://weirdeveloper.notion.site/vLL...
테스트 코드
https://github.com/weirdeveloper/llm-...