조회수 4,615회 2026. 3. 15. #vllm #ollama #llm
Ollama를 뛰어넘는 괴물 같은 오픈소스 vLLM! 🚀

이번 영상에서는 Ollama 대비 TPS가 약 19배 높고, 응답 속도는 8배나 빠른 강력한 오픈소스 'vLLM'을 소개합니다.
vLLM의 핵심 기술인 PagedAttention과 Continuous Batching의 원리에 대해 알기 쉽게 살펴보고,
마지막으로 동일한 모델 환경에서 Ollama와 vLLM의 실제 추론 속도를 비교한 테스트 결과까지 전달해 드립니다.

⏱️ Timestamps (타임스탬프)

0:00 - 인트로: Ollama를 압도한 vLLM
0:42 - vLLM 프로젝트 소개
1:44 - vLLM의 핵심 기술 1: PagedAttention
4:13 - vLLM의 핵심 기술 2: Continuous Batching
5:10 - 추론 성능 비교: Ollama vs vLLM
6:58 - 마무리 (+ 개인적인 생각)

📑 Reference

vLLM 공식 GitHub
https://github.com/vllm-project/vllm

Qwen3-8B 양자화 모델 (HuggingFace)
https://huggingface.co/Qwen/Qwen3-8B-AWQ

vLLM의 PagedAttention 논문
https://arxiv.org/abs/2309.06180

Ollama와 vLLM 비교: 성능 벤치마킹 심층 분석 자료 (RedHat)
https://developers.redhat.com/article...

vLLM 개발자 '권우석' 박사님 프로필
https://woosuk.me/

NVIDIA-supported vLLM
https://docs.nvidia.com/deeplearning/...

AMD-supported vLLM
https://www.amd.com/ko/developer/reso...

vLLM 설치 명령어 정리
https://weirdeveloper.notion.site/vLL...

테스트 코드
https://github.com/weirdeveloper/llm-...

vllm #ollama #llm #opensource #ai #오픈소스

vLLM

vllm #ollama #llm #opensource #ai #오픈소스

평가 & 리뷰

댓글 (0)

전체 메뉴

로그인이 필요합니다

서비스