#LLM 서빙
1개 글
Ollama만 쓸까, vLLM까지 볼까 — 로컬 LLM 추론 엔진 선택 기준
Ollama와 vLLM을 로컬 LLM 실행, 병렬 요청 처리, PagedAttention, OpenAI 호환 서버 관점에서 비교하고 개인·팀이 언제 vLLM을 검토해야 하는지 정리했다.
1개 글
Ollama와 vLLM을 로컬 LLM 실행, 병렬 요청 처리, PagedAttention, OpenAI 호환 서버 관점에서 비교하고 개인·팀이 언제 vLLM을 검토해야 하는지 정리했다.