홍부장의 리서치노트

#로컬 LLM

4개 글

AI·업무운영 · 2026-05-18

SGLang은 vLLM보다 빠를까 — 로컬 LLM 서빙 엔진 선택 기준

SGLang, vLLM, Ollama를 RadixAttention, PagedAttention, OpenAI 호환 API, 설치 난이도, 운영 리스크 관점에서 비교하고 로컬 LLM 서버 도입 기준을 정리했다.

AI·업무운영 · 2026-05-17

맥 스튜디오를 지금 살까, M5를 기다릴까 — 로컬 LLM·바이브 코딩 서버 관점의 구매 판단법

로컬 LLM, 바이브 코딩, 개인 서버 운영을 위해 Mac Studio를 고민할 때 M4 Max·M3 Ultra·M5 대기·중고 구매를 어떻게 판단해야 하는지 정리한 실전 가이드.

AI·업무운영 · 2026-05-12

나만의 LLM Wiki 구축 전략: 로컬 LLM·RAG·노트·업무지식을 연결하는 실전 설계도

M5 프로맥스 128GB급 로컬 환경에서 LLM Wiki를 구축하려는 사람을 위해 노트 구조, RAG, 벡터DB, 로컬 LLM, 문서 수집, 보안, 운영 루틴까지 심층 분석했습니다.

AI·업무운영 · 2026-05-06

Ollama만 쓸까, vLLM까지 볼까 — 로컬 LLM 추론 엔진 선택 기준

Ollama와 vLLM을 로컬 LLM 실행, 병렬 요청 처리, PagedAttention, OpenAI 호환 서버 관점에서 비교하고 개인·팀이 언제 vLLM을 검토해야 하는지 정리했다.