LLM/SLM 추론 GPU/CPU API 호환

추론 서빙 (Inference Serving)

Llama 등 오픈 LLM부터 사내 파인튜닝 모델까지. 낮은 지연, 높은 처리량, 간편한 엔드포인트로 운영 부담 없이 서비스에 바로 연결하세요. 요금은 별도문의로 안내합니다.

⚡ 초저지연·고처리

연속 배칭·KV 캐시·FlashAttention·Speculative Decoding으로 토큰/초 최대화.

🔁 버저닝/트래픽 분할

A/B·카나리·가중치 라우팅으로 안전한 출시와 롤백.

🔌 API 호환

OpenAI 호환 REST·SSE·gRPC. SDK 없이도 cURL로 바로 호출.

🧱 프라이버시

조직 격리, 네트워크 정책, 감사로그 연동. PII 마스킹·프롬프트 가드.

엔진/런타임 비교

엔진	용도	장점	주의
vLLM	텍스트/채팅 LLM	연속 배칭·Paged KV·OpenAI 호환 쉬움	특수 커스텀 연산 최적화는 제한적
TensorRT-LLM	GPU 초고속 디코딩	INT4/8 양자화, 고성능	엔진 빌드/모델 변환 필요
Text Generation Inference (TGI)	Hugging Face 계열	다양한 모델 호환, 쉬운 배포	엔진별 기능 차이
NVIDIA Triton	멀티프레임워크 서빙	엔상블/배칭 유연	초기 구성 복잡
OpenVINO/ONNX Runtime	CPU/엣지	경량·저전력	대형 모델 성능 한계
* 모델·지연 목표·예산에 따라 조합 권장.

성능/최적화 체크리스트

기술	설명	비고
연속 배칭	다중 요청 실시간 합쳐 처리량 증가	지연/처리량 균형 튜닝
KV 캐시	프롬프트 토큰 재사용으로 디코딩 가속	Paged/오프로드 정책
양자화	INT8/INT4(AWQ/GPTQ)로 메모리 절감	정확도-속도 트레이드오프
Speculative Decoding	초안 모델+검증 모델로 TPS 향상	SLM 보조 모델 필요
텐서/파이프 병렬	멀티-GPU 분산	토폴로지/링크 대역폭 고려
프롬프트 캐시	템플릿·시스템 프롬프트 캐싱	버전 고정 필수

엔드포인트/배포 전략

단일/다중 버전 — /v1/chat/completions 버저닝, 호환 API.

A/B·카나리 — 가중치(예: 90/10 → 50/50)로 점진 전환.

오토스케일 — RPS·TPS·큐 길이 기반 수평 확장.

리전/엣지 — 엣지 프록시로 지연 단축, 지역 격리.

모델 레지스트리 — 핀 아트팩트, 롤백 즉시.

비용 최적화 — 혼합 인스턴스, 야간 스케일인.

엔드포인트 설정 예시(JSON)

{
  "name": "llama-3-8b-instruct",
  "engine": "vllm",
  "model_uri": "registry:gaon/llama-3-8b-instruct",
  "quant": "awq-int4",
  "tensor_parallel": 2,
  "max_tokens": 1024,
  "batch_max_tokens": 8192,
  "scheduler": "tokens_per_second",
  "rate_limits": {"rps": 50, "tps": 2000},
  "logging": {"sample": 0.05},
  "guardrails": {"pii_mask": true, "denylist": ["ssn", "credit_card"]}
}

배포 예시(YAML)

apiVersion: apps/v1
kind: Deployment
metadata: { name: gaon-llm }
spec:
  replicas: 2
  selector: { matchLabels: { app: gaon-llm } }
  template:
    metadata: { labels: { app: gaon-llm } }
    spec:
      nodeSelector: { accelerator: gpu }
      containers:
      - name: vllm
        image: ghcr.io/vllm-project/vllm-server:latest
        args: ["--model", "registry:gaon/llama-3-8b-instruct", "--tensor-parallel-size", "2"]
        ports: [{ containerPort: 8000 }]
        resources:
          limits: { nvidia.com/gpu: 1, cpu: "8", memory: "32Gi" }
        env:
        - { name: GAON_API_KEY, valueFrom: { secretKeyRef: { name: gaon-keys, key: api } } }

보안/거버넌스

영역	항목	설명
인증/인가	API Key, OAuth/JWT, 역할 기반	IAM(사용자/역할/정책) 연동, 프로젝트 격리
네트워크	보안그룹/ACL, 전용선/VPN	IP 허용목록, 레이트 제한
데이터	프롬프트/응답 암호화	Secrets Manager로 키/자격 증명 관리
거버넌스	감사로그	모델/프롬프트/정책 변경 추적

관측/모니터링

지표	범위	설명
지연 p50/p95/p99	엔드포인트/모델/리전	프롬프트·토큰 수 상관 분석
토큰/초(TPS), RPS	노드/풀	배칭/큐 튜닝 기준
오류율	HTTP/gRPC/엔진	429/5xx, OOM, 타임아웃
프롬프트 샘플	정책 기반	PII 마스킹 후 보관

샘플 로그(JSON)

{"ts":"2025-09-01T12:00:01Z","endpoint":"chat-completions","model":"llama-3-8b","latency_ms":182,"input_tokens":134,"output_tokens":256,"status":200,"trace_id":"c9f..."}

cURL (SSE 스트리밍)

curl -N https://api.gaon.example/v1/chat/completions \
 -H "Authorization: Bearer $GAON_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{
  "model":"llama-3-8b-instruct",
  "messages":[{"role":"user","content":"안녕!"}],
  "stream":true,
  "temperature":0.2,
  "max_tokens":256
}'

Python (requests)

import requests, json
url = "https://api.gaon.example/v1/chat/completions"
headers = {"Authorization": f"Bearer {GAON_API_KEY}", "Content-Type":"application/json"}
body = {
  "model": "llama-3-8b-instruct",
  "messages": [{"role":"user","content":"성능을 높이는 법?"}],
  "temperature": 0.3,
  "max_tokens": 256
}
res = requests.post(url, headers=headers, data=json.dumps(body), timeout=60)
print(res.json())

JavaScript (Fetch + ReadableStream)

const res = await fetch("https://api.gaon.example/v1/chat/completions",{
  method:"POST",
  headers:{"Authorization":`Bearer ${GAON_API_KEY}","Content-Type":"application/json"},
  body: JSON.stringify({ model:"llama-3-8b-instruct", stream:true, messages:[{role:"user",content:"요약해줘"}] })
});
const reader = res.body.getReader();
const dec = new TextDecoder();
while(true){ const {value, done} = await reader.read(); if(done) break; console.log(dec.decode(value)); }

요금 안내

요금: 별도문의

모델 크기/수량, GPU 타입/수량, 지역, 예상 RPS·TPS, 네트워크 이그레스, 보관/관측 옵션에 따라 산정합니다.

빠른 추론 API, 지금 시작하세요

모델·지연 목표·예산만 알려주시면 최적 구성을 제안합니다.

빠르고 간단한 호스팅

개발자를 위한 플랫폼

디도스방어존

추론 서빙

추론 서빙 (Inference Serving)