연속 배칭·KV 캐시·FlashAttention·Speculative Decoding으로 토큰/초 최대화.
LLM/SLM 추론
GPU/CPU
API 호환
추론 서빙 (Inference Serving)
Llama 등 오픈 LLM부터 사내 파인튜닝 모델까지. 낮은 지연, 높은 처리량, 간편한 엔드포인트로 운영 부담 없이 서비스에 바로 연결하세요. 요금은 별도문의로 안내합니다.
A/B·카나리·가중치 라우팅으로 안전한 출시와 롤백.
OpenAI 호환 REST·SSE·gRPC. SDK 없이도 cURL로 바로 호출.
조직 격리, 네트워크 정책, 감사로그 연동. PII 마스킹·프롬프트 가드.
엔진/런타임 비교
| 엔진 | 용도 | 장점 | 주의 |
|---|---|---|---|
| vLLM | 텍스트/채팅 LLM | 연속 배칭·Paged KV·OpenAI 호환 쉬움 | 특수 커스텀 연산 최적화는 제한적 |
| TensorRT-LLM | GPU 초고속 디코딩 | INT4/8 양자화, 고성능 | 엔진 빌드/모델 변환 필요 |
| Text Generation Inference (TGI) | Hugging Face 계열 | 다양한 모델 호환, 쉬운 배포 | 엔진별 기능 차이 |
| NVIDIA Triton | 멀티프레임워크 서빙 | 엔상블/배칭 유연 | 초기 구성 복잡 |
| OpenVINO/ONNX Runtime | CPU/엣지 | 경량·저전력 | 대형 모델 성능 한계 |
| * 모델·지연 목표·예산에 따라 조합 권장. | |||
성능/최적화 체크리스트
| 기술 | 설명 | 비고 |
|---|---|---|
| 연속 배칭 | 다중 요청 실시간 합쳐 처리량 증가 | 지연/처리량 균형 튜닝 |
| KV 캐시 | 프롬프트 토큰 재사용으로 디코딩 가속 | Paged/오프로드 정책 |
| 양자화 | INT8/INT4(AWQ/GPTQ)로 메모리 절감 | 정확도-속도 트레이드오프 |
| Speculative Decoding | 초안 모델+검증 모델로 TPS 향상 | SLM 보조 모델 필요 |
| 텐서/파이프 병렬 | 멀티-GPU 분산 | 토폴로지/링크 대역폭 고려 |
| 프롬프트 캐시 | 템플릿·시스템 프롬프트 캐싱 | 버전 고정 필수 |
엔드포인트/배포 전략
단일/다중 버전 — /v1/chat/completions 버저닝, 호환 API.
A/B·카나리 — 가중치(예: 90/10 → 50/50)로 점진 전환.
오토스케일 — RPS·TPS·큐 길이 기반 수평 확장.
리전/엣지 — 엣지 프록시로 지연 단축, 지역 격리.
모델 레지스트리 — 핀 아트팩트, 롤백 즉시.
비용 최적화 — 혼합 인스턴스, 야간 스케일인.
엔드포인트 설정 예시(JSON)
{
"name": "llama-3-8b-instruct",
"engine": "vllm",
"model_uri": "registry:gaon/llama-3-8b-instruct",
"quant": "awq-int4",
"tensor_parallel": 2,
"max_tokens": 1024,
"batch_max_tokens": 8192,
"scheduler": "tokens_per_second",
"rate_limits": {"rps": 50, "tps": 2000},
"logging": {"sample": 0.05},
"guardrails": {"pii_mask": true, "denylist": ["ssn", "credit_card"]}
}
배포 예시(YAML)
apiVersion: apps/v1
kind: Deployment
metadata: { name: gaon-llm }
spec:
replicas: 2
selector: { matchLabels: { app: gaon-llm } }
template:
metadata: { labels: { app: gaon-llm } }
spec:
nodeSelector: { accelerator: gpu }
containers:
- name: vllm
image: ghcr.io/vllm-project/vllm-server:latest
args: ["--model", "registry:gaon/llama-3-8b-instruct", "--tensor-parallel-size", "2"]
ports: [{ containerPort: 8000 }]
resources:
limits: { nvidia.com/gpu: 1, cpu: "8", memory: "32Gi" }
env:
- { name: GAON_API_KEY, valueFrom: { secretKeyRef: { name: gaon-keys, key: api } } }
보안/거버넌스
| 영역 | 항목 | 설명 |
|---|---|---|
| 인증/인가 | API Key, OAuth/JWT, 역할 기반 | IAM(사용자/역할/정책) 연동, 프로젝트 격리 |
| 네트워크 | 보안그룹/ACL, 전용선/VPN | IP 허용목록, 레이트 제한 |
| 데이터 | 프롬프트/응답 암호화 | Secrets Manager로 키/자격 증명 관리 |
| 거버넌스 | 감사로그 | 모델/프롬프트/정책 변경 추적 |
관측/모니터링
| 지표 | 범위 | 설명 |
|---|---|---|
| 지연 p50/p95/p99 | 엔드포인트/모델/리전 | 프롬프트·토큰 수 상관 분석 |
| 토큰/초(TPS), RPS | 노드/풀 | 배칭/큐 튜닝 기준 |
| 오류율 | HTTP/gRPC/엔진 | 429/5xx, OOM, 타임아웃 |
| 프롬프트 샘플 | 정책 기반 | PII 마스킹 후 보관 |
샘플 로그(JSON)
{"ts":"2025-09-01T12:00:01Z","endpoint":"chat-completions","model":"llama-3-8b","latency_ms":182,"input_tokens":134,"output_tokens":256,"status":200,"trace_id":"c9f..."}
cURL (SSE 스트리밍)
curl -N https://api.gaon.example/v1/chat/completions \
-H "Authorization: Bearer $GAON_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"model":"llama-3-8b-instruct",
"messages":[{"role":"user","content":"안녕!"}],
"stream":true,
"temperature":0.2,
"max_tokens":256
}'
Python (requests)
import requests, json
url = "https://api.gaon.example/v1/chat/completions"
headers = {"Authorization": f"Bearer {GAON_API_KEY}", "Content-Type":"application/json"}
body = {
"model": "llama-3-8b-instruct",
"messages": [{"role":"user","content":"성능을 높이는 법?"}],
"temperature": 0.3,
"max_tokens": 256
}
res = requests.post(url, headers=headers, data=json.dumps(body), timeout=60)
print(res.json())
JavaScript (Fetch + ReadableStream)
const res = await fetch("https://api.gaon.example/v1/chat/completions",{
method:"POST",
headers:{"Authorization":`Bearer ${GAON_API_KEY}","Content-Type":"application/json"},
body: JSON.stringify({ model:"llama-3-8b-instruct", stream:true, messages:[{role:"user",content:"요약해줘"}] })
});
const reader = res.body.getReader();
const dec = new TextDecoder();
while(true){ const {value, done} = await reader.read(); if(done) break; console.log(dec.decode(value)); }
요금 안내
요금: 별도문의
모델 크기/수량, GPU 타입/수량, 지역, 예상 RPS·TPS, 네트워크 이그레스, 보관/관측 옵션에 따라 산정합니다.
빠른 추론 API, 지금 시작하세요
모델·지연 목표·예산만 알려주시면 최적 구성을 제안합니다.
추론 서빙 상담
ℹ️
개인정보 처리 안내
문의 응대를 위해서만 사용되며 일정 기간 후 파기됩니다.