| GaonIT Cloud — 호스팅 & 클라우드
가온IT

추론 서빙

개발자가 사랑하는 호스팅 & 클라우드. 지금 바로 시작하세요.

LLM/SLM 추론 GPU/CPU API 호환

추론 서빙 (Inference Serving)

Llama 등 오픈 LLM부터 사내 파인튜닝 모델까지. 낮은 지연, 높은 처리량, 간편한 엔드포인트로 운영 부담 없이 서비스에 바로 연결하세요. 요금은 별도문의로 안내합니다.

⚡ 초저지연·고처리
연속 배칭·KV 캐시·FlashAttention·Speculative Decoding으로 토큰/초 최대화.
🔁 버저닝/트래픽 분할
A/B·카나리·가중치 라우팅으로 안전한 출시와 롤백.
🔌 API 호환
OpenAI 호환 REST·SSE·gRPC. SDK 없이도 cURL로 바로 호출.
🧱 프라이버시
조직 격리, 네트워크 정책, 감사로그 연동. PII 마스킹·프롬프트 가드.
엔진/런타임 비교
엔진 용도 장점 주의
vLLM 텍스트/채팅 LLM 연속 배칭·Paged KV·OpenAI 호환 쉬움 특수 커스텀 연산 최적화는 제한적
TensorRT-LLM GPU 초고속 디코딩 INT4/8 양자화, 고성능 엔진 빌드/모델 변환 필요
Text Generation Inference (TGI) Hugging Face 계열 다양한 모델 호환, 쉬운 배포 엔진별 기능 차이
NVIDIA Triton 멀티프레임워크 서빙 엔상블/배칭 유연 초기 구성 복잡
OpenVINO/ONNX Runtime CPU/엣지 경량·저전력 대형 모델 성능 한계
* 모델·지연 목표·예산에 따라 조합 권장.
성능/최적화 체크리스트
기술 설명 비고
연속 배칭 다중 요청 실시간 합쳐 처리량 증가 지연/처리량 균형 튜닝
KV 캐시 프롬프트 토큰 재사용으로 디코딩 가속 Paged/오프로드 정책
양자화 INT8/INT4(AWQ/GPTQ)로 메모리 절감 정확도-속도 트레이드오프
Speculative Decoding 초안 모델+검증 모델로 TPS 향상 SLM 보조 모델 필요
텐서/파이프 병렬 멀티-GPU 분산 토폴로지/링크 대역폭 고려
프롬프트 캐시 템플릿·시스템 프롬프트 캐싱 버전 고정 필수
엔드포인트/배포 전략
단일/다중 버전 — /v1/chat/completions 버저닝, 호환 API.
A/B·카나리 — 가중치(예: 90/10 → 50/50)로 점진 전환.
오토스케일 — RPS·TPS·큐 길이 기반 수평 확장.
리전/엣지 — 엣지 프록시로 지연 단축, 지역 격리.
모델 레지스트리 — 핀 아트팩트, 롤백 즉시.
비용 최적화 — 혼합 인스턴스, 야간 스케일인.
엔드포인트 설정 예시(JSON)
{
  "name": "llama-3-8b-instruct",
  "engine": "vllm",
  "model_uri": "registry:gaon/llama-3-8b-instruct",
  "quant": "awq-int4",
  "tensor_parallel": 2,
  "max_tokens": 1024,
  "batch_max_tokens": 8192,
  "scheduler": "tokens_per_second",
  "rate_limits": {"rps": 50, "tps": 2000},
  "logging": {"sample": 0.05},
  "guardrails": {"pii_mask": true, "denylist": ["ssn", "credit_card"]}
}
배포 예시(YAML)
apiVersion: apps/v1
kind: Deployment
metadata: { name: gaon-llm }
spec:
  replicas: 2
  selector: { matchLabels: { app: gaon-llm } }
  template:
    metadata: { labels: { app: gaon-llm } }
    spec:
      nodeSelector: { accelerator: gpu }
      containers:
      - name: vllm
        image: ghcr.io/vllm-project/vllm-server:latest
        args: ["--model", "registry:gaon/llama-3-8b-instruct", "--tensor-parallel-size", "2"]
        ports: [{ containerPort: 8000 }]
        resources:
          limits: { nvidia.com/gpu: 1, cpu: "8", memory: "32Gi" }
        env:
        - { name: GAON_API_KEY, valueFrom: { secretKeyRef: { name: gaon-keys, key: api } } }
보안/거버넌스
영역 항목 설명
인증/인가 API Key, OAuth/JWT, 역할 기반 IAM(사용자/역할/정책) 연동, 프로젝트 격리
네트워크 보안그룹/ACL, 전용선/VPN IP 허용목록, 레이트 제한
데이터 프롬프트/응답 암호화 Secrets Manager로 키/자격 증명 관리
거버넌스 감사로그 모델/프롬프트/정책 변경 추적
관측/모니터링
지표 범위 설명
지연 p50/p95/p99 엔드포인트/모델/리전 프롬프트·토큰 수 상관 분석
토큰/초(TPS), RPS 노드/풀 배칭/큐 튜닝 기준
오류율 HTTP/gRPC/엔진 429/5xx, OOM, 타임아웃
프롬프트 샘플 정책 기반 PII 마스킹 후 보관
샘플 로그(JSON)
{"ts":"2025-09-01T12:00:01Z","endpoint":"chat-completions","model":"llama-3-8b","latency_ms":182,"input_tokens":134,"output_tokens":256,"status":200,"trace_id":"c9f..."}
cURL (SSE 스트리밍)
curl -N https://api.gaon.example/v1/chat/completions \
 -H "Authorization: Bearer $GAON_API_KEY" \
 -H "Content-Type: application/json" \
 -d '{
  "model":"llama-3-8b-instruct",
  "messages":[{"role":"user","content":"안녕!"}],
  "stream":true,
  "temperature":0.2,
  "max_tokens":256
}'
Python (requests)
import requests, json
url = "https://api.gaon.example/v1/chat/completions"
headers = {"Authorization": f"Bearer {GAON_API_KEY}", "Content-Type":"application/json"}
body = {
  "model": "llama-3-8b-instruct",
  "messages": [{"role":"user","content":"성능을 높이는 법?"}],
  "temperature": 0.3,
  "max_tokens": 256
}
res = requests.post(url, headers=headers, data=json.dumps(body), timeout=60)
print(res.json())
JavaScript (Fetch + ReadableStream)
const res = await fetch("https://api.gaon.example/v1/chat/completions",{
  method:"POST",
  headers:{"Authorization":`Bearer ${GAON_API_KEY}","Content-Type":"application/json"},
  body: JSON.stringify({ model:"llama-3-8b-instruct", stream:true, messages:[{role:"user",content:"요약해줘"}] })
});
const reader = res.body.getReader();
const dec = new TextDecoder();
while(true){ const {value, done} = await reader.read(); if(done) break; console.log(dec.decode(value)); }
요금 안내
요금: 별도문의

모델 크기/수량, GPU 타입/수량, 지역, 예상 RPS·TPS, 네트워크 이그레스, 보관/관측 옵션에 따라 산정합니다.

빠른 추론 API, 지금 시작하세요
모델·지연 목표·예산만 알려주시면 최적 구성을 제안합니다.