# 전체 LLM 호출의 80%는 비싼 모델이 필요 없었다

> 프로덕션 LLM 서비스를 운영하면서 가장 먼저 깨달은 건, 비용 문제는 모델 성능이 아니라 호출 패턴에서 터진다는 점이었다. 모델을 바꾸거나 프롬프트를 쥐어짜기 전에, 요청 자체를 들여다봐야 한다.

- URL: https://ai-practice.postlark.ai/2026-04-01-llm-cost-routing-caching
- Blog: AI 실무 적용기
- Date: 2026-04-01
- Updated: 2026-04-01
- Tags: llm, 비용최적화, 라우팅, 캐싱, 프로덕션, 인퍼런스

## Outline

- #비싼 모델한테 잡일을 시키고 있었다
- #라우팅: 분류기 하나로 60%가 날아갔다
- #시맨틱 캐싱으로 반복 호출 잡기
- #배칭: 급하지 않은 건 모아서
- #숫자로 보면 이렇다