지난 편에서 프롬프트 성과를 평가하고 모니터링하는 방법을 살펴봤어요. 이번 편에서는 이론을 넘어, 실제 프로덕션 환경에서 신뢰할 수 있는 AI 시스템을 구축하는 워크플로우를 다뤄요.
| 패턴 | 사용 시점 | 핵심 장점 |
|---|---|---|
| 반복적 워크플로우 | 복잡한 다단계 작업 | 단계별 품질 향상 |
| 결정적 실행 | 프로덕션 시스템 | 예측 가능성, 디버깅 용이 |
| 상태 관리 | 장기 실행 작업 | 세션 간 연속성 유지 |
| 멀티 세션 핸드오프 | 컨텍스트 윈도우 초과 작업 | 진행 상황 보존 |
| 캐싱 | 반복되는 유사 쿼리 | 비용과 속도 최적화 |
| 파인튜닝 | 프롬프팅 한계에 도달 | 특화된 성능 |
1. 반복적 워크플로우 설계: 구축, 테스트, 개선
고성능 AI 시스템에서 가장 일관되게 나타나는 패턴은 반복(Iteration)이에요. 단일 프롬프트가 한 번에 정확한 결과를 내기를 기대하는 대신, 출력을 단계별로 정제하는 흐름을 설계하는 거죠.
전형적인 반복 흐름은 문제 이해 → 테스트 케이스 추론 → 후보 솔루션 생성 → 솔루션 순위화 → 추가 테스트 생성 → 테스트 통과까지 반복, 이런 순서예요. 각 단계는 단순하지만, 구조가 마법을 만들어요.
이 워크플로우의 세 가지 핵심 원칙이 있어요. 첫째, 단계별 명확한 목표예요. 각 단계에 정확히 하나의 역할을 부여하세요. 추출 → 분석 → 우선순위화 → 종합, 이렇게 나누면 어디서 문제가 생겼는지 즉시 파악할 수 있죠. 둘째, 구조화된 핸드오프예요. 단계 간에 일관된 포맷(JSON, XML 태그 등)을 사용하면 이전 단계의 출력이 다음 단계의 입력으로 깔끔하게 전달돼요. 셋째, 단계 간 품질 게이트예요. 최종 결과가 아니라 각 단계 사이에서 품질을 검사하고, 임계치 미달이면 재시도하세요.
단계 1 → 품질 검사 → 단계 2 → 품질 검사 → 단계 3
↓ ↓
미달 시 재시도 미달 시 재시도
반복적 워크플로우를 비유하면, 원고 편집 과정과 같아요. 작가가 초고를 한 번에 완벽하게 쓰는 일은 거의 없어요. 초고 → 구조 편집 → 문장 교정 → 교열, 단계별로 다른 관점에서 정제하기 때문에 최종 결과물의 품질이 높아지죠.
2. 결정적 실행 vs. 비결정적 워크플로우
여기서 결정적(Deterministic)이란 같은 입력에 같은 출력이 매번 나오는 것을 뜻해요. 무작위성도 해석도 행동 변동도 없는 거죠. 스크립트 실행, 정해진 API 호출, 고정 규칙 기반 검증이 대표적이에요.
반면 비결정적(Non-deterministic) 단계에는 텍스트 생성, 모호한 지시 해석, 확률에 기반한 다음 행동 결정이 포함돼요.
1) 비결정성이 오류를 증폭시키는 원리
AI 기반 워크플로우에서 비결정성은 복합돼요. 각 단계의 성공률이 90%라면, 2단계를 거치면 81%, 5단계면 59%, 10단계면 35%로 떨어지죠.
완전 자율적인 엔드투엔드 AI 에이전트가 데모에서는 인상적이지만 프로덕션에서 실패하는 이유가 바로 이거예요. 시스템이 “나쁜” 것이 아니라, 너무 많은 단계에 걸쳐 확률적 변동이 있는 거예요. 개별 오류가 아니라 작은 불확실성이 예상보다 빠르게 곱해지는 것이 문제이죠.
비결정성 증폭을 비유하면, 전화 게임(Chinese whispers)과 같아요. 한 사람이 다음 사람에게 메시지를 전달할 때마다 약간의 변형이 생기고, 10명을 거치면 원래 메시지와 완전히 달라지죠. 각 단계의 오류가 작아도 누적되면 결과가 크게 달라져요.
2) 최적 패턴: AI가 계획하고, 결정적 시스템이 실행
가장 신뢰할 수 있는 프로덕션 패턴은 사고와 행동을 분리하는 거예요.
1단계: AI가 계획 생성
↓
2단계: 사람 또는 시스템이 계획 검토
↓
3단계: 계획을 결정적으로 실행
↓
4단계: AI가 결과 평가
↓
5단계: 필요시 반복
무작위성이 허용되는 곳은 판단과 유연성이 필요한 단계(계획, 평가)이고, 결정적 시스템은 정확성과 재현성이 필요한 단계(실행)에 투입돼요.
이 패턴의 핵심 특성은 네 가지예요. 계획은 검사 가능하고, 실행은 예측 가능하며, 실패는 특정 단계에 국한되고, 계획 자체가 재사용하거나 학습 데이터로 전환할 수 있는 자산이 돼요.
이 패턴을 비유하면, 건축 프로세스와 같아요. 건축가(AI)가 설계도를 그리고, 감리자(사람)가 검토한 뒤, 시공팀(결정적 시스템)이 설계도 그대로 시공하죠. 시공 중에 “이쪽이 더 예쁠 것 같다”고 즉흥적으로 바꾸면 구조적 문제가 생길 수 있어요.
3. 장기 실행 작업의 상태 관리
상태(State)는 작업을 처음부터 다시 시작하지 않고 올바르게 이어가기 위해 필요한 모든 정보예요. 이미 완료한 작업, 남은 작업, 내린 결정과 그 이유, 도중에 발견한 제약이 포함되죠. 이 정보가 모델의 단기 컨텍스트에만 존재하면, 결국 유실돼요.
1) 외부 메모리로 상태 관리하기
진행 상황을 외부 파일로 추적하면 상태가 지속적이 되죠. 구조화된 파일(JSON)은 AI가 “작업이 어디까지 왔는지”를 기계적으로 이해하고 재개할 수 있게 해요.
{
"task": "사용자 인증 시스템 마이그레이션",
"status": "in_progress",
"completed_steps": [
{"step": "현재 인증 코드 감사", "timestamp": "2024-01-15T10:00:00Z"},
{"step": "새 스키마 설계", "timestamp": "2024-01-15T11:30:00Z"}
],
"pending_steps": [
"OAuth 프로바이더 구현",
"마이그레이션 스크립트 작성",
"API 엔드포인트 업데이트"
]
}
스키마에 맞지 않는 맥락 정보(발견한 엣지 케이스, 동료와의 논의 결과 등)는 마크다운 노트로 보존하면 돼요. 코드 중심 작업에서는 Git이 자연스러운 상태 관리 도구가 되는데, 커밋은 체크포인트, 로그는 이력, diff는 마지막 체크포인트 이후 변경 사항이 되죠.
상태 관리를 비유하면, 프로젝트 관리 보드(칸반)와 같아요. 각 카드가 어느 열(To Do, In Progress, Done)에 있는지 보면 누구든 프로젝트 상태를 즉시 파악할 수 있죠. 팀원이 바뀌어도 보드를 보면 어디서부터 이어가야 하는지 알 수 있어요.
2) 세션 핸드오프와 컨텍스트 윈도우 전략
컨텍스트 윈도우(Context Window)는 모델이 한 번에 “볼” 수 있는 텍스트의 유한한 양이에요. 윈도우가 가득 차면 이전 내용이 잘리거나 새 세션으로 시작해야 하고, 새 컨텍스트 윈도우에서 모델은 이전 내용을 전혀 기억하지 못해요.
핵심 전략이 네 가지 있어요. 첫째, 첫 세션에서 인프라를 구축하세요. 첫 컨텍스트 윈도우에서 “진행”을 하는 대신, 미래 세션이 의존할 스캐폴딩(테스트 스위트, 설정 스크립트, 아키텍처 문서, 진행 추적 파일)을 만드세요. 둘째, 명시적 세션 핸드오프 프로토콜을 만드세요. 세션 끝에는 progress.json 업데이트, 발견 사항 문서화, 다음 단계 목록화를 수행하고, 세션 시작에는 progress.json 읽기, 노트 확인, 최근 변경 로그 검토를 수행하면 돼요.
셋째, 컨텍스트가 가득 차면 새로 시작하거나 압축하는 두 가지 접근이 있어요. 상태가 잘 문서화되어 있으면 새로 시작이 더 단순하고, 대화 연속성이 필요하면 현재 맥락을 요약해서 새 윈도우에 이어가세요. 넷째, 모델에 남은 컨텍스트 용량을 인식시키는 컨텍스트 인식 프롬프트를 활용하면, 작업 중간에 갑자기 멈추는 대신 현재 단계를 완료하고 상태를 저장한 뒤 새 윈도우에서 이어갈 수 있어요.
세션 핸드오프를 비유하면, 병원의 교대 근무 인수인계와 같아요. 야간 근무 간호사가 퇴근할 때 환자 차트에 상태를 기록하고, 주간 근무 간호사가 출근해서 차트를 읽으면 환자 상태를 즉시 파악할 수 있죠. 인수인계 없이 교대하면 치명적 실수가 생길 수 있어요.
4. 캐싱으로 비용과 일관성 최적화하기
캐싱(Caching)은 이전에 생성된 출력을 저장해서, 같은 결과를 다시 생성하는 대신 재사용하는 거예요. 단순한 최적화 기법이 아니라 비용, 지연 시간, 일관성, 안전성에 영향을 미치는 워크플로우 설계 선택이에요.
1) 캐싱 유형과 구현 방법
| 장점 | 설명 |
|---|---|
| 비용 절감 | 동일한 출력을 다시 생성하지 않음 |
| 속도 | 캐시된 응답은 즉시 반환 |
| 일관성 | 같은 입력에 항상 같은 출력 |
| 안전성 | 사전 검증된 출력은 가드레일 검사 생략 |
단순 캐싱은 안정적 식별자를 캐시 키로 사용해요. 소스 데이터가 자주 바뀌지 않고, 출력이 재사용 가능할 만큼 결정적이며, 신선함보다 정확성이 중요할 때 적합하죠.
퍼지 캐싱(Fuzzy Caching)은 사용자 쿼리가 다양하지만 같은 의미인 경우를 처리해요. “환불 정책이 뭐예요?”, “환불 받을 수 있나요?”, “반품은 어떻게 해요?” 같은 쿼리들이죠. 쿼리 정규화(소문자 변환, 구두점 제거), 임베딩 유사도 비교, 의도 분류 기반 캐싱으로 캐시 적중률을 높일 수 있어요.
캐싱을 비유하면, 자주 묻는 질문(FAQ) 페이지와 같아요. 고객이 물어볼 때마다 상담원이 처음부터 답변을 작성하는 대신, 자주 나오는 질문에 대한 답변을 미리 만들어 두면 빠르고 일관된 응대가 가능하죠. 같은 질문을 다른 표현으로 해도(퍼지 매칭) 같은 FAQ로 연결시키면 효율이 더 올라가요.
2) 캐시 무효화 전략
캐싱은 캐시된 출력을 더 이상 신뢰할 수 없는 시점을 아는 것이 핵심이에요. AI 시스템에서 출력은 입력 데이터뿐 아니라 프롬프트, 정책, 모델 행동에도 의존하기 때문에, 이 중 하나라도 바뀌면 캐시된 응답이 조용히 틀려질 수 있어요.
일반적인 전략으로 시간 기반(단순하지만 만료까지 오래된 출력을 제공할 수 있음), 이벤트 기반(소스 변경이 관찰 가능할 때 정밀), 버전 기반(AI 시스템에 필수)이 있어요.
버전 기반 무효화는 프롬프트 버전을 캐시 키에 포함시키는 방식이에요. cache_key = f"summary:v2:{article_id}" 처럼 하면 프롬프트 버전이 바뀌면 이전 캐시가 자동으로 우회되죠. 경험 법칙은, 출력을 변경할 수 있는 변화는 캐시 키도 변경해야 한다는 거예요.
캐시 무효화를 비유하면, 식당 메뉴판 업데이트와 같아요. 메뉴가 바뀌었는데 오래된 메뉴판을 그대로 두면 손님이 없는 메뉴를 주문하죠. 식재료가 바뀌면(이벤트), 계절마다(시간), 또는 메뉴 버전이 바뀌면(버전) 메뉴판을 새로 인쇄해야 해요.
5. 파인튜닝 vs. 프롬프팅: 올바른 선택 기준
파인튜닝(Fine-tuning)은 자체 예시 데이터로 모델의 가중치를 훈련시켜 기본 행동 자체를 변경하는 거예요. 프롬프팅이 런타임에 행동을 안내하는 “지시”라면, 파인튜닝은 모델 자체를 바꾸는 “행동 변화”이죠.
유용한 멘탈 모델은 이래요. 프롬프팅 = 지시, RAG = 지식, 파인튜닝 = 행동 변화. 그래서 파인튜닝은 가장 마지막에 당기는 레버여야 해요.
파인튜닝에는 데이터 수집·어노테이션, 훈련 컴퓨팅, 평가와 반복, 파인튜닝된 모델 호스팅, 여러 모델 버전 관리 비용이 따르거든요. 대부분의 팀에서 프롬프팅 + RAG가 90% 이상의 사용 사례를 처리할 수 있어요.
파인튜닝이 적합한 경우는 엄격한 기계 판독 가능 구문을 따라야 하는 특화된 출력 포맷, 모든 응답이 브랜드 보이스와 정확히 일치해야 하는 일관된 스타일/보이스, 많은 유사 사례에서 학습된 패턴에 기반하는 도메인 특화 추론이에요.
반면, 부적합한 경우도 명확해요.
| 시나리오 | 더 나은 접근법 |
|---|---|
| 최신 정보가 필요함 | RAG |
| 사용자별로 다른 출력 필요 | 프롬프트 템플릿 |
| 요구사항이 아직 유동적 | 프롬프팅 유지 |
| 훈련 데이터가 적음 | 퓨샷 프롬프팅 |
작업 정의가 불안정한 상태에서 파인튜닝하면, 잘못된 행동을 고정시키게 돼요. 프롬프팅의 한계에 진정으로 도달했을 때만 파인튜닝을 고려하세요.
파인튜닝 선택을 비유하면, 기성복과 맞춤복의 차이와 같아요. 대부분의 상황에서는 기성복(프롬프팅)에 벨트나 액세서리(RAG)를 더하면 충분해요. 맞춤복(파인튜닝)은 기성복으로 도저히 안 맞는 특수한 체형일 때만 필요하고, 비용도 높고 체형이 바뀌면(요구사항 변경) 다시 맞춰야 하죠.
다음 편에서는 시리즈의 마무리로, 프롬프트 엔지니어링의 실전 체크리스트와 핵심 원칙을 정리할게요.
프롬프트 엔지니어링 시리즈
(4) 사고 사슬(CoT), 역할 프롬프팅, 프롬프트 체이닝

