GS 인증 1등급이란? AI 소프트웨어 품질 인증의 모든 것
5개월간의 시험, 그리고 가장 까다로웠던 항목
GS 인증을 처음 준비할 때, 솔직히 "인증 절차야 뭐 문서 잘 정리하면 되겠지"라고 가볍게 생각했습니다. 그런데 실제로 TTA(한국정보통신기술협회) 시험 과정에 들어가 보니, 생각보다 훨씬 깊은 수준의 기술 검증이었습니다. 특히 AI 기반 소프트웨어에 대해서는 기존 패키지 소프트웨어와는 다른 관점의 질문들이 쏟아졌습니다.
이 과정에서 배운 것들을 공유합니다.
GS 인증 구조 — ISO/IEC 25023 기반
GS(Good Software) 인증은 ISO/IEC 25023 국제 표준을 기반으로 6개 품질 특성을 정량적으로 평가합니다.
| 품질 특성 | 평가 내용 | AI Canvas 등급 | 핵심 메트릭 |
|---|---|---|---|
| 기능성 | 요구 기능의 정확한 구현 | 1등급 | 기능 완전성 99.2%, 결과 정확성 98.7% |
| 신뢰성 | 장애 복구, 안정성 | 1등급 | MTBF 720시간, 장애 복구 시간 < 30초 |
| 효율성 | 자원 사용, 응답 시간 | 1등급 | P95 응답시간 1.2초, 메모리 사용률 < 60% |
| 사용성 | 학습 용이성, 운영 편의 | 1등급 | SUS 점수 78점, 첫 Agent 생성까지 평균 15분 |
| 유지보수성 | 변경 용이성, 모듈화 | 1등급 | 테스트 커버리지 87%, 모듈 결합도 Low |
| 이식성 | 환경 적응성, 설치 용이 | 1등급 | On-premise/Cloud/VPC 3환경 검증 완료 |
가장 도전적이었던 항목: "사용성"
일반적인 엔터프라이즈 소프트웨어의 GS 인증에서 사용성은 상대적으로 무난한 항목입니다. 사용자가 개발자이거나 IT 전문가라는 전제가 있으니까요.
그런데 AI Canvas의 타겟 사용자는 비개발자 현업 담당자입니다. TTA 심사위원이 "비개발자가 정말로 이 도구를 단독으로 사용할 수 있는가?"를 집요하게 검증했습니다.
우리가 제출한 근거 자료:
- 사용성 테스트 결과 (n=48, 비개발자 비율 75%): 15분 교육 후 첫 AI Agent 단독 생성 성공률 91.7%
- SUS(System Usability Scale) 점수: 78점 — 업계 평균(68점) 대비 15% 높음
- 오류 복구율: 사용자가 실수한 후 도움 없이 스스로 복구한 비율 88%
개인적으로 이 항목을 준비하면서 가장 많이 배웠습니다. HCI 연구에서 자주 다루는 "Learnability vs Power"의 트레이드오프를 실제 제품에서 해결하는 경험이었습니다. CHI 2023에서 발표된 Nielsen의 "Usability Heuristics for AI Systems" 프레임워크가 실무적으로 많은 도움이 되었습니다.
효율성 항목에서의 기술적 챌린지
효율성 시험에서 가장 까다로운 부분은 LLM 추론(inference) 비용과 응답 시간의 트레이드오프였습니다. AI Agent가 복잡한 업무를 처리할 때 LLM API 호출이 발생하는데, 이때의 P95 레이턴시를 1.5초 이내로 유지해야 했습니다.
우리가 적용한 최적화:
- 추론 결과 캐싱: 동일 패턴의 업무에 대해 LLM 호출을 생략하고 캐시된 결과를 반환 → P95 레이턴시 40% 감소
- 배치 처리: 연속된 유사 작업을 묶어서 처리 → 처리량(throughput) 3.2배 향상
- 경량 모델 자동 전환: 단순 작업에는 경량 모델을, 복잡한 판단에는 고성능 모델을 자동 선택
이런 최적화가 쌓여서 최종적으로 P95 응답시간 1.2초를 달성했습니다.
공공기관 납품을 준비하는 AI 스타트업에게
GS 인증은 공공기관 납품의 사실상 필수 조건이고, 대기업 기술 심사에서도 객관적 품질 근거로 활용됩니다. 준비하면서 느낀 점 몇 가지를 정리합니다:
- 테스트 커버리지를 먼저 올리세요 — 인증 준비의 70%는 테스트 코드 작성입니다
- 사용성 테스트를 정량적으로 기록하세요 — "사용하기 쉽다"는 주관이 아니라 SUS 점수로 증명해야 합니다
- AI 특화 품질 항목을 미리 준비하세요 — 모델 정확도, 추론 속도, 할루시네이션 비율 등 AI 고유의 메트릭이 요구됩니다
- 최소 5개월은 잡으세요 — 서류 준비 2개월 + 시험 3개월이 최소 소요 기간입니다
궁금한 점이 있으면 언제든 문의해 주세요. 인증 준비 경험을 나눌 수 있어서 기쁩니다.
Five months of testing, and the hardest category
When we first started preparing for GS Certification, I'll admit I thought: "It's just documentation — write it up well and we'll be fine." But once we entered the actual TTA (Telecommunications Technology Association) examination process, it turned out to be far deeper technical verification than expected. For AI-based software in particular, the examiners raised questions from perspectives quite different from traditional packaged software.
Here's what I learned through the process.
GS Certification structure — based on ISO/IEC 25023
GS (Good Software) Certification quantitatively evaluates six quality characteristics based on the ISO/IEC 25023 international standard.
| Quality Characteristic | What's Evaluated | AI Canvas Grade | Key Metrics |
|---|---|---|---|
| Functionality | Correct implementation of required features | Grade 1 | Feature completeness 99.2%, Result accuracy 98.7% |
| Reliability | Fault recovery, stability | Grade 1 | MTBF 720 hrs, Recovery time < 30s |
| Efficiency | Resource usage, response time | Grade 1 | P95 latency 1.2s, Memory usage < 60% |
| Usability | Learnability, operational convenience | Grade 1 | SUS score 78, Avg. 15 min to first Agent |
| Maintainability | Modifiability, modularity | Grade 1 | Test coverage 87%, Module coupling: Low |
| Portability | Adaptability, installability | Grade 1 | Verified across On-premise/Cloud/VPC |
The most challenging category: Usability
In typical enterprise software GS certification, usability is a relatively easy pass. The assumption is that users are developers or IT professionals.
But AI Canvas's target user is non-developer frontline workers. The TTA examiners rigorously tested whether "a non-developer can truly use this tool independently."
Evidence we submitted:
- Usability test results (n=48, 75% non-developers): 91.7% successfully created their first AI Agent independently after 15 min training
- SUS score: 78 — 15% above industry average (68)
- Error recovery rate: 88% of users recovered from mistakes without assistance
This was personally the most educational part of the process. It was a real-world exercise in resolving the "Learnability vs Power" tradeoff that HCI research constantly explores. Nielsen's "Usability Heuristics for AI Systems" framework from CHI 2023 was practically very helpful.
Technical challenge in the Efficiency category
The trickiest part of efficiency testing was the tradeoff between LLM inference cost and response time. When AI Agents process complex tasks, LLM API calls are triggered, and we needed to keep P95 latency under 1.5 seconds.
Our optimizations:
- Inference result caching: Skip LLM calls for identical task patterns → 40% P95 latency reduction
- Batch processing: Bundle sequential similar tasks → 3.2× throughput improvement
- Automatic lightweight model switching: Simple tasks use lightweight models; complex judgments use high-performance models
These optimizations stacked to achieve a final P95 response time of 1.2 seconds.
For AI startups preparing for public sector sales
GS Certification is practically mandatory for Korean government procurement and serves as objective quality evidence in large enterprise technical reviews. Key takeaways from our experience:
- Raise test coverage first — 70% of certification prep is writing tests
- Record usability tests quantitatively — "Easy to use" isn't enough; you need SUS scores
- Prepare AI-specific quality metrics early — Model accuracy, inference speed, hallucination rate will all be questioned
- Budget at least 5 months — 2 months document prep + 3 months testing is the minimum
Feel free to reach out with any questions. I'm happy to share what we learned.
AI Canvas
업무 영상 하나면, AI가 자동화합니다
470+ 기업이 선택한 GS 인증 1등급 엔터프라이즈 AI 플랫폼. 무료 데모를 통해 귀사에 맞는 자동화 시나리오를 확인하세요.
무료 데모 신청하기