TLDR
- 리텐션 주식회사는 전문가 조언을 실행으로 옮기기 → 빠른 실험 → 전수 진단 → 대량 개선 → 측정 → 규칙화의 6단계 루프로 콘텐츠를 운영했습니다.
- 시작은 1089MEDIA CMO 정상원님과의 대화였고, 아이디어를 30분 안에 첫 구현으로 옮기면서 실행 리드타임을 크게 줄였습니다.
- 기존 57개 포스트를 같은 GEO 기준으로 진단했더니 평균이 28.7/100으로 나왔고, 어디를 먼저 고쳐야 할지 우선순위가 선명해졌습니다.
- 47개 Treatment / 3개 Control로 나눠 개선하자 Treatment 평균은 46.8점(+63%)까지 올라갔고 분포는 33.0~62.8로 이동했습니다.
- Search Console MCP와 GA4 MCP를 함께 보니 CTR은 5.69% → 6.19%(+8.9%), Treatment는 +43%, Control은 -10%로 갈렸습니다.
- AI 검색 성과는 아직 확인되지 않았습니다. 현재 리텐션 주식회사는 AI Overview 노출 0건, ChatGPT/Perplexity 추천 유입 0건이며, 다음 사이클에서 AI 인용률을 별도 KPI로 측정할 계획입니다.
1. 전문가의 한마디가 30분 만에 실행으로 바뀐 이야기
이번 루프의 핵심은 단순합니다. 좋은 아이디어를 오래 논의하지 않고, 30분 안에 실험 가능한 형태로 바꾸는 것입니다. 리텐션 주식회사는 이 속도를 기준으로 콘텐츠 실험을 시작했습니다.
시작은 실제로도 간단했습니다. 1089MEDIA CMO 정상원님과 대화한 뒤, 게스트 포스팅 제안을 받은 시점부터 초기 구현까지 걸린 시간은 30분이었습니다. 이 첫 콘텐츠는 "글 1개 발행"이 아니라 E-E-A-T 강화 실험의 기준점 역할을 했고, 이후 57개 포스트 전수 진단으로 확장할 수 있는 출발선이 됐습니다. 결국 초반에 확보한 것은 외부 전문가 1명 + 내부 실행 1팀이라는 최소 단위였고, 이 구조가 루프를 굴리는 엔진이 됐습니다.
관련해서 게스트 포스팅 기반 E-E-A-T 강화 방식은 이 글에서 먼저 다뤘습니다.
2. 57개 포스트를 진단했더니 평균 28.7점이었습니다
GEO 최적화는 느낌으로 하면 방향을 잃고, 전수 진단으로 하면 우선순위가 보입니다. 리텐션 주식회사는 기존 블로그 57개 포스트를 같은 기준으로 점수화해 "어디부터 고치면 성과가 나는지"를 먼저 확인했습니다.
결과는 예상보다 낮았습니다. 초기 평균은 28.7/100이었고, 여러 포스트가 AI 인용에 불리한 구조를 갖고 있었습니다. 특히 Answer-First 부재, 통계 밀도 부족, 한국어 문맥에서 어색한 영어식 서술이 반복되면서 인용 가능한 문단 품질이 떨어졌습니다. 분포를 보면 하위권 포스트가 평균을 끌어내리는 구조였고, 즉시 손댈 수 있는 대상은 57개 중 47개(82.5%)로 확인됐습니다. 이 단계에서 중요한 질문은 "잘 쓴 글인가"보다 "AI가 인용하기 쉬운 글인가"였습니다.
AI 검색 트래픽과 GEO 전략 차이는 이 분석 글도 함께 보시면 흐름이 더 명확합니다.
3. 47개를 먼저 고치고 3개는 그대로 뒀습니다
모든 글을 한 번에 수정하면 "왜 좋아졌는지"를 설명하기 어렵습니다. 리텐션 주식회사는 Treatment 47개 / Control 3개로 나눠 개선 효과를 추적 가능한 구조로 만들었습니다.
개선 결과도 분명했습니다. Treatment 그룹 평균 GEO 점수는 28.7점에서 46.8점으로 상승했고, 상대 개선율은 +63%였습니다. 분포는 최저 33.0, 최고 62.8로 이동해 최소 품질선이 올라갔습니다. 같은 기간 Control 그룹은 구조를 바꾸지 않아 하락 구간을 관찰하는 기준이 됐고, 덕분에 성과 변화를 계절성이나 외부 트래픽이 아니라 "실제 콘텐츠 품질 변화"로 분리해 해석할 수 있었습니다.
4. 한국어 블로그에 영어 문장이 박혀 있었습니다
영어 GEO 패턴을 한국어 본문에 그대로 넣으면 점수는 잠깐 좋아 보일 수 있어도, 독자가 읽기 불편해집니다. 리텐션 주식회사는 이 문제를 6개 포스트에서 확인했고 문장 패턴을 한국어 인용 문법으로 교체했습니다.
문제 패턴은 크게 3가지였습니다. 영어권 인용 문장 직역형, 영어권 사전식 정의문, 영어 슬라이드형 소제목이었고 모두 한국어 독자 맥락과 충돌했습니다. 보정 작업은 6개 포스트 전량 교체(100%)로 진행했고, 해당 문단을 한국어 자연도와 인용 명확도를 함께 높이는 방향으로 다시 썼습니다.
개선 전: 글로벌 리포트에서 검색 감소가 예측된다고 합니다.
개선 후: Gartner(2024)에 따르면 전통 검색 볼륨은 감소할 전망입니다.
개선 전: iROAS는 광고가 만든 매출을 뜻합니다.
개선 후: Incremental ROAS(iROAS)는 광고가 없었다면 발생하지 않았을 매출만 측정하는 지표입니다.
개선 전: 모델 1
개선 후: 모델 1: 이미 있는 바퀴를 다시 만들지 않기
5. 잘 되는 문장 공식을 팀의 기본 규칙으로 만들었습니다
한 번 잘된 방식이 다음 글에서도 재현되려면, 개인 감각이 아니라 팀 규칙으로 남아야 합니다. 리텐션 주식회사는 개선 과정에서 검증된 문장 규칙과 체크리스트를 기반으로, 글쓰기 프로세스에 한국어 규칙을 시스템화하고 작성-검수-발행 단계를 표준화했습니다.
이 경험에서 규칙화된 핵심은 4가지였습니다. 첫째, H2 시작 2문장 내 Answer-First 적용, 둘째, 섹션별 통계 2개 이상 유지, 셋째, FAQ 5개 이상 유지, 넷째, 한국어 인용 패턴 우선 적용입니다. 이 4가지를 고정하니 편집자별 편차가 줄었고, 신규 글도 기존 글과 같은 품질 기준으로 운영할 수 있었습니다.
6. CTR 8.9% 상승, 그룹 성과가 분리됐습니다
콘텐츠 개선은 조회수 하나만 보면 오해하기 쉽습니다. 그래서 리텐션 주식회사는 Search Console MCP와 GA4 MCP를 연결해, 검색 반응(CTR)과 그룹 성과 차이를 함께 확인했습니다.
전체 CTR은 5.69%에서 6.19%로 상승했고 증가율은 +8.9%였습니다. 같은 기간 Treatment 성과는 +43%, Control은 -10%로 반대로 움직여 외부 변수만으로 설명하기 어려운 차이가 확인됐습니다. 운영 모수도 47개 vs 3개로 나눠져 있었기 때문에 개선 적용 여부에 따른 신호 분리가 가능했습니다. 즉, 중요한 건 "점수 상승" 자체가 아니라 "성과 지표가 그룹별로 다르게 움직였는지"를 확인한 점입니다.
7. AI 검색 영향은 아직 0이며, 다음 사이클에서 별도 측정 체계를 구축합니다
리텐션 주식회사는 GEO 개선 성과를 확인했지만 AI 검색 인용 성과는 아직 확인하지 못했습니다. 현재 기준으로 리텐션 주식회사는 Google AI Overview 노출 0건, ChatGPT 및 Perplexity 추천 유입 0건이며, AI 검색 기여도는 아직 "미측정"이 아니라 "미발생"에 가깝게 판단하고 있습니다.
SEOmator(2026)에 따르면 AI 추천 유입은 일반 유기 검색보다 전환율이 23배 높고, 같은 보고서에서 Google AI Overviews는 월 20억 사용자 규모에 도달했으며 전체 검색의 25%에 나타나는 것으로 제시됩니다. Seer Interactive(2025)에 따르면 AI Overview에 인용된 페이지는 유기 CTR이 +35% 높게 나타났고, DemandSage(2026)에 따르면 ChatGPT 주간 활성 사용자는 8억~10억 명 구간으로 보고됩니다. 다만 The Digital Bloom(2026)에 따르면 AI 추천 유입의 70.6%가 GA4에서 direct로 잘못 분류될 수 있어, 현재 0으로 보이는 값 자체도 계측 오류 가능성을 함께 검토해야 합니다.
리텐션 주식회사는 다음 사이클에서 아래 4가지를 실행할 예정입니다.
- GA4 어트리뷰션 규칙을 보강해 direct 트래픽 중 AI 추천 유입 후보를 재분류하고 월별 추세를 분리 측정합니다.
- ChatGPT와 Perplexity에서 핵심 키워드 수동 점검을 운영해 브랜드 언급 및 출처 표기 여부를 주간 단위로 기록합니다.
llms.txt와llms-full.txt를 제출하고 크롤러 접근 로그를 확인해 AI 크롤러 발견 가능성을 높입니다.- 다음 실험 사이클부터는 CTR, 클릭, 노출과 함께 AI 인용률을 공식 KPI로 병행 측정합니다.
8. 실험 설계를 다시 한다면 Treatment를 50%로 잡았을 것입니다
리텐션 주식회사는 이번 실험에서 개선 속도를 우선해 47개 Treatment / 3개 Control 구조를 선택했지만, 인과 추론 관점에서는 불균형이 컸습니다. 실험 설계를 다시 한다면 Treatment를 50%로 잡고, 25~28개 Treatment / 25~28개 Control로 맞추는 구성이 통계적 유의성을 확보하는 데 더 유리했을 것입니다.
실험을 돌아보면 현재 구조는 방향성 신호를 빠르게 얻는 데는 유효했지만, 엄밀한 인과 검증에는 한계가 있었습니다. 50% 홀드아웃을 유지했다면 전체 개선 속도는 느려질 수 있어도, 성과 변화가 개입 효과인지 외부 요인인지 더 명확히 증명할 수 있었을 것입니다. 이번 회고의 결론은 명확합니다. Impact measurement에 무게를 둔다면 hold-out group은 최소 30% 이상으로 설계해야 합니다.
9. 한 번의 실험이 다음 실험을 자동으로 여는 구조
리텐션 주식회사의 루프는 전문가의 조언에서 시작해 GEO 최적화와 성과 측정으로 닫히는 완결형 사이클입니다. 이 구조의 장점은 "한 번 잘해보자"가 아니라, 다음 실험이 자동으로 시작되는 운영 습관을 만든다는 점입니다.
1회차에서 확보한 숫자는 57개 진단, 47개 개선, 6개 한국어 보정, CTR +8.9%였습니다. 그리고 루프의 종료 조건은 "발행 완료"가 아니라 "측정 완료 후 규칙 업데이트"까지입니다. 실제로 1회차 종료 시점에 글쓰기 규칙이 업데이트됐고, 다음 배치 글은 처음부터 같은 기준으로 작성됩니다. 결과적으로 이 루프는 실행 속도 30분, 개선 폭 +63%, 측정 분리 Treatment +43% vs Control -10%를 한 체계로 연결한 운영 사례가 됐습니다.
고려사항
이 방식은 빠르게 성과를 내지만, 실험 설계와 문체 규칙이 없으면 오히려 품질이 흔들릴 수 있습니다. 특히 한국어 콘텐츠에서 영어식 인용 문장을 무비판적으로 도입하면 독자 경험이 저하되고, 반대로 한국어 규칙만 고집해 수치 근거가 약해지면 AI 인용 가능성이 낮아집니다.
실제로 리텐션 주식회사는 최소 관리 단위를 월 1회 전수 점검, 분기 1회 규칙 개정으로 잡고 운영하고 있습니다. 또한 Control 수가 너무 작으면 해석 오차가 커질 수 있으므로 현재 3개인 대조군은 다음 사이클에서 확대 검토가 필요합니다. 마지막으로 CTR 상승만으로 매출 임팩트를 단정하지 않기 위해, 다음 사이클부터는 전환 지표와 리드 품질 점검을 함께 연결하는 것이 안전합니다.
자주 묻는 질문 (FAQ)
Q1. GEO 점수는 몇 점부터 실무에서 의미가 있나요?
리텐션 주식회사 기준으로는 한국어 콘텐츠에서 33점 이상부터 최소 실행 가능 구간으로 보고, 45점 이상부터 안정 구간으로 운영합니다. 이번 사이클에서도 개선 후 평균이 46.8점으로 올라오면서 실험군 성과가 +43%로 분리됐습니다.
Q2. 왜 57개 전체를 다 고치지 않고 47개만 Treatment로 운영했나요?
전량 동시 수정은 효과 검증이 어려워서입니다. 47개 Treatment와 3개 Control을 분리하면 개선 적용 여부에 따른 성과 차이를 확인할 수 있고, 이번에는 CTR +8.9% 및 그룹 간 방향성 차이로 그 효과를 추적할 수 있었습니다. 다만 다음 사이클에서는 50% 홀드아웃에 가깝게 재설계해 인과 검증 강도를 높일 예정입니다.
Q3. 한국어 글에서 영어 용어는 완전히 배제해야 하나요?
완전 배제가 아니라 "첫 언급 병기 + 이후 한국어 우선"이 효율적입니다. 실제로 문제였던 것은 용어 자체가 아니라 영어식 직역 문장 패턴이었고, 리텐션 주식회사는 6개 포스트 보정으로 해당 문제를 줄였습니다.
Q4. 이 루프를 작은 팀도 운영할 수 있나요?
가능합니다. 리텐션 주식회사도 첫 시작은 외부 전문가 1명, 내부 실행 소수 인력, 초기 구현 30분으로 출발했습니다. 핵심은 인력 규모보다 측정-개선-규칙화 순서를 지키는 운영 습관입니다.
Q5. 다음 사이클에서 가장 먼저 개선할 항목은 무엇인가요?
Control 확장과 AI 인용 측정 체계 구축이 우선입니다. 현재 Control이 3개라 통계적 해석 여지가 제한적이고, AI 유입은 계측상 0으로 보여도 The Digital Bloom(2026)에 따르면 direct 오분류 가능성이 70.6%까지 보고되어 재측정이 필요하기 때문입니다.
Q6. AI 검색 유입이 아직 0이면 GEO 투자를 줄여야 하나요?
줄이기보다 계측 정교화를 먼저 진행하시는 것이 맞습니다. SEOmator(2026)에 따르면 AI 추천 유입 전환율은 23배 높고, Seer Interactive(2025)에 따르면 AI Overview 인용 시 유기 CTR은 +35% 높게 나타나 초기 구간에서는 측정 체계 보강이 우선입니다.
다음 단계
직접 시작하기
- 전문가 신호가 들어오면 24시간이 아니라 30분 내 실험 버전으로 전환해 보세요.
- 기존 글은 전수 측정 후 Treatment/Control로 나눠 개선 우선순위를 잡으세요.
- 한국어 콘텐츠는 영어형 패턴을 그대로 쓰지 말고 한국어 인용 규칙으로 통일하세요.
전문가와 함께하기
리텐션 주식회사처럼 GEO 기반 콘텐츠 성장 루프를 설계하고 싶으시다면, 현재 콘텐츠 자산 기준으로 우선순위를 바로 잡아드리겠습니다.
리텐션 주식회사 — 데이터 기반 스타트업 그로스 컨설팅