pxd XE Blog | AI가 인용하고 싶은 페이지는 어떻게 생겼을까

들어가며

지난 편에서 검색엔진과 AI 크롤러가 우리 사이트를 어떻게 발견하는지를 다뤘어요. robots.txt, sitemap, canonical, 리다이렉트, AI 크롤러 허용까지 — 결국 "크롤러가 페이지에 안정적으로 닿을 수 있는가"가 핵심이었죠.

이번 편에서는 그 다음 단계 이야기예요. 크롤러가 페이지에 도착했어요. 그다음엔 뭘 볼까요?

검색엔진이든 AI든, 페이지에 도착한 이후에는 콘텐츠의 구조를 읽어요. 제목이 뭔지, 주제가 뭔지, 어떤 질문에 답하고 있는지, 정보가 어떤 단위로 나뉘어 있는지. 이 구조가 명확한 페이지는 검색 결과에서도, AI 답변에서도 선택받을 가능성이 높아요.

이번 편에서는 "AI가 인용하고 싶어지는 페이지"가 어떤 구조적 특성을 가지고 있는지, 프론트엔드 개발자가 실제로 챙길 수 있는 요소들을 중심으로 풀어볼게요.

검색엔진과 AI는 페이지를 어떻게 "읽는가"

검색엔진의 읽기 방식

Google 같은 검색엔진은 페이지를 크롤링한 후, HTML 구조를 파싱해서 콘텐츠를 이해해요. 이때 참고하는 주요 신호는 이런 것들이에요.

<title> 태그 — 이 페이지가 무엇에 관한 건지 가장 먼저 확인하는 요소예요. 검색 결과의 파란색 제목으로 직접 노출되기도 하고요.
<meta name="description"> — 검색 결과 스니펫의 설명 텍스트로 사용돼요. 직접 순위에 영향을 주진 않지만, 클릭률(CTR)에는 큰 영향을 미쳐요.
<h1>, <h2>, <h3> 같은 헤딩 태그 — 콘텐츠의 계층 구조를 파악하는 데 사용해요. 어떤 주제가 있고, 그 아래 어떤 하위 주제들이 있는지를 헤딩 계층으로 이해해요.
본문의 <p>, <ul>, <ol>, <table> — 실제 콘텐츠가 담긴 요소들이에요. 검색엔진은 이 안의 텍스트를 분석해서 페이지 주제와 키워드를 파악해요.

AI의 읽기 방식 — 여기서 차이가 생긴다

AI도 기본적으로 같은 HTML을 읽어요. 근데 목적이 달라요.

검색엔진은 "이 페이지가 어떤 검색어에 적합한가"를 판단하지만, AI는 "이 페이지에서 사용자의 질문에 대한 답을 추출할 수 있는가"를 봐요.

참고로 Google도 2021년부터 "Passage Ranking"이라는 기능을 통해 페이지 내 특정 구간의 관련성을 개별적으로 평가해서 랭킹에 반영하고 있어요. 전체 페이지의 주제와 다소 동떨어져 있더라도, 특정 문단이 검색어에 잘 맞으면 그 페이지를 상위에 올려주는 방식이에요. Google은 이게 "인덱싱 변경이 아니라 랭킹 변경"이라고 설명했고, 전체 쿼리의 약 7%에 영향을 준다고 밝힌 바 있어요.

AI 검색 서비스(ChatGPT, Perplexity 등)도 비슷한 방향이에요. 이런 서비스들은 RAG(Retrieval-Augmented Generation)라는 방식으로 작동하는데, 페이지 전체를 통째로 평가하기보다 페이지에서 질문과 관련 있는 구간을 찾아서 인용하는 방식에 가까워요. ChatGPT, Perplexity, Google AI Overviews, Claude 모두 이 RAG 구조를 기반으로 하고 있어요(참고). 그래서 긴 글이라도 AI가 실제로 인용하는 건 특정 문단 하나일 수 있어요.

예를 들어볼게요. 어떤 통신사 요금제 페이지가 있다고 해봐요. "이 요금제 월 요금이 얼마야?"라는 질문에 AI가 답하려면, 페이지에서 가격 정보를 정확히 추출할 수 있어야 해요. 근데 가격이 마케팅 배너 이미지 안에만 있거나, 긴 문단 중간에 "합리적인 가격으로 제공되는 이 요금제는 다양한 혜택과 함께..." 같은 식으로 묻혀 있으면, AI가 그 문단을 인용 대상으로 선택하기 어려워요.

반면 "월 55,000원"이라는 정보가 텍스트로 명시적으로 존재하고, 주변에 요금제 이름과 조건이 구조적으로 배치되어 있으면, AI가 그 문단을 인용하기 훨씬 쉬워지는 거예요.

Title과 Meta Description — 첫인상을 결정하는 메타데이터

Title 태그

<title> 태그는 검색엔진과 AI 모두에게 "이 페이지의 주제가 뭔지"를 알려주는 가장 강력한 신호예요.

길이는 픽셀 기준이다 — 많은 가이드에서 "60자 이내"라고 하지만, Google은 사실 글자 수가 아니라 픽셀 폭(데스크톱 기준 약 600px)으로 잘라요. 영문은 대략 50~60자가 이 안에 들어오지만, 한글은 글자당 픽셀 폭이 더 넓어서 같은 600px에 더 적은 글자가 들어가요. 한글 기준으로는 30~60자 정도가 실무적인 가이드라인이에요. SERP 미리보기 도구로 실제 표시 상태를 함께 확인하면 더 좋고요.
Google은 Title을 자주 재작성한다 — 이것도 알아둬야 할 현실적인 포인트예요. 2025년 Q1 기준 Google이 약 76%의 비율로 Title을 재작성한다는 분석 결과가 있어요. Title이 너무 길거나, 콘텐츠와 맞지 않거나, 키워드 스터핑이 심한 경우 Google이 자체적으로 더 적합하다고 판단한 제목으로 바꿔버려요. 그래서 Title 길이를 엄격하게 맞추는 것보다, 핵심 키워드와 명확한 주제를 Title 앞부분에 배치하는 게 더 실질적인 전략이에요.

<!-- 키워드가 뒤에 묻힌 경우 -->
<title>우리 회사 공식 홈페이지 - 클라우드 서버 호스팅 서비스</title>
<!-- 핵심 키워드가 앞에 온 경우 -->
<title>클라우드 서버 호스팅 — 안정적인 인프라 서비스 | 회사명</title>

GEO 관점에서의 Title — AI가 페이지 주제를 판단할 때도 Title을 가장 먼저 참고해요. "이 페이지가 어떤 질문에 답할 수 있는 페이지인지"를 Title에서 1차 판단하는 거예요. Title이 모호하면 AI가 인용 후보에서 제외할 가능성이 높아요.

Meta Description

길이 — 2026년 기준 데스크톱에서는 약 920px(평균 158자), 모바일에서는 약 680px(평균 120자)까지 표시돼요. 모바일 트래픽이 전체의 60% 이상을 차지하는 현실을 고려하면, 핵심 내용을 앞쪽 120자 안에 배치하는 게 중요해요. 전체적으로는 70~155자 사이가 적정 범위예요. 70자 미만이면 정보 전달이 부족하고, 155자를 넘으면 잘릴 수 있어요.
Google은 Description도 재작성한다 — Title과 마찬가지로 Google은 description을 자주 무시하고 페이지 본문에서 검색어에 더 적합한 텍스트를 뽑아서 스니펫으로 보여줘요. 그럼에도 명시적으로 작성해두는 게 좋은데, Google이 우리가 쓴 description을 그대로 사용하는 경우도 있고, AI가 페이지 주제를 빠르게 파악하는 데 참고할 수 있거든요.

헤딩 구조 — 콘텐츠의 뼈대를 만들기

H1은 페이지당 하나

H1 태그는 페이지의 대표 제목이에요. HTML5 스펙상 여러 개를 쓸 수 있고, Google의 John Mueller도 "여러 H1을 써도 순위에 직접적인 패널티는 없다"고 말한 바 있어요. 하지만 SEO와 GEO 모두에서 하나만 사용하는 게 권장돼요. 검색엔진과 AI가 "이 페이지의 핵심 주제가 뭐지?"를 판단할 때 H1을 가장 먼저 보는데, H1이 여러 개면 주제가 분산되어 보이거든요.

<!-- H1이 두 개인 경우 — 주제가 분산됨 -->
<h1>회사 소개</h1>
<!-- ... 중간 콘텐츠 ... -->
<h1>우리의 서비스</h1>

<!-- H1 하나 + H2로 구분한 경우 — 구조가 명확함 -->
<h1>회사 소개 및 서비스 안내</h1>
<h2>회사 소개</h2>
<!-- ... -->
<h2>우리의 서비스</h2>

헤딩 계층은 건너뛰지 않기

H1 → H2 → H3 순서로 사용해야 해요. H1 바로 아래에 H3이 오는 건 문서 구조상 논리적이지 않아요. 이건 검색엔진뿐 아니라 스크린 리더 같은 보조 기술에서도 중요한 부분이에요.

GEO 관점에서의 헤딩

AI가 페이지 콘텐츠를 파악할 때, 헤딩 구조를 목차처럼 활용해요. 특히 질문형 헤딩(<h2>배송 기간은 얼마나 걸리나요?</h2>)은 AI의 질의응답 매칭에 직접적으로 도움이 돼요. AI가 사용자의 질문과 유사한 헤딩을 발견하면, 그 바로 아래 문단을 답변으로 추출할 가능성이 높아지거든요.

문단 구조 — AI가 인용하기 좋은 글쓰기

왜 문단 구조가 중요하다는가

GEO에서 가장 실질적으로 영향이 큰 부분이 문단 구조예요.

앞서 말한 것처럼, AI 검색 서비스는 페이지 전체를 통째로 인용하는 게 아니라 특정 구간을 골라서 인용해요. 그래서 각 문단이 독립적으로 의미를 전달할 수 있는 정보 단위로 기능하는지가 중요해요.

최적의 문단 길이에 대해 공식적인 표준은 없지만, 여러 GEO 실무자들은 짧고 핵심이 명확한 문단을 권장하고 있어요. 문단이 너무 길면 핵심 정보가 다른 문장들 사이에 묻히고, 너무 짧으면 맥락이 부족해지거든요. 핵심은 "한 문단에 하나의 명확한 사실이나 주장이 담겨 있고, 그 문단만 떼어 읽어도 의미가 통하는가"예요.

첫 문장에 핵심 사실 배치

저널리즘의 "역피라미드 구조"와 비슷한 접근이에요. 각 문단의 첫 문장에 가장 중요한 정보를 넣는 거예요. AI가 문단의 관련성을 판단할 때 앞부분의 내용이 영향을 줄 수 있고, 여러 GEO 가이드에서도 "답을 먼저 쓰고, 그다음에 깊이를 더하라(Lead with the answer, then deepen it)"는 접근을 권장하고 있어요.

<!-- AI가 인용하기 어려운 구조 -->
<p>
  최근 클라우드 시장의 급격한 성장과 함께 다양한 서비스가 등장하고 있는 가운데,
  많은 기업들이 비용 절감과 확장성을 이유로 클라우드 마이그레이션을 고려하고
  있습니다. 이런 환경에서 우리 서비스의 월 이용 요금은 55,000원입니다.
</p>

<!-- AI가 인용하기 좋은 구조 -->
<p>
  클라우드 서버 호스팅 월 이용 요금은 55,000원입니다. 기본 제공 사양은 vCPU
  2코어, 메모리 4GB, SSD 100GB이며, 트래픽은 월 1TB까지 포함됩니다.
</p>

두 번째 예시에서는 첫 문장에 가격이라는 핵심 정보가 바로 나오고, 이어서 구체적인 사양이 나열되죠. AI가 "이 서비스 가격이 얼마야?"라는 질문에 이 문단을 바로 인용할 수 있어요.

리스트와 표 활용

비교, 나열, 단계별 설명 같은 정보는 <ul>, <ol>, <table> 같은 구조화된 요소로 표현하는 게 좋아요.

<!-- 문단으로 나열된 경우 — 정보 추출이 어려움 -->
<p>
  기본 요금제는 월 33,000원이고, 스탠다드 요금제는 월 55,000원이며, 프리미엄
  요금제는 월 99,000원입니다.
</p>

<!-- 표로 구조화된 경우 — 비교가 쉬움 -->
<table>
  <thead>
    <tr>
      <th>요금제</th>
      <th>월 요금</th>
      <th>용량</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>기본</td>
      <td>33,000원</td>
      <td>50GB</td>
    </tr>
    <tr>
      <td>스탠다드</td>
      <td>55,000원</td>
      <td>100GB</td>
    </tr>
    <tr>
      <td>프리미엄</td>
      <td>99,000원</td>
      <td>500GB</td>
    </tr>
  </tbody>
</table>

검색엔진은 <table> 안의 데이터를 구조적으로 해석할 수 있고, AI는 표 형태의 정보를 비교·요약하는 데 특히 강해요.

FAQ 구조 — AI 인용의 가장 직접적인 경로

왜 FAQ가 GEO에서 중요한가

AI가 사용자 질문에 답할 때 가장 쉽게 활용할 수 있는 구조가 FAQ예요. 질문과 답변이 1:1로 매칭되어 있으면, AI는 사용자의 질문과 유사한 질문을 찾아서 해당 답변을 바로 인용할 수 있거든요.

질문-답변 근접 배치

FAQ를 만들 때 중요한 건, 질문 바로 아래에 답변이 오는 구조예요. 질문 10개를 먼저 나열하고 답변을 한꺼번에 아래에 모아두는 구조는 AI가 매칭하기 어려워요.

<!-- 권장 — 질문 직후에 답변 배치 -->
<section>
  <h2>배송은 얼마나 걸리나요?</h2>
  <p>
    주문 후 보통 2~3 영업일 내에 배송됩니다. 제주 및 도서산간 지역은 1~2일
    추가될 수 있습니다.
  </p>
</section>
<section>
  <h2>반품은 어떻게 하나요?</h2>
  <p>
    마이페이지 > 주문내역에서 반품 신청이 가능합니다. 수령 후 7일 이내에
    신청해야 합니다.
  </p>
</section>

FAQPage Schema — 리치 결과는 끝났지만, 구조화 데이터의 가치는 남아 있다

이 부분에서 한 가지 짚어둘 게 있어요. 2023년 8월 Google이 FAQ 리치 결과를 정부·건강 관련 권위 사이트로 제한했고, 2024년 초부터는 사실상 대부분의 사이트에서 FAQ 리치 스니펫이 표시되지 않게 됐어요.

그래서 "FAQPage Schema를 넣으면 검색 결과에 FAQ 드롭다운이 뜬다"는 기대는 이제 현실적이지 않아요.

다만 FAQPage 구조화 데이터를 아예 빼야 하는 건 아니에요. Google도 "사용되지 않는 구조화 데이터가 있다고 해서 검색에 문제가 생기지는 않는다"고 밝혔고, 더 중요한 건 AI 크롤러가 Q&A 구조를 파악하는 데는 여전히 유용할 수 있다는 점이에요. 검색엔진의 리치 결과 표시 여부와, AI가 콘텐츠를 이해하고 인용하는 과정은 별개의 메커니즘이니까요.

<script type="application/ld+json">
  {
    "@context": "https://schema.org",
    "@type": "FAQPage",
    "mainEntity": [
      {
        "@type": "Question",
        "name": "배송은 얼마나 걸리나요?",
        "acceptedAnswer": {
          "@type": "Answer",
          "text": "주문 후 보통 2~3 영업일 내에 배송됩니다."
        }
      }
    ]
  }
</script>

구조화 데이터 전반에 대해서는 다음 편에서 더 자세히 다룰 예정이에요.

GEO 연구가 말하는, 실제로 효과가 큰 전략들

GEO라는 개념을 처음 제안한 Princeton, Georgia Tech, IIT Delhi, Allen AI 공동 연구팀의 논문에서는 어떤 최적화 전략이 AI 인용률을 실제로 올리는지 정량적으로 측정했어요. 결과가 꽤 흥미로워요.

효과가 큰 전략 (인용률 30~40% 향상)

논문에 따르면, 아래 세 가지 전략이 가장 큰 효과를 보였어요. 이 전략들은 Position-Adjusted Word Count 기준으로 30~40%의 인용률 향상을 기록했어요.

구체적인 통계 추가(Statistics Addition) — "시장이 빠르게 성장하고 있습니다" 대신 "2025년 기준 국내 클라우드 시장 규모는 약 8조 원입니다"처럼 구체적인 수치를 넣는 방식이에요.
전문가 인용 추가(Quotation Addition) — 관련 분야 전문가의 발언이나 견해를 명시적으로 인용하는 거예요. AI 모델이 속성이 명확한 전문가 발언을 신뢰도 높은 콘텐츠로 판단하는 경향이 있어요.
출처 명시(Cite Sources) — 학술 논문, 산업 보고서, 정부 데이터 같은 신뢰할 수 있는 출처를 명시적으로 밝히는 거예요.

효과가 있는 전략 (인용률 15~30% 향상)

가독성 향상 — 문장의 유창성을 높이고, 복잡한 개념을 쉽게 풀어쓰는 것도 효과가 있었어요.

효과가 거의 없는 전략

키워드 스터핑 — 전통 SEO에서 쓰던 키워드 반복 삽입은 GEO에서 거의 효과가 없었어요. AI는 키워드 밀도보다 정보의 구체성과 신뢰성을 더 중요하게 봐요.

정리하면, GEO에서 가장 효과적인 건 "주관적 표현을 객관적 사실로 바꾸는 것"이에요. 수식어 대신 수치, 주장 대신 출처, 모호한 설명 대신 구체적인 데이터.

시맨틱 HTML — div 대신 의미 있는 태그 쓰기

2편에서 "표준 HTML 요소 사용"을 잠깐 언급했는데, 이게 콘텐츠 구조에서도 중요해요.

<div>와 <span>은 의미가 없는 범용 컨테이너예요. 크롤러 입장에서는 "이 안에 뭐가 있는지" 추가 분석 없이는 알 수 없어요. 반면 <article>, <section>, <nav>, <aside>, <main> 같은 시맨틱 태그를 쓰면, 크롤러가 페이지의 구조를 더 빠르고 정확하게 파악할 수 있어요.

<!-- 시맨틱 태그를 활용한 구조 -->
<main>
  <article>
    <h1>SEO 가이드</h1>
    <p>본문 내용...</p>
  </article>
  <aside>관련 링크...</aside>
</main>

AI 크롤러도 마찬가지예요. <article> 안에 있는 콘텐츠는 "이 페이지의 핵심 내용"으로 인식할 가능성이 높고, <aside> 안에 있는 콘텐츠는 부가 정보로 구분할 수 있어요.

콘텐츠 최신성 — 오래된 정보는 신뢰를 잃는다

AI는 최신 정보에 대한 편향(recency bias)이 강해요. 특히 가격, 정책, 기술 사양처럼 변동 가능성이 있는 정보를 다루는 페이지에서는 업데이트 일자가 없으면 AI가 "이 정보가 현재도 유효한지" 판단하기 어려워해요.

<article>
  <h1>2026년 클라우드 서비스 비교</h1>
  <time datetime="2026-04-10">마지막 업데이트: 2026년 4월 10일</time>
  <!-- 본문 -->
</article>

HTML에 날짜를 표시하는 것과 별개로, Article 구조화 데이터에 dateModified를 넣으면 검색엔진이 이 정보를 더 명확하게 인식해요. 변동 가능성이 있는 주제를 다루는 페이지라면 정기적으로 내용을 점검하고, 업데이트 일자를 함께 갱신해주는 게 좋아요.