웹프림

llms.txt · ai.json · robots.txt · AI Crawler Standards

llms.txt 구현
AI 크롤러를 위한 표준 메타데이터

llms.txt · llms-full.txt · ai.json · robots.txt 표준을 정확히 구현합니다.
GPTBot·ClaudeBot·PerplexityBot이 우리 사이트를 정확히 이해하고 인용할 수 있는 인프라.

llms.txt
llms-full.txt
ai.json
GPTBot
ClaudeBot
PerplexityBot

구현하는 4개 표준 파일

각 파일은 다른 역할을 합니다. 4개 모두 정확히 구현해야 AI 크롤러 풀 커버리지가 완성됩니다.

/llms.txt

사이트 인덱스

사이트 메타·핵심 페이지 링크 목록의 짧은 인덱스. AI가 사이트 구조를 빠르게 파악하는 입구.

~ 1-3 KB
/llms-full.txt

핵심 콘텐츠 전문

주요 페이지 콘텐츠 통합 텍스트. AI가 깊이 분석할 때 참고하는 단일 통합 파일.

~ 50-500 KB
/ai.json

AI 정책·연락처

JSON 형식의 사이트 AI 정책·라이선스·연락처·우선순위 콘텐츠 정의 (선택적 표준).

~ 1-5 KB
/robots.txt

크롤러 통제

GPTBot·ClaudeBot·PerplexityBot 등 AI 크롤러별 Allow/Disallow 정책 명시.

~ 1-2 KB

실제 구현 예시

우리가 webpreme.com에 적용한 실제 형식입니다. 사이트별로 콘텐츠를 맞춤 작성합니다.

/llms.txt MARKDOWN
# 웹프림 — 디지털 에이전시 > 한국 본사·뉴질랜드 법인 운영. 홈페이지 제작·ERP·플랫폼 개발 전문. ## Core Pages - [홈페이지 제작 서비스](https://webpreme.com/services/homepage) - [ERP 시스템 개발](https://webpreme.com/services/erp) - [플랫폼 개발](https://webpreme.com/services/platform) - [회사 소개](https://webpreme.com/about) - [포트폴리오](https://webpreme.com/portfolio) ## Content Hubs - [해외 마케팅](https://webpreme.com/landing/overseas-marketing) - [해외 한인업체](https://webpreme.com/landing/overseas-korean-business) - [AI 검색 최적화](https://webpreme.com/landing/ai-search-optimization) ## Optional - [전체 콘텐츠 통합](https://webpreme.com/llms-full.txt) - [인사이트 블로그](https://webpreme.com/insights)
/ai.json JSON
{ "name": "웹프림", "url": "https://webpreme.com", "description": "한국 본사·뉴질랜드 법인의 디지털 에이전시", "contact": { "email": "[email protected]", "contact_url": "https://webpreme.com/request" }, "ai_policy": { "allow_training": true, "allow_citation": true, "attribution_required": true }, "priority_content": [ "https://webpreme.com/services/homepage", "https://webpreme.com/services/erp", "https://webpreme.com/services/platform" ], "languages": ["ko", "en"], "last_updated": "2025-01-15" }
/robots.txt PLAIN
# 일반 검색 크롤러 User-agent: * Allow: / Sitemap: https://webpreme.com/sitemap.xml # OpenAI ChatGPT 크롤러 User-agent: GPTBot Allow: / # Anthropic Claude 크롤러 User-agent: ClaudeBot Allow: / # Perplexity 크롤러 User-agent: PerplexityBot Allow: / # Google AI / Gemini 크롤러 User-agent: Google-Extended Allow: / # 메타·X 등 추가 AI 크롤러 User-agent: CCBot Allow: / User-agent: Applebot-Extended Allow: /

대응하는 AI 크롤러 8종

각 크롤러는 다른 목적·정책을 가집니다. 비즈니스 사이트는 일반적으로 모두 Allow가 유리합니다.

🤖
GPTBot
OpenAI
ChatGPT 학습·실시간 검색
💬
ClaudeBot
Anthropic
Claude 학습·실시간 검색
🔮
PerplexityBot
Perplexity AI
실시간 검색·인용 최적화
Google-Extended
Google
Gemini·Bard·AI Overview
🌐
Bingbot
Microsoft
Bing AI·Copilot
📚
CCBot
Common Crawl
대부분 LLM 학습 데이터
🍎
Applebot-Extended
Apple
Apple Intelligence
🔷
Meta-ExternalAgent
Meta
Meta AI·Llama

구현 제공 범위

📝

llms.txt 작성

사이트 구조 분석·핵심 페이지 선별·표준 마크다운 작성.

📚

llms-full.txt 통합

핵심 콘텐츠 추출·통합 파일 생성·자동 갱신 스크립트.

🔧

ai.json 정의

AI 정책·라이선스·우선순위 콘텐츠 JSON 정의.

🤖

robots.txt 정책

AI 크롤러별 Allow/Disallow + 학습/인용 정책 분리 가능.

🔄

자동 갱신 시스템

새 페이지 발행 시 llms.txt·llms-full.txt 자동 업데이트 스크립트.

📊

크롤러 접근 모니터링

서버 로그 분석·각 AI 크롤러 방문 빈도·페이지 추적 리포트.

구현 5단계

1

현재 상태 진단

기존 robots.txt 분석·AI 크롤러 접근 정책·sitemap 정합성 점검.

2

사이트 구조 분석

핵심 페이지·콘텐츠 허브·우선순위 콘텐츠 선별·llms.txt 구조 설계.

3

4개 파일 작성·구현

llms.txt·llms-full.txt·ai.json·robots.txt 생성 + 서버 라우팅 설정.

4

자동 갱신 스크립트

콘텐츠 변경 시 자동 재생성·sitemap 동기화·CI/CD 통합.

5

검증·모니터링

크롤러 접근 로그 분석·AI 인용 변화 추적·분기별 리포트.

llms.txt 구현 자주 묻는 질문

llms.txt는 정확히 무엇인가요?

llms.txt는 2024년 Jeremy Howard가 제안한 표준으로, 사이트 루트(/llms.txt)에 두는 마크다운 파일입니다. AI/LLM이 사이트 구조와 핵심 콘텐츠를 빠르게 이해하도록 사이트 요약·핵심 페이지 링크·중요 컨텍스트를 제공합니다. robots.txt가 크롤러 통제용이라면 llms.txt는 크롤러 안내용입니다.

llms.txt와 llms-full.txt의 차이는?

llms.txt는 사이트 메타·핵심 링크 목록의 짧은 인덱스(보통 1~3KB)이고, llms-full.txt는 핵심 콘텐츠 전문이 포함된 통합 파일입니다. AI가 짧은 컨텍스트에서는 llms.txt만 보고, 깊이 분석할 때는 llms-full.txt를 참고하는 구조입니다.

ai.json은 또 다른 표준인가요?

ai.json은 일부 사이트가 사용하는 비공식 표준으로, JSON 형식으로 사이트의 AI 정책·연락처·라이선스·우선순위 콘텐츠를 정의합니다. llms.txt가 사실상 표준으로 자리잡았지만, 양쪽 모두 구현하면 구식·신식 AI 크롤러에 모두 대응됩니다.

GPTBot·ClaudeBot·PerplexityBot은 robots.txt에서 어떻게 다루나요?

각 크롤러는 별도 User-agent를 가집니다. robots.txt에서 명시적으로 Allow하면 학습·인용에 우리 콘텐츠가 활용됩니다. AI 학습을 원하지 않으면 Disallow, 인용은 허용하되 학습은 차단하려면 별도 정책이 필요합니다. 대부분 비즈니스 사이트는 모두 Allow가 유리합니다.

llms.txt를 만들면 즉시 효과가 있나요?

도입 초기라 표준화가 진행 중이지만 OpenAI·Anthropic·Perplexity가 점진적으로 채택하고 있습니다. 지금 구현하면 향후 AI 검색 환경에서 우위를 가질 수 있고, 동시에 콘텐츠 구조를 정리하는 부수 효과로 SEO에도 도움이 됩니다. 비용 대비 리스크가 낮아 선제적 구현을 권장합니다.

구현 후 운영은 어떻게 하나요?

사이트 콘텐츠 변경 시 자동 재생성하는 스크립트를 함께 구축합니다. 새 페이지 발행·기존 페이지 수정 시 llms.txt가 자동 업데이트되고, sitemap.xml과 동기화됩니다. 한 번 세팅하면 별도 운영 부담은 없습니다.

llms.txt, 지금 구현하세요

현재 사이트 구조와 사용 중인 robots.txt만 알려주시면 무료 진단·구현 견적을 드립니다.
한 번 구축하면 AI 검색 환경 변화에 미리 대비됩니다.

llms.txt 무료 진단 →
상담 시 준비: 사이트 URL · 콘텐츠 페이지 수 · 핵심 페이지 5~10개