Toolypet
Back to Blog
SEO

Robots.txt संपूर्ण गाइड: सर्च इंजन क्रॉलर नियंत्रित करना

robots.txt फाइल लिखने का तरीका और सर्च इंजन क्रॉलर को प्रभावी ढंग से प्रबंधित करने की विधि जानें।

Toolypet Team6 min read
Robots.txt संपूर्ण गाइड: सर्च इंजन क्रॉलर नियंत्रित करना

Robots.txt की भूमिका और सीमाएं

robots.txt वेबसाइट की रूट डायरेक्टरी में स्थित टेक्स्ट फाइल है जो सर्च इंजन क्रॉलर को बताती है कि कौन से पेज क्रॉल करने हैं। 1994 में स्थापित Robots Exclusion Protocol का हिस्सा, वेब की शुरुआत से उपयोग होने वाला मानक है।

https://example.com/robots.txt

लेकिन एक महत्वपूर्ण बात स्पष्ट करनी होगी: robots.txt अनुशंसा है। अच्छे सर्च इंजन बॉट इसका सम्मान करते हैं, लेकिन दुर्भावनापूर्ण बॉट या वेब स्क्रेपर इसे अनदेखा कर सकते हैं। इसलिए robots.txt को सुरक्षा टूल के रूप में उपयोग न करें। संवेदनशील डेटा अनिवार्य रूप से ऑथेंटिकेशन और एक्सेस कंट्रोल से सुरक्षित करें।

क्रॉलर robots.txt कैसे प्रोसेस करता है

सर्च इंजन क्रॉलर वेबसाइट पर आने पर सबसे पहले robots.txt जांचता है। प्रोसेसिंग क्रम इस प्रकार है:

  1. /robots.txt रिक्वेस्ट
  2. फाइल न हो तो → सभी पेज क्रॉलिंग अनुमत
  3. फाइल हो तो → नियमों के अनुसार क्रॉलिंग
  4. अपने लिए लागू User-agent ब्लॉक खोजना
  5. सबसे विशिष्ट नियम लागू करना

नियम मैचिंग में महत्वपूर्ण बात, Allow और Disallow एक ही पाथ पर लागू हों तो अधिक विशिष्ट नियम प्राथमिक होता है। समान विशिष्टता पर Allow प्राथमिक।

व्याकरण विस्तृत गाइड

मूल निर्देश

User-agent: *
Disallow: /admin/
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xml
Crawl-delay: 10
निर्देशविवरणउदाहरण
User-agentलक्षित क्रॉलर निर्दिष्ट (* सभी बॉट)User-agent: Googlebot
Disallowक्रॉलिंग प्रतिबंधित पाथDisallow: /private/
Allowक्रॉलिंग अनुमत पाथ (Disallow का अपवाद)Allow: /private/open/
Sitemapसाइटमैप URL (एब्सोल्यूट पाथ)Sitemap: https://...
Crawl-delayक्रॉलिंग इंटरवल (सेकंड) - कुछ बॉट ही सपोर्टCrawl-delay: 10

वाइल्डकार्ड और पाथ एंड मार्कर

robots.txt सीमित पैटर्न मैचिंग सपोर्ट करता है:

  • * - सभी स्ट्रिंग (0 या अधिक)
  • $ - पाथ का अंत
# सभी .pdf फाइल ब्लॉक
Disallow: /*.pdf$

# क्वेरी पैरामीटर वाले URL ब्लॉक
Disallow: /*?

# विशेष पैरामीटर ब्लॉक
Disallow: /*?sort=
Disallow: /*?filter=

# सेशन ID वाले URL ब्लॉक
Disallow: /*sessionid

# विशेष डायरेक्टरी की सभी PHP फाइल ब्लॉक
Disallow: /scripts/*.php$

सावधानी: वाइल्डकार्ड केवल पाथ मैचिंग में उपयोग होते हैं। रेगुलर एक्सप्रेशन सपोर्टेड नहीं।

प्रमुख सर्च इंजन और AI क्रॉलर

वेबसाइट पर आने वाले प्रमुख बॉट जानना उपयोगी है:

सर्च इंजन बॉट

User-agentसर्विसविवरण
GooglebotGoogle सर्चवेब सर्च के लिए
Googlebot-ImageGoogle इमेजइमेज सर्च के लिए
BingbotBingMicrosoft सर्च
YetiNaverनेवर सर्च
BaiduspiderBaiduचीनी सर्च
DuckDuckBotDuckDuckGoप्राइवेसी सर्च

AI क्रॉलर (2024 के बाद तेज वृद्धि)

User-agentसर्विसविवरण
GPTBotOpenAIChatGPT ट्रेनिंग डेटा
ChatGPT-UserOpenAIChatGPT ब्राउज़िंग फीचर
CCBotCommon Crawlओपन डेटासेट संग्रह
anthropic-aiAnthropicClaude ट्रेनिंग डेटा
Claude-WebAnthropicClaude वेब सर्च
Google-ExtendedGoogleGemini ट्रेनिंग डेटा

AI ट्रेनिंग क्रॉलर ब्लॉक करने के लिए:

# AI ट्रेनिंग क्रॉलर ब्लॉक
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

व्यावहारिक उदाहरण: स्थिति अनुसार सेटिंग

पूर्ण अनुमति (डिफॉल्ट)

User-agent: *
Allow: /

पूर्ण ब्लॉक (डेवलपमेंट/स्टेजिंग वातावरण)

User-agent: *
Disallow: /

सामान्य वेबसाइट

User-agent: *
Allow: /

# एडमिन क्षेत्र
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /dashboard/

# यूज़र व्यक्तिगत क्षेत्र
Disallow: /account/
Disallow: /profile/
Disallow: /my-*/

# सर्च रिजल्ट (डुप्लिकेट कंटेंट रोकथाम)
Disallow: /search/
Disallow: /*?q=
Disallow: /*?s=

# अस्थायी/डेवलपमेंट फाइल
Disallow: /tmp/
Disallow: /staging/
Disallow: /_*/

# साइटमैप
Sitemap: https://example.com/sitemap.xml

ई-कॉमर्स साइट

User-agent: *
Allow: /

# खरीद प्रक्रिया (क्रॉलिंग अनावश्यक)
Disallow: /cart/
Disallow: /checkout/
Disallow: /order/

# यूज़र अकाउंट
Disallow: /my-account/
Disallow: /wishlist/

# फिल्टर/सॉर्ट प्रोडक्ट लिस्ट (डुप्लिकेट रोकथाम)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*&

# इंटरनल सर्च
Disallow: /search/

# प्राइस कंपेरिज़न बॉट अनुमति (वैकल्पिक)
User-agent: PriceSpider
Allow: /

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/product-sitemap.xml

ब्लॉग/मीडिया साइट

User-agent: *
Allow: /

# टैग/कैटेगरी पेज (वैकल्पिक - डुप्लिकेट कंटेंट चिंता पर)
Disallow: /tag/
Disallow: /category/page/

# ऑथर आर्काइव
Disallow: /author/

# अटैचमेंट पेज
Disallow: /attachment/

# मीडिया फाइल डायरेक्ट एक्सेस
Allow: /wp-content/uploads/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

आम गलतियां और समाधान

1. स्लैश मिसिंग

# गलत - "admin" से शुरू होने वाले सभी पाथ ब्लॉक
Disallow: admin

# सही - /admin/ डायरेक्टरी ही ब्लॉक
Disallow: /admin/

2. केस एरर

निर्देश नाम केस-सेंसिटिव हैं:

# गलत
user-agent: *
disallow: /admin/

# सही
User-agent: *
Disallow: /admin/

3. CSS/JS ब्लॉक से रेंडरिंग समस्या

2015 से Google पेज रेंडर करके कंटेंट समझता है। CSS और JavaScript ब्लॉक करने पर Google पेज ठीक से नहीं समझ सकता:

# गलत - रेंडरिंग रिसोर्स ब्लॉक
Disallow: /css/
Disallow: /js/
Disallow: *.css$
Disallow: *.js$

# सही - स्टैटिक रिसोर्स अनुमति
Allow: /css/
Allow: /js/
Allow: /images/

4. गलती से पूरी साइट ब्लॉक

# बहुत खतरनाक! पूरी साइट ब्लॉक
User-agent: *
Disallow: /

यह सेटिंग प्रोडक्शन में डिप्लॉय करने पर सर्च रिजल्ट से गायब हो सकते हैं।

robots.txt vs meta robots vs X-Robots-Tag

तीन विधियों के अलग-अलग उपयोग और प्राथमिकता हैं:

विधिस्थानउपयोगक्रॉलिंगइंडेक्सिंग
robots.txtरूट डायरेक्टरीक्रॉलिंग नियंत्रणOX
meta robotsHTML headइंडेक्सिंग नियंत्रणXO
X-Robots-TagHTTP हेडरनॉन-HTML रिसोर्सXO

महत्वपूर्ण: robots.txt से ब्लॉक करने पर भी पेज सर्च रिजल्ट में आ सकता है। अन्य साइट से लिंक होने पर Google URL जान जाता है और कंटेंट बिना केवल URL दिखा सकता है।

सर्च रिजल्ट से पूरी तरह हटाने के लिए:

<!-- उस पेज के head में जोड़ें -->
<meta name="robots" content="noindex, nofollow">

robots.txt वेरिफिकेशन विधि

Google Search Console

  1. Search Console एक्सेस करें
  2. बाएं मेन्यू में "सेटिंग्स" → "robots.txt"
  3. "लाइव टेस्ट" फीचर से URL ब्लॉक स्थिति जांचें

कमांड लाइन से जांच

# वर्तमान robots.txt कंटेंट जांचें
curl https://example.com/robots.txt

# विशेष बॉट दृष्टिकोण से सिम्युलेशन (Python आवश्यक)
pip install robotexclusionrulesparser
python -c "
import robotexclusionrulesparser as rerp
rp = rerp.RobotExclusionRulesParser()
rp.fetch('https://example.com/robots.txt')
print(rp.is_allowed('Googlebot', '/admin/'))
"

क्रॉल बजट ऑप्टिमाइजेशन

बड़ी साइट में "क्रॉल बजट" महत्वपूर्ण है। यह Google द्वारा साइट को आवंटित क्रॉलिंग संसाधनों की मात्रा है। robots.txt से अनावश्यक पेज ब्लॉक करने पर महत्वपूर्ण पेज अधिक बार क्रॉल होते हैं।

क्रॉल बजट बर्बाद करने वाले पेज:

  • फिल्टर/सॉर्ट प्रोडक्ट लिस्ट
  • सेशन ID वाले URL
  • अनंत कैलेंडर
  • इंटरनल सर्च रिजल्ट
  • प्रिंट वर्जन पेज

Toolypet Robots.txt Generator

जटिल robots.txt भी आसानी से बनाएं:

  1. ब्लॉक करने के पाथ पैटर्न चुनें
  2. विशेष बॉट ब्लॉक सेटिंग
  3. साइटमैप URL दर्ज करें
  4. प्रीव्यू से जांचें
  5. पूर्ण फाइल डाउनलोड करें

सही robots.txt से क्रॉलिंग बजट कुशलता से उपयोग करें और महत्वपूर्ण कंटेंट सर्च रिजल्ट में अच्छी तरह दिखे।

SEORobots.txtCrawlerSearch Engine