Toolypet - Developer Tools Collection

Robots.txt की भूमिका और सीमाएं

robots.txt वेबसाइट की रूट डायरेक्टरी में स्थित टेक्स्ट फाइल है जो सर्च इंजन क्रॉलर को बताती है कि कौन से पेज क्रॉल करने हैं। 1994 में स्थापित Robots Exclusion Protocol का हिस्सा, वेब की शुरुआत से उपयोग होने वाला मानक है।

https://example.com/robots.txt

लेकिन एक महत्वपूर्ण बात स्पष्ट करनी होगी: robots.txt अनुशंसा है। अच्छे सर्च इंजन बॉट इसका सम्मान करते हैं, लेकिन दुर्भावनापूर्ण बॉट या वेब स्क्रेपर इसे अनदेखा कर सकते हैं। इसलिए robots.txt को सुरक्षा टूल के रूप में उपयोग न करें। संवेदनशील डेटा अनिवार्य रूप से ऑथेंटिकेशन और एक्सेस कंट्रोल से सुरक्षित करें।

क्रॉलर robots.txt कैसे प्रोसेस करता है

सर्च इंजन क्रॉलर वेबसाइट पर आने पर सबसे पहले robots.txt जांचता है। प्रोसेसिंग क्रम इस प्रकार है:

/robots.txt रिक्वेस्ट
फाइल न हो तो → सभी पेज क्रॉलिंग अनुमत
फाइल हो तो → नियमों के अनुसार क्रॉलिंग
अपने लिए लागू User-agent ब्लॉक खोजना
सबसे विशिष्ट नियम लागू करना

नियम मैचिंग में महत्वपूर्ण बात, Allow और Disallow एक ही पाथ पर लागू हों तो अधिक विशिष्ट नियम प्राथमिक होता है। समान विशिष्टता पर Allow प्राथमिक।

व्याकरण विस्तृत गाइड

मूल निर्देश

User-agent: *
Disallow: /admin/
Allow: /admin/public/
Sitemap: https://example.com/sitemap.xml
Crawl-delay: 10

निर्देश	विवरण	उदाहरण
User-agent	लक्षित क्रॉलर निर्दिष्ट (`*` सभी बॉट)	`User-agent: Googlebot`
Disallow	क्रॉलिंग प्रतिबंधित पाथ	`Disallow: /private/`
Allow	क्रॉलिंग अनुमत पाथ (Disallow का अपवाद)	`Allow: /private/open/`
Sitemap	साइटमैप URL (एब्सोल्यूट पाथ)	`Sitemap: https://...`
Crawl-delay	क्रॉलिंग इंटरवल (सेकंड) - कुछ बॉट ही सपोर्ट	`Crawl-delay: 10`

वाइल्डकार्ड और पाथ एंड मार्कर

robots.txt सीमित पैटर्न मैचिंग सपोर्ट करता है:

* - सभी स्ट्रिंग (0 या अधिक)
$ - पाथ का अंत

# सभी .pdf फाइल ब्लॉक
Disallow: /*.pdf$

# क्वेरी पैरामीटर वाले URL ब्लॉक
Disallow: /*?

# विशेष पैरामीटर ब्लॉक
Disallow: /*?sort=
Disallow: /*?filter=

# सेशन ID वाले URL ब्लॉक
Disallow: /*sessionid

# विशेष डायरेक्टरी की सभी PHP फाइल ब्लॉक
Disallow: /scripts/*.php$

सावधानी: वाइल्डकार्ड केवल पाथ मैचिंग में उपयोग होते हैं। रेगुलर एक्सप्रेशन सपोर्टेड नहीं।

प्रमुख सर्च इंजन और AI क्रॉलर

वेबसाइट पर आने वाले प्रमुख बॉट जानना उपयोगी है:

सर्च इंजन बॉट

User-agent	सर्विस	विवरण
Googlebot	Google सर्च	वेब सर्च के लिए
Googlebot-Image	Google इमेज	इमेज सर्च के लिए
Bingbot	Bing	Microsoft सर्च
Yeti	Naver	नेवर सर्च
Baiduspider	Baidu	चीनी सर्च
DuckDuckBot	DuckDuckGo	प्राइवेसी सर्च

AI क्रॉलर (2024 के बाद तेज वृद्धि)

User-agent	सर्विस	विवरण
GPTBot	OpenAI	ChatGPT ट्रेनिंग डेटा
ChatGPT-User	OpenAI	ChatGPT ब्राउज़िंग फीचर
CCBot	Common Crawl	ओपन डेटासेट संग्रह
anthropic-ai	Anthropic	Claude ट्रेनिंग डेटा
Claude-Web	Anthropic	Claude वेब सर्च
Google-Extended	Google	Gemini ट्रेनिंग डेटा

AI ट्रेनिंग क्रॉलर ब्लॉक करने के लिए:

# AI ट्रेनिंग क्रॉलर ब्लॉक
User-agent: GPTBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: Google-Extended
Disallow: /

व्यावहारिक उदाहरण: स्थिति अनुसार सेटिंग

पूर्ण अनुमति (डिफॉल्ट)

User-agent: *
Allow: /

पूर्ण ब्लॉक (डेवलपमेंट/स्टेजिंग वातावरण)

User-agent: *
Disallow: /

सामान्य वेबसाइट

User-agent: *
Allow: /

# एडमिन क्षेत्र
Disallow: /admin/
Disallow: /wp-admin/
Disallow: /dashboard/

# यूज़र व्यक्तिगत क्षेत्र
Disallow: /account/
Disallow: /profile/
Disallow: /my-*/

# सर्च रिजल्ट (डुप्लिकेट कंटेंट रोकथाम)
Disallow: /search/
Disallow: /*?q=
Disallow: /*?s=

# अस्थायी/डेवलपमेंट फाइल
Disallow: /tmp/
Disallow: /staging/
Disallow: /_*/

# साइटमैप
Sitemap: https://example.com/sitemap.xml

ई-कॉमर्स साइट

User-agent: *
Allow: /

# खरीद प्रक्रिया (क्रॉलिंग अनावश्यक)
Disallow: /cart/
Disallow: /checkout/
Disallow: /order/

# यूज़र अकाउंट
Disallow: /my-account/
Disallow: /wishlist/

# फिल्टर/सॉर्ट प्रोडक्ट लिस्ट (डुप्लिकेट रोकथाम)
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?color=
Disallow: /*?size=
Disallow: /*&

# इंटरनल सर्च
Disallow: /search/

# प्राइस कंपेरिज़न बॉट अनुमति (वैकल्पिक)
User-agent: PriceSpider
Allow: /

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/product-sitemap.xml

ब्लॉग/मीडिया साइट

User-agent: *
Allow: /

# टैग/कैटेगरी पेज (वैकल्पिक - डुप्लिकेट कंटेंट चिंता पर)
Disallow: /tag/
Disallow: /category/page/

# ऑथर आर्काइव
Disallow: /author/

# अटैचमेंट पेज
Disallow: /attachment/

# मीडिया फाइल डायरेक्ट एक्सेस
Allow: /wp-content/uploads/

Sitemap: https://example.com/sitemap.xml
Sitemap: https://example.com/news-sitemap.xml

आम गलतियां और समाधान

1. स्लैश मिसिंग

# गलत - "admin" से शुरू होने वाले सभी पाथ ब्लॉक
Disallow: admin

# सही - /admin/ डायरेक्टरी ही ब्लॉक
Disallow: /admin/

2. केस एरर

निर्देश नाम केस-सेंसिटिव हैं:

# गलत
user-agent: *
disallow: /admin/

# सही
User-agent: *
Disallow: /admin/

3. CSS/JS ब्लॉक से रेंडरिंग समस्या

2015 से Google पेज रेंडर करके कंटेंट समझता है। CSS और JavaScript ब्लॉक करने पर Google पेज ठीक से नहीं समझ सकता:

# गलत - रेंडरिंग रिसोर्स ब्लॉक
Disallow: /css/
Disallow: /js/
Disallow: *.css$
Disallow: *.js$

# सही - स्टैटिक रिसोर्स अनुमति
Allow: /css/
Allow: /js/
Allow: /images/

4. गलती से पूरी साइट ब्लॉक

# बहुत खतरनाक! पूरी साइट ब्लॉक
User-agent: *
Disallow: /

यह सेटिंग प्रोडक्शन में डिप्लॉय करने पर सर्च रिजल्ट से गायब हो सकते हैं।

robots.txt vs meta robots vs X-Robots-Tag

तीन विधियों के अलग-अलग उपयोग और प्राथमिकता हैं:

विधि	स्थान	उपयोग	क्रॉलिंग	इंडेक्सिंग
robots.txt	रूट डायरेक्टरी	क्रॉलिंग नियंत्रण	O	X
meta robots	HTML head	इंडेक्सिंग नियंत्रण	X	O
X-Robots-Tag	HTTP हेडर	नॉन-HTML रिसोर्स	X	O

महत्वपूर्ण: robots.txt से ब्लॉक करने पर भी पेज सर्च रिजल्ट में आ सकता है। अन्य साइट से लिंक होने पर Google URL जान जाता है और कंटेंट बिना केवल URL दिखा सकता है।

सर्च रिजल्ट से पूरी तरह हटाने के लिए:

<!-- उस पेज के head में जोड़ें -->
<meta name="robots" content="noindex, nofollow">

robots.txt वेरिफिकेशन विधि

Google Search Console

Search Console एक्सेस करें
बाएं मेन्यू में "सेटिंग्स" → "robots.txt"
"लाइव टेस्ट" फीचर से URL ब्लॉक स्थिति जांचें

कमांड लाइन से जांच

# वर्तमान robots.txt कंटेंट जांचें
curl https://example.com/robots.txt

# विशेष बॉट दृष्टिकोण से सिम्युलेशन (Python आवश्यक)
pip install robotexclusionrulesparser
python -c "
import robotexclusionrulesparser as rerp
rp = rerp.RobotExclusionRulesParser()
rp.fetch('https://example.com/robots.txt')
print(rp.is_allowed('Googlebot', '/admin/'))
"

क्रॉल बजट ऑप्टिमाइजेशन

बड़ी साइट में "क्रॉल बजट" महत्वपूर्ण है। यह Google द्वारा साइट को आवंटित क्रॉलिंग संसाधनों की मात्रा है। robots.txt से अनावश्यक पेज ब्लॉक करने पर महत्वपूर्ण पेज अधिक बार क्रॉल होते हैं।

क्रॉल बजट बर्बाद करने वाले पेज:

फिल्टर/सॉर्ट प्रोडक्ट लिस्ट
सेशन ID वाले URL
अनंत कैलेंडर
इंटरनल सर्च रिजल्ट
प्रिंट वर्जन पेज

Toolypet Robots.txt Generator

जटिल robots.txt भी आसानी से बनाएं:

ब्लॉक करने के पाथ पैटर्न चुनें
विशेष बॉट ब्लॉक सेटिंग
साइटमैप URL दर्ज करें
प्रीव्यू से जांचें
पूर्ण फाइल डाउनलोड करें

सही robots.txt से क्रॉलिंग बजट कुशलता से उपयोग करें और महत्वपूर्ण कंटेंट सर्च रिजल्ट में अच्छी तरह दिखे।