Robots.txt File Kya Hoti Hai इसे कैसे बनायें

 Robot.txt File क्या है और इसे कैसे बनायें 

Robot.txt file एक छोटा सा text फाइल होता हैं जो आपके साइट के root folder में रहता हैं यह सर्च इंजन bots को भी बताता हैं की साइट के किस भाग को Crawl और index करना हैं और किसे नहीं।

यदि आप इसे edit /customize करते समय गलती करते हैं तो सर्च इंजन bots आपके साइट को crawl और index करना बंद कर देंगे और आपकी साइट सर्च रिजल्ट में नहीं आयेगी। 

इस आर्टिकल में आपको में बताऊंगा की robot.txt file क्या हैं और सर्च इंजन ऑप्टिमाइजेशन के लिए एक बेस्ट robot.txt file कैसे बनायें। 

Robots.txt File Kya Hoti Hai इसे कैसे बनायें


Robot.txt वेबसाइट के लिए क्यों जरूरी हैं 

सर्च इंजन Bots जब वेबसाइट और ब्लॉग पर आतें हैं तो वो robot फाइल को फॉलो करते हैं और कंटेंट को crawl करते हैं लेकिन आपकी साइट में robots.txt file नहीं होगी तो सर्च इंजन bots आपके वेबसाइट के सभी कंटेंट को इंडेक्स और क्रॉल करना शुरू कर  देंगे  जिन्हे आप index करना नहीं चाहते हैं। 

सर्च इंजन Bots किसी भी वेबसाइट को इंडेक्स करने से पहले robots file को खोजते हैं जब उन्हें robots.txt file द्वारा कोई Instructions नहीं मिलता हैं तो ये वेबसाइट के सभी कंटेंट को इंडेक्स करना शुरू कर देता हैं और कोई instruction मिलता हैं तो उसका पालन करते हुए वेबसाइट को इंडेक्स करते हैं। 

अत: इन्ही कारणों से Robot .text file की आवश्क पड़ती हैं अगर हम फाइल के द्वारा सर्च इंजन Bots को Instruction नहीं देते हैं तो वे हमारी साइट को तो इंडेक्स कर लेते हैं साथ ही कुछ ऐसे डाटा को इंडेक्स कर लेते हैं जीने आप इंडेक्स नहीं करना चाहते थे। 


Robot.txt फाइल के फायदे 

  • सर्च इंजन bots को भी बताता हैं की साइट किस भाग को crawl और इंडेक्स करना हैं और किस भाग को नहीं। 
  • किसी ख़ास फाइल ,फोल्डर ,इमेज ,पीडीऍफ़,आदि को सर्च इंजन में इंडेक्स होने से रोका जा सकता हैं। 
  • कभी कभी सर्च इंजन क्रॉलर आपके साइट को भूखें शेर की तरहे क्रॉल करते हैं जिससे आपकी साइट performance पर असर पड़ता हैं लेकिन आप अपने robot file में crawl -delay जोड़कर इस प्रॉब्लम से छुटकारा पा सकतें हैं हालकि Googlebot इस command को नहीं मानता हैं लेकिन  crawl rate को आप Google search console में सेट कर  सकते हैं यह आपके सर्वर को ओवरलोड होने से बचता हैं। 
  • किसी भी वेबसाइट के पुरे सेक्शन को private कर सकतें हैं। 
  • Internal सर्च रिजल्ट page को SERPs में दिखाने से रोक सकतें हैं। 


Website में robots.txt फाइल कहाँ रहता हैं 

यदि आप एक ब्लॉगर user  हैं तो यह आपकी सेटिंग में Crawlers and indexing के निचे और ऑप्शन दिखेगा Enable custom robots.txt फिर उसके बाद ये वाला ऑप्शन दिखेगा जिसमे हम अपना robot. file देख सकतें हैं अगर इस लोकेशन में यह फाइल नहीं मिलती हैं तो सर्च इंजन bot आपकी पूरी वेबसाइट को index करना शुरू कर देते हैं क्योँकि सर्च इंज bot robots.txt फाइल के लिए आपकी पुरे वेबसाइट को सर्च नहीं करते हैं। 

यदि आपको पता नहीं की आपकी साइट में robots.txt file हैं या नहीं ? तो सर्च इंजन address bar में बस आपको यह type करना हैं - example .com /robots.txt 

आपके सामने एक text पेज open हो जायेगी जैसे की आप screenshot में देख सकतें हैं। 




Robots.txt File की Basic Format 

Robot.txt फाइल की basic format बहुत सिंपल हैं और यह कुछ इस तरह दिखती हैं 

User -agent :[user -agent name ]

Disallow : [Url या पेज जिसे आप क्रॉल नहीं करना चाहते हैं ]

इन दो command को एक compelte robot.txt फाइल मन जाता हैं हालंकि एक robots file में user agent और directives के कई command हो सकते हैं [disallow ,allows ,crawls ,crwal -delays आदि ]

  • User -agent :  सर्च इंजन crawlers /Bots होते हैं अगर आप सभी सर्च इंजन bots को same instruction देना चाहते हैं तो user -agent: के बाद *चिन्ह का प्रयोग करें जैसे -User agent :*
  • Disallow :  यह files और directories को index होने से रोकता हैं 
  • Allow : यह सर्च इंजन bots को आपके कंटेंट crawl और index करने की अनुमति प्रदान करता हैं 
  • Crwal -delay : पेज कंटेंट को loading और crawling करने से पहले कितने सेकंड तक bots को इंतज़ार करना हैं 

सभी  Web  Crawlers को वेबसाइट  Index  करने से रोकना

User -agent:*
Disallow :/

Robots.txt फाइल में इस कमांड का उपयोग करके सभी web crawlers /bots को वेबसाइट क्रॉलिंग करने से रोक सकतें हैं  

सभी कंटेंट को index करने के लिए सभी web crawlers को अनुमति देना 

User -agent :*
Disallow :

Robots. txt फाइल में यह command सभी सर्च इंजन बोट्स को आपकी साइट के सभी पेज क्रॉल करने की अनुमति देता हैं 

एक specific फोल्डर को Specific web Crawlers के लिए Block करना 

User -agent : Googlebot 
Disallow :/example -subfolder /

यह command केवल गूगल क्रॉलर को example -subfolder क्रॉल करने से रोकता हैं लेकिन यदि आप सभी crawlers को block करना चाहते हैं तो आपकी ROBOTS.FILE इस प्रकार होगी 

User -agent :*
Disallow :/example -subfolder/

एक specific पेज (Thank you page ) को index  होने से रोकता हैं 

User -agent :*
Disallow :/page URL (Thank you page )

यह सभी क्रॉलर्स को आपके पेज url को क्रॉल करने से रोकेगा लेकिन यदि specific Crawlers को ब्लॉक करना चाहते हैं तो आप इसे ऐसे लिखे। 

User -agent : Bingbot 
Disallow :/page URL 

यह command  केवल Bingbot को आपके पेज URL को crawl करने से रोकेगा। 

Robot.txt File में Sitemap add करना 

sitemap:htpps://www.example.com/sitemap.xml 

आप अपनी sitemap को robot. txt में कही भी add कर सकतें हैं सबसे ऊपर या एकदम निचे। 

आप इस आर्टिकल से संब्धित किसी भी प्रकार के प्रश्न या सुझाव के लिए कमेंट कर सकतें हैं अगर यह आर्टिकल आपके लिए मददगार साबित हुई हैं तो इसे अपने सोशल प्लेटफार्म पर भी शेयर क्र सकतें हैं जैसे फेसबुक ,इंस्टाग्राम,ट्विटर,आदि।