Το αρχείο robots.txt είναι ένα από τα σημαντικότερα εργαλεία στη βελτιστοποίηση ιστοσελίδων (SEO). Αν και είναι μόνο ένα απλό αρχείο κειμένου, ουσιαστικά είναι το αρχείο που χρησιμοποιούμε για να θέσουμε τους κανόνες για τον τρόπο που τα bots των μηχανών αναζήτησης, θα αλληλεπιδράσουν με ένα website.

Η σωστή εφαρμογή του έχει αντίκτυπο στην απόδοση ενός ιστοτόπου, από την αποτελεσματικότερη χρήση του crawl budget μέχρι την αποφυγή εμφάνισης ανεπιθύμητου ή διπλότυπου περιεχομένου στα αποτελέσματα αναζήτησης.

Τι είναι το Robots.txt;

Τι είναι το Robots.txt

Το αρχείο robots.txt είναι ένα απλό αρχείο κειμένου που τοποθετείται στο root directory του ιστότοπού σας. 

Για παράδειγμα, αν ο ιστότοπός σας είναι www.example.com, το αρχείο robots.txt θα πρέπει να βρίσκεται στη διεύθυνση www.example.com/robots.txt.

Ο κύριος σκοπός του είναι να υποδείξει στα bots (ή αλλιώς ανιχνευτές, crawlers, spiders) των μηχανών αναζήτησης ποιες σελίδες ή τμήματα του ιστοτόπου επιτρέπεται ή δεν επιτρέπεται να ανιχνεύσουν. Βέβαια, είναι σημαντικό να γνωρίζουμε πως το robots.txt αποτρέπει μόνο την ανίχνευση των σελίδων, αλλά όχι την ευρετηρίαση. Δηλαδή, αν έχουμε αποκρύψει μια ιστοσελίδα από την ανίχνευση, αλλά υπάρχουν εξωτερικοί σύνδεσμοι που οδηγούν σε αυτήν την ιστοσελίδα, η σελίδα αυτή μπορεί να ευρετηριαστεί από τις μηχανές αναζήτησης πιθανότατα χωρίς περιγραφή γιατί το περιεχόμενό της δεν έχει ανιχνευθεί.  Για να αποκρύψουμε μια σελίδα από τις μηχανές αναζήτησης, θα πρέπει να χρησιμοποιήσουμε άλλες μεθόδους, όπως η προσθήκη του no-index ή προσθήκη κωδικού πρόσβασης.

Γιατί είναι σημαντικό το αρχείο robots.txt για το SEO

Η ύπαρξη και η σωστή διαμόρφωση ενός αρχείου robots.txt έχει ιδιαίτερη σημασία στη βελτιστοποίηση της ιστοσελίδας.

Αποφυγή υπερφόρτωσης του server

Όταν πολλοί ανιχνευτές προσπαθούν να επισκεφθούν πολλές σελίδες ταυτόχρονα, μπορεί να επιβαρύνουν την λειτουργία του server. Αποτρέποντας την πρόσβαση των ανιχνευτών σε μη απαραίτητες σελίδες σε σελίδες που δεν χρειάζονται να εμφανιστούν στα οργανικά αποτελέσματα ή που περιέχουν ευαίσθητες πληροφορίες. Για παράδειγμα σελίδες όπως σελίδες διαχείρισης, εσωτερικές σελίδες αναζήτησης ή σελίδες με διπλότυπο περιεχόμενο, βοηθάμε στην αποφυγή της υπερφόρτωσης του διακομιστή.

Βελτιστοποίηση του crawl budget

Οι μηχανές αναζήτησης διαθέτουν έναν συγκεκριμένο χρόνο και πόρους για την ανίχνευση κάθε ιστοτόπου. Καθοδηγώντας τους ανιχνευτές να επικεντρωθούν στις πιο σημαντικές σελίδες και να αποφύγουν τις χαμηλής αξίας ή τις σελίδες με διπλότυπο περιεχόμενο, διασφαλίζoυμε πως το crawl budget χρησιμοποιείται  αποτελεσματικά. Η καλύτερη διαχείρηση του crawl budget οδηγεί σε ταχύτερη και πληρέστερη ευρετηρίαση του σημαντικού περιεχομένου του ιστοτόπου μας.

Αποτροπή ανίχνευσης του διπλότυπου περιεχομένου

Όταν υπάρχουν πολλαπλές εκδόσεις της ίδιας σελίδας προσβάσιμες στους ανιχνευτές, μπορεί να δημιουργηθεί σύγχυση στις μηχανές αναζήτησης σχετικά με την ποια έκδοση πρέπει να κατατάξουν. Χρησιμοποιώντας το robots.txt για να αποκλείσουμε την πρόσβαση σε αυτές τις σελίδες (όπως τα URLs με παραμέτρους), αποφεύγουμε τα προβλήματα κατάταξης. 

Επιπλέον, το robots.txt μπορεί να χρησιμοποιηθεί για να αποτρέψει την ευρετηρίαση συγκεκριμένων αρχείων, όπως εικόνες ή PDF, αν αυτό είναι επιθυμητό. 

Οι Βασικές Directives του αρχείου robots.txt

Η διαμόρφωση του αρχείου robots.txt γίνεται με τη χρήση συγκεκριμένων οδηγιών (directives), οι οποίες καθορίζουν τους κανόνες πρόσβασης για τα bots των μηχανών αναζήτησης. Οι δύο βασικότερες οδηγίες είναι οι User-agent και Disallow .

User-agent

Η οδηγία User-agent χρησιμοποιείται για να καθορίσει σε ποιον συγκεκριμένο ανιχνευτή (bot) απευθύνονται οι κανόνες που ακολουθούν. Μπορούμε να στοχεύσουμε όλους τους ανιχνευτές ή έναν συγκεκριμένο ανιχνευτή για να βελτιστοποιήσουμε την απόδοση του ιστοτόπου και τη χρήση των πόρων του διακομιστή.

  • User-agent: *: Αυτή η σύνταξη με τον αστερίσκο (*) υποδεικνύει ότι οι κανόνες που ακολουθούν θα εφαρμοστούν σε όλους τους ανιχνευτές που επισκέπτονται τον ιστότοπο .
  • User-agent: Googlebot: Αυτή η σύνταξη αναφέρεται συγκεκριμένα στον ανιχνευτή της Google για την αναζήτηση στον ιστό . Η Google διαθέτει επίσης και πιο εξειδικευμένους ανιχνευτές, όπως το Googlebot-Image για εικόνες, το Googlebot-News για ειδήσεις και το Googlebot-Video για βίντεο .
  • User-agent: Bingbot: Αυτή η σύνταξη αναφέρεται στον ανιχνευτή της μηχανής αναζήτησης Bing της Microsoft .

Disallow

Η οδηγία Disallow χρησιμοποιείται για να υποδείξει ποιες διαδρομές URL δεν πρέπει να ανιχνευθούν από τον user-agent που έχει καθοριστεί στην προηγούμενη γραμμή.

  • Disallow: /: Αυτή η οδηγία, όταν ακολουθείται από User-agent: *, θα αποκλείσει την πρόσβαση σε ολόκληρο τον ιστότοπο για όλους τους ανιχνευτές .
  • Disallow: /folder/: Αυτή η οδηγία θα αποκλείσει την πρόσβαση σε ολόκληρο τον φάκελο /folder/ και σε όλο το περιεχόμενό του (υποφακέλους και αρχεία).
  • Disallow: /page.html: Αυτή η οδηγία θα αποκλείσει την πρόσβαση στη συγκεκριμένη σελίδα page.html .

Η οδηγία Disallow χρησιμοποιείται συχνά για τον έλεγχο της ανίχνευσης. Είναι σημαντικό να είμαστε ακριβείς με τις διαδρομές που αποκλείουμε για να αποφύγουμε τον αποκλεισμό σημαντικού περιεχομένου κατά λάθος. 

Allow

Η οδηγία Allow χρησιμοποιείται για να επιτρέψει ρητά την ανίχνευση μιας συγκεκριμένης διαδρομής URL, ακόμη και αν αυτή η διαδρομή εμπίπτει σε έναν γενικότερο κανόνα Disallow. Αυτό είναι ιδιαίτερα χρήσιμο όταν θέλουμε να αποκλείσετε έναν ολόκληρο φάκελο αλλά να επιτρέψετε την πρόσβαση σε ένα ή περισσότερα συγκεκριμένα αρχεία ή υποφακέλους μέσα σε αυτόν. Για παράδειγμα, η ακόλουθη ρύθμιση θα αποκλείσει την πρόσβαση σε ολόκληρο τον φάκελο /wp-admin/ για όλους τους ανιχνευτές, εκτός από το αρχείο admin-ajax.php.

Crawl-delay

Η οδηγία Crawl-delay χρησιμοποιείται για να υποδείξει στις μηχανές αναζήτησης για πόσα δευτερόλεπτα θα πρέπει να καθυστερήσουν μεταξύ των αιτημάτων ανίχνευσης προς τον ιστότοπο ώστε να αποφύγουμε την υπερφόρτωση του server. Για παράδειγμα, η οδηγία Crawl-delay: 10 υποδεικνύει στις μηχανές αναζήτησης που την υποστηρίζουν να περιμένουν τουλάχιστον 10 δευτερόλεπτα πριν κάνουν ένα νέο αίτημα για ανίχνευση. 

Ωστόσο, είναι κρίσιμο να γνωρίζουμε ότι η Google δεν υποστηρίζει πλέον την οδηγία Crawl-delay και την αγνοεί, ενώ άλλες μηχανές αναζήτησης, όπως το Bing και το Yandex, ενδέχεται να εξακολουθούν να υποστηρίζουν την οδηγία Crawl-delay. 

Sitemap

Η οδηγία Sitemap χρησιμοποιείται για να υποδείξει την τοποθεσία του αρχείου Sitemap XML του ιστοτόπου. Το Sitemap (χάρτης ιστοτόπου) είναι ένα αρχείο που περιέχει μια λίστα με όλες τις σημαντικές σελίδες του ιστοτόπου και βοηθά τις μηχανές αναζήτησης να ανακαλύψουν και να ανιχνεύσουν όλο το περιεχόμενο, ειδικά σε μεγάλους ή νέους ιστότοπους. Η οδηγία Sitemap πρέπει να περιλαμβάνει το πλήρες URL του αρχείου Sitemap. Για παράδειγμα:

Sitemap: https://www.example.com/sitemap.xml

Η δήλωση του Sitemap στο αρχείο robots.txt είναι μια βέλτιστη πρακτική που διευκολύνει την ανακάλυψη όλου του περιεχομένου του ιστότοπου από τις μηχανές αναζήτησης, ειδικά για μεγάλους ιστότοπους ή νέους ιστότοπους με λίγα backlinks.

Συμβουλές για τη βελτιστοποίηση του robots.txt

Ρύθμιση αρχείου robots.txt για Websites με λίγες Ιστοσελίδες

Για μικρούς ιστότοπους με λίγες σελίδες, ένα απλό αρχείο robots.txt που δηλώνει την τοποθεσία του Sitemap μπορεί να είναι επαρκές. Είναι χρήσιμο να ελέγξουμε αν υπάρχουν τμήματα που δεν θέλουμε να ανιχνευθούν, όπως ο φάκελος διαχείρισης, και να τα αποκλείσουμε.

Ρύθμιση αρχείου robots.txt για Websites με πολλές Ιστοσελίδες

Για μεγάλους ιστότοπους με χιλιάδες σελίδες, η διαχείριση του crawl budget είναι κρίσιμη. Θα πρέπει να αποκλείσουμε την ανίχνευση σελίδων χαμηλής αξίας, διπλότυπου περιεχομένου, σελίδων με παραμέτρους φιλτραρίσματος και ταξινόμησης, καθώς και μη απαραίτητων αρχείων. Χρησιμοποιήστε την οδηγία Allow με σύνεση για να επιτρέψετε την ανίχνευση συγκεκριμένων σημαντικών σελίδων που μπορεί να βρίσκονται σε γενικότερα αποκλεισμένους φακέλους

Τοποθέτηση αρχείου robots.txt

Το αρχείο robots.txt πρέπει πάντα να βρίσκεται στο root directory του domain του ιστοτόπου. Για ιστότοπους που χρησιμοποιούν subdomains (π.χ., blog.example.com), κάθε υποdomain θα πρέπει να έχει το δικό του αρχείο robots.txt.  Είναι σημαντικό να σημειωθεί ότι το όνομα του αρχείου είναι case-sensitive και πρέπει να είναι πάντα robots.txt με μικρά γράμματα 

Η σωστή τοποθέτηση και ονομασία του αρχείου robots.txt είναι απαραίτητη για να το βρουν και να το επεξεργαστούν οι μηχανές αναζήτησης. Αν το αρχείο δεν βρίσκεται στην αναμενόμενη θέση ή έχει λάθος όνομα, οι οδηγίες του θα αγνοηθούν και τα bots θα υποθέσουν ότι δεν υπάρχουν κανόνες και θα ανιχνεύσουν ολόκληρο τον ιστότοπο.

Δοκιμή του αρχείου robots.txt

Μετά τη δημιουργία ή την τροποποίηση του αρχείου robots.txt, είναι εξαιρετικά σημαντικό να βεβαιωθούμε ότι λειτουργεί όπως αναμένεται και δεν υπάρχουν λάθη που μπορεί να εμποδίσουν την ανίχνευση σημαντικού περιεχομένου. 

Η Google παρέχει ένα χρήσιμο εργαλείο στο Google Search Console για τη δοκιμή του αρχείου robots.txt, το οποίο επιτρέπει να ελέγξετε αν συγκεκριμένες διευθύνσεις URL του ιστοτόπου σας είναι αποκλεισμένες για την Googlebot. 

Υπάρχουν επίσης και άλλα online εργαλεία που μπορούν να βοηθήσουν στην επικύρωση της σύνταξης του robots.txt, όπως το εργαλείο του Technical SEO Com

Αποκλεισμός Σημαντικών Αρχείων

Ένα συχνό λάθος είναι ο αποκλεισμός αρχείων CSS και JavaScript που είναι απαραίτητα για τη σωστή απόδοση του περιεχομένου. Αυτό μπορεί να εμποδίσει τις μηχανές αναζήτησης να κατανοήσουν σωστά την σελίδα και να επηρεάσει αρνητικά την κατάταξη. 

Οδηγία Noindex στο robots.txt

Είναι λανθασμένη η χρήση της οδηγίας Noindex στο robots.txt. Η Google έχει σταματήσει να υποστηρίζει την οδηγία Noindex στο αρχείο robots.txt από τον Σεπτέμβριο του 2019. Η χρήση της πλέον δεν θα έχει κανένα αποτέλεσμα στην ευρετηρίαση. Όταν θέλουμε να μην ευρετηριαστεί μια σελίδα, χρησιμοποιούμε την meta tag <meta name=”robots” content=”noindex”> στην ενότητα <head> της σελίδας ή την HTTP header X-Robots-Tag για να αποτρέψετε την ευρετηρίαση συγκεκριμένων σελίδων.

Τι πρέπει να ξέρω για το αρχείο robots.txt

Το αρχείο robots.txt αποτελεί ένα ισχυρό εργαλείο που επιτρέπει στους ιδιοκτήτες ιστοτόπων να έχουν τον έλεγχο της αλληλεπίδρασης των μηχανών αναζήτησης με τον ιστότοπό τους. Από τη διαχείριση του crawl budget και την αποτροπή της ανίχνευσης διπλότυπου περιεχομένου, μέχρι τον αποκλεισμό πρόσβασης, η σωστή χρήση του robots.txt είναι απαραίτητη για το SEO. 

Είτε είστε αρχάριος είτε προχωρημένος χρήστης, η κατανόηση των βασικών και προχωρημένων οδηγιών, των κοινών πρακτικών εφαρμογής και των λαθών που πρέπει να αποφεύγετε, θα σας βοηθήσει να δημιουργήσετε ένα αποτελεσματικό αρχείο robots.txt που θα συμβάλει στην καλύτερη απόδοση του ιστοτόπου σας στις μηχανές αναζήτησης. 

Μη χάνετε την ευκαιρία να αυξήσετε την επισκεψιμότητα της ιστοσελίδας σας.