Raro es el día en que no usemos Google para buscar algún tipo de información. El buscador más famoso del mundo nos ofrece todo tipo de soluciones para nuestras vidas ya que es una de las marcas más fáciles de usar para los ciudadanos. Sin embargo, los buscadores necesitan información, son curiosos por naturaleza y quieren conocer absolutamente todo de nuestras vidas y páginas web. En definitiva, son codiciosos por obtener conocimiento e información, de ahí la importancia de conocer el uso y funcionamiento un robots.txt.
Los buscadores cuentan con unas máquinas o robots que rastrean la web para clasificar e indexar la mayor cantidad de información posible a sus bases de datos. Los robots.txt son una clase de máquina muy usada en la red para indexar el contenido web. Los spammers, por ejemplo, los usan para rastrear direcciones electrónicas. Pero ojo, también tienen muchos más usos como la localización de sitios en XML o bloquear el acceso a archivos de código y directorios
El mundo de los robots.txt es apasionante y hoy vamos a intentar poner un poco de luz sobre el tema, por ello, vamos a contar cómo es el funcionamiento del archivo robots.txt, qué necesitas saber y cómo debes manejarte con ellos.
Cuando creamos un sitio web nuevo necesitamos que Google pueda acceder a nuestra página para rastrar nuestra información. Para realizar esta tarea es necesario la creación de un archivo de texto (con extensión.txt) en nuestro dominio para proveer al buscador de toda la información que nos interesa que sepa sobre nuestra página web o negocio. Al mismo tiempo este archivo .txt es usado para impedir que los bots o robots.txt agreguen datos e información que no deseamos compartir con la compañía de Moutain View. Según Google, la definición de un archivo.txt es la siguiente:
“Un archivo robots.txt es un archivo que se encuentra en la raíz de un sitio e indica a qué partes no quieres que accedan los rastreadores de los motores de búsqueda. El archivo utiliza el Estándar de exclusión de robots, que es un protocolo con un pequeño conjunto de comandos que se puede utilizar para indicar el acceso al sitio web por sección y por tipos específicos de rastreadores web (como los rastreadores móviles o los rastreadores de ordenador)”.
robots.txt
El funcionamiento de un robots.txt es más sencillo de lo que parece. Lo primero que debemos saber es para qué sirve el archivo robots.txt y que elementos de nuestra web es capaz de indexar o no.
Además, el funcionamiento de los robots.txt está limitado y hay otros sistemas para que nuestras direcciones web sean encontradas en la web.
Ten en cuenta que las instrucciones del robots.txt son meras indicaciones y no es algo definitivo. Por ejemplo, los robots de Google llamados Googlebots sí obedecen las órdenes del archivo robots.txt, pero otros buscadores (Yandex, Alltheweb, ASK o Altavista) no tienen porque hacerlo.
Por ejemplo, Google no rastreará ni indexará ningún tipo de información del contenido de las páginas que bloqueemos con el robots.txt, sin embargo, sí indexará todas las direcciones o URL que estén en otros elementos o páginas web incluso aunque estas mismas estén restringidas dentro del archivo.txt, por tanto, un consejo importante es que si tu página web va a tener información sensible pero no quieres compartirla, lo mejor es no crearla.
Google diferencia varias clases de robots:
Si queremos limitar la indexación de archivos para este tipo de robots debemos usar el comando “Disallow”. Por ejemplo, si queremos quitar algún contenido de nuestra página web pondremos lo siguiente:
Antes os comentábamos que el funcionamiento del archivo robots.txt es muy fácil. Por ejemplo, para su creación es necesario darle acceso a la raíz del dominio y subir al archivo en formato texto (txt) con nombre “robots.txt” al directorio raíz de primer nivel de nuestro servidor donde esté ubicado la página web que queremos indexar.
No olvides usar para la creación del archivo un archivo de texto, en Windows y Mac existen archivos de texto plano que nos pueden servir. Un ejemplo sería el siguiente: http://marketing4ecommerce/robots.txt
Por último, debes comprobar el funcionamiento de tu robots.txt, para ello, Google nos da una herramienta de prueba en Google Search Console. Ahí puedes comprobar como Googlebot leerá el archivo y te informará de los posibles errores que pueda tener.
En caso de que necesites más información sobre el tema, te recomiendo que acudas a la página de soporte de Google donde te informan de todo lo que necesitas saber sobre el funcionamiento de un robots.txt. ¿Y a ti qué te parece restringir información de tu página web a Google? ¿De verdad crees que es un sistema efectivo? Déjanos tu opinión en los comentarios y estaremos encantados de responderte.
<< VOLVER AL DICCIONARIO ECOMMERCE
No se han encontrado artículos relacionados.
Your email address will not be published. Required fields are marked *
Δ