Para qué es el archivo robots.txt

Si quieres tener tu página web correctamente indexada en la base de datos de los motores de búsqueda es necesario usar un archivo llamado robots.txt Este archivo te permite controlar que contenidos de tu página quieres que sean indexados.

Cómo funciona el archivo robots.txt

Para indexar una página en cualquier motor de búsqueda, debe ser revisada por un bot. Antes de hacer primero busca si existe el archivo de robots.txt para saber qué instrucciones seguir.

Dentro de estas instrucción le diremos al bot si puede indexar la pagina o no. También, es posible negarle la entrada a un bot en especifico ya sea google, yahoo, bing, etc. Es posible también restringir el acceso a páginas en específico de tu página.

Cómo crear un archivo robots.txt

Para generar un robots.txt existen herramientas que nos facilitan ese trabajo, en el cual solo necesitaremos agregar los enlaces que queramos o no queramos que se indexen y la herramienta nos generará el archivo. Una página que puedes visitar para crear tu archivo es la de Generador de robots.txt de Seobook.

Para crearlo manual mente, se debe seguir una serie de reglas:

  •     User-agent: Aquí seleccionaras a qué rastreador le quieres dar alguna orden.
  •     Disallow: informa qué páginas no deben ser analizadas.
  •     Allow: informa qué páginas deben ser analizadas.
  •     Sitemap: muestra la localización del sitemap de tu página web.
  •     Crawl-delay: indica al robot el número de segundos que debe esperar entre cada página. Esto ayuda a reducir la carga del servidor. Lo recomendado es ocupar de 5 a 10 segundos de espera.
  • Asterisco (*): El asterisco vale por una secuencia de cualquier carácter. Por ejemplo, si queremos darle una orden a todos los rastreadores en general. Debes ocupar el “User-agent: *”

Ejemplo:

User-Agent: *

Disallow: /NombreDeLaCarpeta/

Sitemap: http://PáginaWeb.com/sitemap.xml

 

Usar el archivo robots.txt es utilizado principalmente para muchas tareas de SEO, ya que ayuda a la optimización de la página para evitar la duplicación de contenido y evitar indexar páginas que no lo ameritan.

 

Si tienes alguna duda, o quieres hacer una aportación, no dudes en dejarnos un comentario.