Cómo domesticar un bot de búsqueda: una guía para indexar el sitio

Si Internet es una gran biblioteca, los motores de búsqueda son sus empleados ultrarrápidos que pueden orientar rápidamente al lector (usuario de Internet) en el océano infinito de información. Esto les ayuda a sistematizar el archivo de la tarjeta - su propia base de datos.

Cuando un usuario ingresa una frase de palabras clave, el motor de búsqueda muestra los resultados de esta base de datos. Es decir, los PS almacenan copias de documentos en sus servidores y acceden a ellos cuando el usuario envía una solicitud. Para presentar una página específica en el resultado, primero debe agregarse a la base de datos (índice). Por lo tanto, los sitios recién creados, que los motores de búsqueda no conocen, no participan en el problema.

El motor de búsqueda envía su robot (es una araña, es un rastreador) en busca de nuevas páginas que aparecen en la red cada segundo. El paquete de araña recopila datos siguiendo los enlaces de una página a otra y los envía a la base de datos. El procesamiento de la información se realiza por otros mecanismos.

Cada motor de búsqueda tiene su propio conjunto de robots que realizan diferentes funciones. Aquí hay un ejemplo de algunos robots Yandex:

  • El robot principal.
  • Indexador de imágenes.
  • Mirrorman (detecta espejos de sitios).
  • Fastbroot Este individuo vive en sitios frecuentemente actualizados. Como regla general - noticias. El contenido aparece en el problema casi inmediatamente después de la colocación. Al clasificar en tales casos, solo se tienen en cuenta algunos de los factores, por lo que la posición de la página puede cambiar después de la llegada del robot principal.

Google también tiene su propio robot para escanear noticias e imágenes, y también un indexador para videos, sitios móviles, etc.

La velocidad de indexación de nuevos sitios para diferentes PS es diferente. No hay fechas límite específicas aquí, solo hay un marco de tiempo aproximado: para "Yandex", de una semana a un mes, para Google, de varios minutos a una semana. Para no esperar la indexación durante semanas, debe trabajar seriamente. Esto será discutido en el artículo.

Primero, averigüemos cómo verificar si el sitio está indexado.

Cómo comprobar la indexación del sitio.

Puedes verificar la indexación de tres formas principales:

  1. Haga una solicitud de búsqueda utilizando operadores especiales.
  2. Utilice las herramientas de webmasters (Google Search Console, Yandex.Webmaster).
  3. Utilice servicios especializados o descargue la extensión en el navegador.

Operadores de busqueda

De forma rápida y sencilla, el número aproximado de páginas indexadas se puede encontrar utilizando el operador sitio. Funciona igual en Yandex y Google.

Servicios de comprobación de indexación.

Los servicios gratuitos le permiten descubrir rápidamente la cantidad de páginas indexadas por Yandex y Google. Existe, por ejemplo, una herramienta muy útil de XSEO.in y SEOGadget (puede consultar hasta 30 sitios a la vez).

RDS tiene una línea completa de herramientas útiles para verificar el rendimiento del sitio web, incluidas las páginas indexadas. Puede descargar un complemento de navegador conveniente (Chrome, Mozilla y Opera son compatibles) o una aplicación de escritorio.

En general, el plugin es más adecuado para SEO profesional. Si usted es un usuario habitual, prepárese para que esta utilidad lo ataque constantemente con información innecesaria, insertándose en el código de las páginas, y como resultado tendrá que configurarlo o eliminarlo.

Paneles de webmaster

Yandex.Webmaster y la Consola de búsqueda de Google proporcionan información detallada sobre la indexación. Así que digamos, de primera mano.

En la versión anterior de GSC, también puede ver las estadísticas de escaneo y los errores encontrados por los robots al acceder a las páginas.

Puede leer más sobre los datos de indexación presentados en los paneles de los webmasters en las secciones correspondientes de nuestros tutoriales de Yandex.Webmaster y la Consola de búsqueda de Google.

Cómo controlar la indexación

Los motores de búsqueda perciben los sitios web de una manera diferente que nosotros. A diferencia del usuario promedio, el robot de búsqueda ve todo el contenido del sitio. Si no se detiene a tiempo, escaneará todas las páginas, sin análisis, incluidas las que no deben mostrarse públicamente.

Debe tenerse en cuenta que los recursos del robot son limitados: hay una cierta cuota: el número de páginas que una araña puede omitir en un momento determinado. Si su sitio tiene una gran cantidad de páginas, existe una alta probabilidad de que el robot invierta la mayor parte de sus recursos en páginas de "basura" y deje otras importantes para el futuro.

Por lo tanto, la indexación puede y debe ser gestionada. Para hacer esto, hay ciertas herramientas de asistentes, que consideramos más a fondo.

Robots.txt

Robots.txt es un archivo de texto simple (como podría adivinar por la extensión), en el cual, con la ayuda de palabras especiales y símbolos, se escriben reglas que los motores de búsqueda entienden.

Directivas utilizadas en robots.txt:

Directiva

Descripción

Usuario-agente

Apelar al robot.

Permitir

Permitir indexación.

No permitir

Desactivar la indexación.

Anfitrión

La dirección del espejo principal.

Mapa del sitio

Dirección del mapa del sitio.

Retraso de rastreo

El tiempo de retraso entre la descarga de las páginas del sitio.

Limpiar-param

Páginas con los parámetros que deben excluirse del índice.

Usuario-agente muestra a qué motor de búsqueda se aplican las siguientes reglas. Si el destinatario es cualquier motor de búsqueda, escriba un asterisco:

Usuario-agente: Yandex

Usuario-agente: GoogleBot

Usuario-agente: Bingbot

Usuario-agente: Slurp (Robot de búsqueda de Yahoo!)

Usuario-agente: *

La directiva más utilizada es la directiva. rechazar. Solo se utiliza para prohibir la indexación de páginas, archivos o directorios.

Las páginas que deben ser prohibidas incluyen:

  1. Archivos y carpetas de office. Panel de administración, archivos CMS, cuenta de usuario, carrito de compras, etc.
  2. Páginas auxiliares de baja información que no necesitan promoción. Por ejemplo, biografías de autores de blogs.
  3. Diferentes tipos de páginas principales duplicadas.

En duplicar habitar en más detalle. Imagina que tienes una página de blog con un artículo. Publicó este artículo en otro recurso agregando una etiqueta UTM a la URL existente para hacer un seguimiento de las conversiones. La dirección ha cambiado un poco, pero aún conduce a la misma página, el contenido es completamente el mismo. Este es un doble que necesita ser cerrado desde la indexación.

No solo los sistemas de estadísticas son responsables de la duplicación de páginas. Los dobles pueden aparecer al buscar productos, clasificar, debido a la presencia del mismo producto en varias categorías, etc. Incluso los motores del sitio a menudo crean una gran cantidad de duplicados diferentes (especialmente Wordpress y Joomla).

Además de los duplicados completos, existen los parciales. El mejor ejemplo es la página principal del blog con anuncios de publicaciones. Como regla general, los anuncios se toman de los artículos, por lo que no hay contenido único en dichas páginas. En este caso, los anuncios se pueden eliminar de forma única o completa (como en el blog de Texterra).

Páginas similares (listas de artículos, catálogos de productos, etc.) también tienen navegación de páginas (paginación), que divide la lista en varias páginas. Acerca de qué hacer con estas páginas, Google describió en detalle en su ayuda.

Los dobles pueden dañar mucho el ranking. Por ejemplo, debido a su gran número, el motor de búsqueda puede mostrar, para ciertas solicitudes, páginas completamente diferentes que usted planeó promover y que se enfatizaron en términos de optimización (por ejemplo, hay una página mejorada por productos y el motor de búsqueda muestra una completamente diferente). Por lo tanto, es importante configurar correctamente la indexación del sitio para que este problema no exista. Una de las formas de tratar los duplicados es el archivo robots.txt.

Ejemplo de robots.txt para un famoso blog:

Al compilar robots.txt, puede navegar a otros sitios. Para hacer esto, simplemente agregue al final de la dirección de la página principal del sitio de interés después de la barra "robots.txt". Recuerde que los sitios tienen diferentes funciones, por lo que copiar las directivas de los principales competidores por completo y vivir en paz no funcionará. Incluso si decide descargar un archivo robots.txt ya preparado para su CMS, todavía tiene que hacer cambios para satisfacer sus necesidades.

Echemos un vistazo a los caracteres que se utilizan en la elaboración de las reglas.

Especificamos la ruta a un archivo o carpeta específica a través de una barra (/). Si se especifica una carpeta (por ejemplo, / wp-admin /), todos los archivos de esta carpeta se cerrarán para la indexación. Para especificar un archivo específico, debe especificar completamente su nombre y extensión (junto con el directorio).

Si, por ejemplo, necesita prohibir la indexación de archivos de un tipo específico o una página que contiene un parámetro, puede usar asteriscos (*):

No permitir: / * openstat =

No permitir: / *? Utm_source =

No permitir: / * precio =

No permitir: / * gclid = *

En lugar del asterisco puede haber cualquier número de caracteres (y puede que no lo sea). El icono $ se usa cuando desea cancelar una regla creada por el icono *. Por ejemplo, tiene una página eda.html y un directorio / eda. La directiva "/ * eda" deshabilitará la indexación tanto del directorio como de la página. Para dejar la página abierta para robots, use la directiva "/ eda $".

También puede deshabilitar la indexación de páginas con ciertos parámetros usando la directiva limpiar-param. Lea más sobre esto en la Ayuda de Yandex.

Directiva permitir Permite la indexación de directorios individuales, páginas o archivos. Por ejemplo, debe cerrar todos los contenidos de la carpeta de subidas desde el PS, excepto un archivo pdf. Aquí está cómo hacerlo:

No permitir: / wp-content / uploads /

Permitir: /wp-content/uploads/book.pdf

La siguiente directiva importante (para Yandex) es anfitrión. Te permite especificar el espejo principal del sitio.

Un sitio puede tener varias versiones (dominios) con contenido absolutamente idéntico. Incluso si tiene un solo dominio, no debe ignorar la directiva de host, estos son sitios diferentes y debe determinar qué versión debe mostrarse en la salida. Ya escribimos sobre esto en detalle en el artículo "Cómo averiguar el espejo principal del sitio y configurarlo con la ayuda de un redireccionamiento".

Otra directiva importante - mapa del sitio. Aquí (si está disponible) indique la dirección donde puede encontrar un mapa de su sitio. Cómo crearlo y para qué sirve, hablemos más tarde.

Finalmente, una directiva que se aplica con menor frecuencia - retraso de rastreo. Es necesario en el caso cuando la carga del servidor excede el límite de alojamiento. Esto rara vez se ve con buenos anfitriones, y sin razón aparente, no vale la pena establecer límites de tiempo de robots para descargar páginas. Además, la velocidad de bypass se puede ajustar en Yandex.Webmaster.

Cabe señalar que los motores de búsqueda se relacionan de manera diferente a robots.txt. Si para Yandex es un conjunto de reglas que no deben violarse, entonces Google lo percibe más bien como una recomendación y puede ignorar algunas directivas.

Los caracteres cirílicos no se pueden utilizar en robots.txt. Por lo tanto, si tiene un dominio cirílico, use convertidores en línea.

Después de crear el archivo, debe colocarlo en el directorio raíz del sitio, es decir,: site.ru/robots.txt.

Puede consultar el archivo robots.txt en busca de errores en la sección Herramientas del panel Yandex.Webmaster:

La versión anterior de la Consola de búsqueda de Google también tiene esta herramienta.

Cómo cerrar el sitio de la indexación

Si por alguna razón necesita que el sitio desaparezca de la salida de todos los motores de búsqueda, es muy fácil hacerlo:

Usuario-agente: *

No permitir: /

Es altamente deseable hacer esto mientras el sitio está en construcción. Para volver a abrir el sitio para los robots de búsqueda, simplemente elimine la barra (lo principal, no olvide hacerlo cuando inicie el sitio).

Nofollow y noindex

Para establecer la indexación, también se utilizan atributos especiales y etiquetas html.

Yandex tiene su propia etiqueta, con la que puede decirle al robot qué parte del texto no debe indexar. En la mayoría de los casos, estas son partes oficiales del texto que no deben mostrarse en un fragmento de código, o fragmentos que no deben tenerse en cuenta al evaluar la calidad de la página (contenido no exclusivo).

El problema es que prácticamente nadie excepto Yandex entiende esta etiqueta, por lo que la mayoría de los validadores dan errores al verificar el código. Esto se puede solucionar cambiando ligeramente el aspecto de las etiquetas:

el texto

El atributo rel = "nofollow" le permite cerrar enlaces individuales en la página desde la indexación. A diferencia de ello, todos los buscadores lo entienden. Para prohibir que el robot pase por todos los enlaces de la página a la vez, es más fácil usar esta etiqueta meta :.

Por cierto, vale la pena mirar los robots mega-tag con más detalle. Al igual que el archivo robots.txt, le permite administrar la indexación, pero de manera más flexible. Para entender el principio de operación, considere las instrucciones de las opciones:

indexar contenido y enlaces

no indexar contenido y enlaces

No indexes el contenido, pero sigue los enlaces.

indexar contenido, pero no seguir enlaces

Estos no son todos ejemplos del uso de la metaetiqueta de robots, ya que hay otras directivas además de nofollow y noindex. Por ejemplo, noimageindex, que prohíbe escanear imágenes en una página. Puede leer más sobre esta etiqueta meta y su aplicación en la ayuda de Google.

Rel = "canónico"

Otra forma de lidiar con los duplicados es usar el atributo rel = "canonical". Para cada página, puede establecer la dirección canónica (preferida), que se mostrará en los resultados de la búsqueda. Al registrar un atributo en el código duplicado, lo "adjunta" a la página principal, y no habrá confusión con sus versiones. Si el doble tiene un peso de referencia, se transmitirá a la página principal.

Volvamos al ejemplo de paginación en Wordpress. Con la ayuda del complemento de SEO All in One, puede resolver el problema con duplicados de este tipo en un solo clic. Vamos a ver cómo funciona.

Vayamos a la página principal del blog y abramos, por ejemplo, la segunda página de paginación.

Ahora echemos un vistazo al código fuente, es decir, la etiqueta con el atributo rel = "canonical" en la sección. Inicialmente, se ve así:

El enlace canónico está configurado incorrectamente, simplemente repite la dirección física de la página. Esto necesita ser arreglado Vaya a la configuración general del complemento de SEO All in One y marque la casilla "Sin Paginación para URLs Canónicas"(Deshabilitar la paginación para las URL canónicas).

Después de actualizar la configuración, nuevamente miramos el código, ahora debería ser así:

Y así, en cualquier página, ya sea la segunda o la vigésima. Rápido y fácil.

Pero hay un problema. Para Google, este método no es adecuado (él mismo lo escribió), y el uso del atributo canónico puede afectar negativamente la indexación de las páginas de paginación. Si para un blog esto es, en principio, no atemorizante, entonces es mejor no experimentar con páginas de productos, sino usar los atributos rel = "prev" y rel = "next". Sólo "Yandex" los ignora, según Platon Schukin. En general, todo es ambiguo y nada es claro, pero esto es normal, esto es SEO.

Mapa del sitio (mapa del sitio)

Si el archivo robots.txt le dice al robot qué páginas tocar que no necesita, entonces el mapa del sitio, por el contrario, contiene todos los enlaces que deben ser indexados.

La principal ventaja del mapa del sitio es que, además de la lista de páginas, contiene datos útiles para el robot: la fecha y la frecuencia de las actualizaciones de cada página y su prioridad para el escaneo.

El archivo sitemap.xml se puede generar automáticamente utilizando servicios en línea especializados. Por ejemplo, Gensitemap (rus) y XML-Sitemaps (eng). Tienen restricciones en el número de páginas, por lo que si tiene un sitio grande (más de 1000 páginas), tendrá que pagar una cantidad simbólica para crear una tarjeta. También puede obtener el archivo final utilizando el complemento. El complemento de Wordpress más fácil y conveniente es Google XML Sitemaps. Tiene muchas configuraciones diferentes, pero son fáciles de entender.

El resultado es un mapa del sitio simple y conveniente en forma de tabletas. Y estará disponible inmediatamente después de la activación del complemento.

El mapa del sitio es extremadamente útil para la indexación, ya que los robots suelen prestar mucha atención a las páginas antiguas e ignorar las nuevas. Cuando hay un mapa del sitio, el robot ve qué páginas han cambiado, y cuando accede al sitio, primero las visita.

Si ha creado un mapa del sitio utilizando servicios de terceros, el archivo finalizado debe descargarse y colocarse, como robots.txt, en la carpeta del servidor donde se encuentra el sitio. Una vez más, en la carpeta raíz: site.ru/sitemap.xml.

Para mayor comodidad, es recomendable cargar el archivo en una sección especial en Yandex.Webmaster y en la Consola de búsqueda de Google.

En la versión anterior, la herramienta es ligeramente diferente.

En Yandex.Webmaster, puede verificar el contenido del mapa del sitio para ver si hay errores en la sección Herramientas.

Cómo acelerar la indexación

Los motores de búsqueda, tarde o temprano, descubrirán su sitio, incluso si usted no hace nada por él. Pero es probable que desee obtener clientes y visitantes lo antes posible, y no en meses, por lo que las demoras en la indexación son una pérdida.

La indexación rápida y regular es necesaria no solo para los sitios nuevos, sino también para los existentes, para la actualización oportuna de los datos en la búsqueda. Imagine que decidió optimizar los encabezados y fragmentos de código poco atractivos para aumentar el CTR en el problema. Si espera hasta que el robot reindexe todas las páginas, puede perder muchos clientes potenciales.

Aquí hay algunas razones más para "alimentar" las nuevas páginas a los robots lo más rápido posible:

  • El sitio publica contenido que rápidamente pierde relevancia. Si las noticias de hoy están indexadas y se publicarán en una semana, ¿cuál es su uso?
  • Los estafadores han aprendido sobre el sitio y siguen las actualizaciones más rápido que cualquier robot: tan pronto como usted publica nuevo material, lo copian en sí mismos y se ubican de manera segura en las primeras posiciones debido a una indexación más rápida.
  • На страницах появляются важные изменения. К примеру, у вас изменились цены или ассортимент, а в поиске показываются старые данные. В результате пользователи разочаровываются, растет показатель отказов, а сайт рискует опуститься в поисковой выдаче.

Ускорение индексации - работа комплексная. Каких-то конкретных способов здесь нет, так как каждый сайт индивидуален (как и серверы, на которых они расположены). Но можно воспользоваться общими рекомендациями, которые, как правило, позитивно сказываются на скорости индексирования.

Vamos a enumerar brevemente lo que se puede hacer para que el sitio sea indexado más rápido:

  1. Dile a los robots qué indexar y qué no indexar. Sobre robots.txt, mapa del sitio y todas sus ventajas, ya lo hemos dicho. Si los archivos se compilan correctamente, los robots se encargarán más rápidamente de la cantidad de información nueva que ha caído sobre ellos.
  2. Regístrese con Yandex.Webmaster y la Consola de búsqueda de Google. Allí no solo puede declarar un nuevo sitio, sino también tener acceso a herramientas y análisis importantes.
  3. Preste atención al sitio en sí. Para que sea más fácil para el robot (y para los usuarios) navegar por el sitio, debe tener una estructura clara y simple y una navegación fácil. Esto también incluye un enlace competente, que puede ayudar a navegar el sitio y encontrar páginas importantes. La calidad del contenido también puede afectar la velocidad de la indexación, por lo que es mejor publicar textos únicos que sean útiles.
  4. Publicar en sitios externos. Muchos recomiendan registrar sitios en servicios de marcadores sociales, directorios, "perseguir" en Twitter, comprar enlaces, etc. No me ayudó en mi tiempo; el nuevo sitio se indexó durante un mes. Pero los enlaces de los grandes recursos visitados (donde incluso la rapidez puede vivir) pueden ayudar realmente. Tuvimos muchos artículos sobre cómo y dónde publicar: "Publicaciones invitadas: cómo publicar, insertar enlaces y no pagar por ello", "Marketing de contenido externo: por qué, qué escribir y dónde", guía de creación de enlaces.
  5. Actualiza el sitio más a menudo. Si no se publican nuevos materiales en el sitio durante meses, el robot cambia de táctica y visita el sitio con menos frecuencia.

También puede enviar robots a páginas específicas en los paneles Yandex.Webmasters y Google Search Console.

Tenga en cuenta que puede agregar direcciones individuales a las importantes para seguir su indexación más adelante.

Y aquí hay otra cosa útil: aquí puede averiguar si una URL específica está indexada.

En Google, puede solicitar la indexación de páginas específicas en la pestaña "Ver como Googlebot" (versión anterior).

Estas son quizás las formas más básicas de acelerar la indexación. Hay otros, pero su efectividad es cuestionable. En la mayoría de los casos, no debe dedicar tiempo a ellos, si solo necesita indexar el sitio con urgencia, y está listo para probar cualquier método. En tales casos, es mejor leer casos específicos. Por ejemplo, cómo indexar un sitio en Google dentro de las 24 horas.

Conclusión

La indexación de sitios es un proceso complejo que los motores de búsqueda no siempre manejan solos. Dado que la indexación afecta directamente la clasificación de un sitio en los resultados de búsqueda, tiene sentido tomar el control de sus propias manos y simplificar el trabajo de los robots de búsqueda tanto como sea posible. Sí, tienes que juguetear y rellenar una gran cantidad de conos, pero incluso una bestia tan impredecible como un robot de búsqueda aún puede enviarla a una persona.

Deja Tu Comentario