Consejos de Semalt sobre cómo utilizar el aprendizaje profundo para optimizar su etiqueta de título automatizada



Una forma rápida de tomar la iniciativa en su clasificación de SEO es incluir una palabra clave de alto rango en su etiqueta de título. Y si lo piensa por un minuto, se dará cuenta de que es una solución inteligente. Si tiene una página que ya está clasificada para una palabra clave sin que esa palabra clave esté presente en el título, imagine la importancia de tener la palabra clave en el título. Naturalmente, se indexará con más frecuencia para esa palabra clave; por lo tanto, tu rango es mejor.

Ahora, si tomamos esa palabra clave y la agregamos a su Meta Descripción, aparecerán resaltadas en los resultados de búsqueda, lo que significa que es probable que más usuarios de motores de búsqueda hagan clic. Esto, por supuesto, beneficiará al sitio web.

Imagine que Semalt estaba trabajando en un sitio web con cientos, miles o millones de páginas. Si tuviéramos que hacer esto manualmente, llevará mucho tiempo y se volverá bastante costoso rápidamente. Entonces, ¿cómo podemos analizar la página y optimizar cada título y meta descripción? La solución es utilizar una máquina. Al enseñarle a una máquina a encontrar las palabras clave de mayor rango en cada página, ahorramos tiempo y costos. El uso de una máquina puede terminar funcionando mejor y más rápido que un equipo de entrada de datos.

Reintroduzcamos el Ludwig de Uber y el T5 de Google

Al combinar el Ludwig de Uber y el T5 de Google, tiene un sistema bastante poderoso.

En resumen, Ludwig es una herramienta automática de aprendizaje automático de código abierto que permite a sus usuarios entrenar modelos avanzados sin tener que escribir ningún código.

Google T5, por otro lado, es una versión superior de los modelos de estilo SERT. El T5 puede resumir, traducir, responder preguntas y clasificar consultas de búsqueda, así como muchas otras funciones. En pocas palabras, es un modelo muy poderoso.

Sin embargo, no hay indicios de que T5 haya sido entrenado para la optimización de etiquetas de título. Pero tal vez podamos hacer eso, y así es como:
  • Obtenemos un conjunto de datos capacitado con ejemplos hechos de:
    • Etiquetas de título originales sin nuestra palabra clave de destino
    • Nuestras palabras clave objetivo
    • Etiquetas de título optimizadas con las palabras clave objetivo
  • Un código de ajuste T5 y tutoriales para usar
  • Tener un conjunto de títulos que no se han optimizado para que podamos probar nuestro modelo.
Comenzaremos con un conjunto de datos que ya se ha creado y proporcionaremos una guía sobre cómo creamos el conjunto de datos.

Los autores de T5 fueron lo suficientemente generosos como para proporcionarnos un detallado cuaderno de Google Colab, que usamos para ajustar T5. Después de dedicar tiempo a estudiarlo, pudimos responder preguntas de trivia arbitrarias. El portátil Colab también tiene pautas sobre cómo ajustar el T5 para nuevas tareas. Sin embargo, cuando observa los cambios de código y la preparación de datos requerida, descubre que implica mucho trabajo y que nuestras ideas pueden ser perfectas.

Pero, ¿y si pudiera ser más sencillo? Gracias a la versión 3 de Uber Ludwig, que se lanzó hace unos meses, tenemos una combinación de algunas características muy útiles. La versión 3.0 de Ludwig viene con:
  • Un mecanismo de optimización de hiperparámetros que deriva un rendimiento adicional de los modelos.
  • Integración sin código con el repositorio de Transformers de Hugging Face. Esto brinda a los usuarios acceso a modelos actualizados como GPT-2, T5, DistilBERT y Electra para tareas de procesamiento de lenguaje natural. Algunas de estas tareas incluyen análisis de sentimiento de clasificación, reconocimiento de entidades nombradas, respuesta a preguntas y más.
  • Es más nuevo, más rápido, modular y tiene un backend extensible más que se basa en TensorFlow 2.
  • Brinda soporte para muchos formatos de datos nuevos como Apache Parquet, TSV y JSON.
  • Tiene habilitación de validación cruzada k-fold lista para usar.
  • Cuando se integra con Weights and Biases, se puede usar para administrar y monitorear múltiples procesos de entrenamiento de modelos.
  • Tiene un nuevo tipo de datos vectoriales que admite etiquetas ruidosas. Eso es útil si estamos lidiando con supervisiones débiles.
Hay varias características nuevas, pero consideramos que la integración a los Transformers de Hugging Face es una de las características más útiles. Las canalizaciones de cara abrazadora se pueden utilizar para mejorar significativamente los esfuerzos de SEO en los títulos y la generación de metadescripciones.

El uso de la canalización es excelente para ejecutar predicciones en modelos que ya están entrenados y ya están disponibles en el modelo bub. Sin embargo, actualmente no hay modelos que puedan hacer lo que necesitamos que hagan, por lo que combinamos Ludwig y Pipeline para crear un título automático formidable y una meta descripción para cada página de un sitio web.

¿Cómo utilizamos Ludwig para afinar el T5?

Esta es una pregunta importante ya que tratamos de mostrarles a nuestros clientes exactamente lo que sucede en el fondo de su sitio web. Por aquí, hay un cliché que dice: "Usar Ludwig para entrenar a T5 es tan simple que deberíamos considerar hacerlo ilegal". La verdad es que habríamos cobrado mucho más a nuestros clientes si tuviéramos que contratar a un ingeniero de inteligencia artificial para hacer el equivalente.

Aquí, descubrirá cómo ajustamos T5.
  • Paso 1: abra un nuevo cuaderno de Google Colab. Después de eso, cambiamos el Runtime para usar GPU.
  • Descargamos el conjunto de datos de Hootsuite que ya se ha recopilado.
  • Luego instalamos Ludwig.
  • Después de la instalación, cargamos el conjunto de datos de entrenamiento en un marco de datos de pandas y lo inspeccionamos para ver cómo se ve.
  • Luego nos enfrentamos al obstáculo más importante, que es crear el archivo de configuración adecuado.
La construcción del sistema perfecto requiere la documentación para T5 y prueba y error constantes hasta que lo hagamos bien. (Sería muy útil si puede encontrar el código de Python para producir aquí).

Asegúrese de revisar los diccionarios de funciones de entrada y salida y asegúrese de que su configuración se haya seleccionado correctamente. Si se hace bien, Ludwig comenzará a usar 't5-small' como modelo en ejecución. Para los modelos T5 más grandes, es más fácil cambiar el centro del modelo y potencialmente mejorar su generación.

Después de entrenar un modelo durante varias horas, comenzamos a obtener una precisión de validación impresionante.

Es importante que tenga en cuenta que Ludwig selecciona automáticamente otras medidas cruciales de generación de texto, principalmente perplejidad y distancia de edición. Estos son dos números bajos que encajan bien para nosotros.

Cómo usamos nuestros modelos entrenados para optimizar títulos

Poner nuestros modelos a prueba es la parte realmente interesante.

Primero, descargamos un conjunto de datos de prueba con títulos de Hootsuite no optimizados que el modelo no vio durante el entrenamiento. Podrá obtener una vista previa del conjunto de datos con este comando:

!cabeza

Hootsuite_titles_to_optimize.csv

Es muy impresionante que Ludwig y T5 puedan hacer tanto con cualquier conjunto de entrenamiento pequeño y no requieran un ajuste avanzado de hiperparámetros. La prueba adecuada se reduce a cómo interactúa con nuestras palabras clave objetivo. ¿Qué tan bien se mezcla?

Creación de una aplicación de optimización de etiquetas de título con Streamlight

Los escritores de contenido encuentran esta aplicación muy útil. ¿No sería sorprendente tener una aplicación fácil de usar que no requiera muchos conocimientos técnicos? Bueno, para eso está Streamlight.

Su instalación, así como su uso, es bastante sencillo. Puedes instalarlo usando:

! pip install streamline

Hemos creado una aplicación que aprovecha este modelo. Cuando sea necesario, podemos ejecutarlo desde el mismo lugar donde entrenamos un modelo, o podemos descargar un modelo ya entrenado donde planeamos ejecutar el script. También hemos preparado un archivo CSV con los títulos y palabras clave que esperamos optimizar.

Ahora lanzamos la aplicación. Para ejecutar el modelo, necesitamos proporcionar la ruta al archivo CSV, que tiene los títulos y las palabras clave que esperamos optimizar. Los nombres de las columnas CSV deben coincidir con los nombres durante el entrenamiento de Ludwig. Si el modelo no optimiza todos los títulos, no debería entrar en pánico; conseguir un número decente también es un gran paso adelante.

Como expertos en Python, nos entusiasma mucho trabajar con esto, ya que normalmente hace que nuestra sangre bombee.

Cómo producir un conjunto de datos personalizado para entrenar

Con los títulos de Hootsuite, podemos entrenar modelos que funcionarían bien para nuestros clientes pero que pueden ser predeterminados para sus competidores. Es por eso que nos aseguramos de producir nuestro propio conjunto de datos, y así es como lo hacemos.
  • Aprovechamos nuestros propios datos de Google Search Console o Bing Webmaster Tools.
  • Como alternativa, también podemos extraer los datos de la competencia de nuestros clientes de SEMrush, Moz, Ahrefs, etc.
  • Luego escribimos un script para las etiquetas de título y luego dividimos los títulos que tienen y no tienen la palabra clave de destino.
  • Tomamos los títulos que han sido optimizados usando palabras clave y reemplazamos las palabras clave con sinónimos, o usamos otros métodos para que el título sea "desoptimizado".

Conclusión

Semalt está aquí para ayudarlo a optimizar sus etiquetas de título y meta descripciones automáticamente. Al hacerlo, puede mantenerse a la vanguardia en SERP. El análisis de un sitio web nunca es una tarea fácil. Es por eso que entrenar una máquina para que nos ayude a hacer esto no solo ahorra costos, sino que también ahorra tiempo.

En Semalt, hay profesionales que configurarán su conjunto de datos, Ludwig y T5 para que pueda seguir ganando siempre.

Llámanos hoy.

mass gmail