Home > Curso SEO > Indexación Semántica Latente (LSI)

Indexación Semántica Latente (LSI)

Introducción a la Indexación Semántica Latente

Indexación Semántica Latente (LSI), un término que suena complejo, se estableció décadas atrás y mucho antes de que existiera algo remotamente parecido a un motor de búsqueda. Esta estructura matemática era una técnica estadística desarrollada por Jean – Paul Benzécri a principios de 1970 e involucró diversas manipulaciones de matrices de palabras – en base de datos, ponderados matemáticos para resolver las relaciones entre las palabras. Como seres humanos, esto se traduce aproximadamente en atribuir “un significado” a un grupo de palabras, es decir, un texto.

LSI se aplicó primero a los documentos en los años 1980 por los Laboratorios Bell para tratar de identificar el significado de una muestra de texto a través de un análisis estadístico de múltiples documentos. La utilización de esta técnica matemática se ha extendido ampliamente en una serie de áreas de la ciencia y las aplicaciones prácticas y ahora se utiliza para lograr una serie de objetivos útiles algunos de los cuales están relacionados con las necesidades del motor de búsqueda de Internet en especial de Google.

En el mundo del procesamiento de texto (documento/contenido/HTML, cualquiera de estos), son pocos los que coinciden con el tamaño y la fuerza de computación de los principales motores de búsqueda. El poder de procesamiento que poseen Google y Bing/Yahoo está bien llamados servidores “granjas”. Pues son vastas extensiones de placas madre para computadoras en acres con aire acondicionado – esto requiere lagos de agua para mantenerlos frescos. Eso es una realidad. La buena noticia es que Google, en particular, ha realizado grandes inversiones en fuentes de energía verde en un intento de reducir la contaminación por carbono.

Se ha preguntado seguramente “como podría lograrse esto” Sin duda, ¿podemos almacenar toda la producción de la humanidad en unos pocos sistemas de disco duro gigante? Y la respuesta seria obvia, pues un terabyte de datos cabe en un dispositivo que cabe en la palma de tu mano en estos días.

Esa es la respuesta, aunque. No sólo se trata de almacenar datos (a razón de más de un mil millones de páginas al día que se añaden al internet), un motor de búsqueda debe tener una manera de encontrar todo lo necesario para los usuarios de búsqueda. Un terabyte de almacenamiento apenas registrará el valor de entrada de Internet unas pocas horas y se llenaría rápidamente, muy rápidamente! La tecnología de almacenamiento no puede ser actualizada cada mes pues pasarían años antes de que se logre reducir el tamaño de todo el equipo que soporta o almacena dicha información, esto será posible más delante a través de los avances tecnológicos.

search engine LSI

Google indexa un Trillón de páginas web

Cuando se escribe la palabra “jirafa” en la barra de búsqueda de Google, se puede esperar de Google una búsqueda instantánea a más de un billón de páginas web. Sobre todo cuando se tiene en cuenta que se diariamente se realizan quinientos millones de búsquedas todos los días. Otro dato sorprendente para tener en cuenta es que Google ha dicho públicamente que el 20% de los términos de búsqueda utilizados todos los días son únicos o no se han usado en 6 meses o más.

Esto significa que Google y co. Están acaso realizando un gran acto de malabarismo. En la nube o el internet son más de mil millones de páginas nuevas que se vienen añadiendo cada 24 horas (y de la gestión de resultados los SPIDERS, arañas o bots tendrán que recoger información de todas estas nuevas páginas), de estos resultados de búsqueda cercad de ½ mil millones de consultas, es una masa de basura y spam irrelevante para identificar, a esto hay que sumar el aporte de los 500 millones de usuarios de redes sociales que ahora son parte de los resultados de búsqueda y que son monitoreados para rastrear el tráfico que va a los sitios web indexados por el motor de búsqueda (con el fin de detectar su popularidad).

indexación semántica-latente para posicionar sitio web

El diagrama anterior es un intento de transmitir la magnitud del problema cuando se trata de la indexación de los miles de millones de páginas que hay. A un promedio de 500 palabras por página, estamos hablando aquí acerca de la indexación

1 billón de páginas x 500 palabras = 500.000.000.000.000 palabras. Eso es quinientos millones de millones de palabras. Ahora en aproximadamente 20 palabras que forman una frase, esto es 25000000000000 frases. LSI es una de las soluciones disponibles para descomponer el contenido de todas las páginas y descubrir el significado del contenido en cada caso, y vincular a las palabras clave de búsqueda utilizada en la página del motor de búsqueda.

Desde un punto de vista humano, sería imposible de conseguir revisar mil millones de páginas al día y categorizar el contenido, razón por la que utilizar LSI es una forma matemáticamente ideada en la que indexar y categorizar un vasto repositorio de documentos es posible. Para los que entienden matrices y vectores, LSI es sólo otro modelo matemático que se utiliza en el mundo real para realizar una función. Para aquellos que no entienden este campo de las matemáticas en cualquier profundidad, (que es, probablemente, la mayoría de los lectores) las matemáticas pueden ser conceptualizados con bastante facilidad.

Ejemplo de cómo funciona LSI (Indexación Semántica Latente)

Aquí es un ejemplo de cómo podría funcionar LSI en una búsqueda en la Web contiene las siguientes líneas:

  • Ejemplo 1:             … Aplicación Iphone de Apple para compartir…
  • Ejemplo 2:            … IPhone de Apple para compartir vídeo…
  • Ejemplo 3:            … Iphone de Apple de 16 Gb para compartir video en línea…

El LSI programado en Google podría recoger una relación entre “Iphone” y la palabra “Apple”, pero seguiría siendo poco clara el significado exacto de esta categoría. Los motores de búsqueda pueden mostrar resultados de la fruta real (manzana), en el segundo ejemplo que puede recibir resultados de vídeo de personas que comparten una manzana. No es hasta que vea el tercer ejemplo y con las palabras, “video” y “en línea” que los motores de búsqueda tendrán suficientes palabras clave para definir que la búsqueda está relacionada con la tecnología Iphone de Apple de “16 GB”.

LSI = ¡Matemáticas para trabajo pesado!

La explicación matemática implica matrices complejas y fórmulas relacionadas con la manipulación de los datos de una manera estadística. Cada página de contenido es examinado por el software de los mapas de todas las palabras y asigna relevancia para ellos dependiendo del contexto en el que se utilizan. Las palabras entonces se describen matemáticamente en una matriz (una tabla de vectores) y la relevancia se asigna al lado de ellos. Cada vez que un documento se presenta al modelo matemático, una nueva matriz de palabras se crea y después de que muchas páginas se han modelado de esta manera, es posible matemáticamente determinar el significado de un documento por la relevancia y el posicionamiento de las palabras en el mismo modo descrito por las matrices.

Ahora para un ser humano, el contenido no es realmente “entendible”, sino simplemente es el mapeo de las relaciones entre las palabras. Una vez que un gran número de estas relaciones se han mapeado, el modelo almacenado puede ser usado para evaluar con mayor precisión el significado de otros documentos a ser indexados. Con el tiempo esto permite que el software de asumir una especie de “inteligencia” es ser capaz de utilizar las fuentes documentales conocidas y las asociaciones semánticas reconocidas, para evaluar la relevancia relativa de un nuevo documento por las palabras que contiene. Es, probablemente, el futuro de la Inteligencia Artificial.

¿Cómo la LSI ayuda con la clasificación?

Un usuario a menudo escribe algo que quieren comprar tal como “Yo quiero un iPod barato”. Esto traerá un millón más o menos de resultados y las palabras “barato” y “ipod” probablemente aparecen en 500.000 de ellos. Ahora usted no será capaz de comprar un iPod barato de alguien que acaba de hacer un comentario en un foro que contiene las palabras “barato” & “iPod” así que el resultado de la búsqueda en la parte superior de la lista no es de mucha utilidad para el usuario. Por el contrario, un centro de negocio que está en su área y vende productos electrónicos baratos como son los iPods es más probable que sea mucho más útil. La LSI Indexación Semántica Latente toma palabras clave relevantes (en este caso “barato” y “iPod” y “comprar”) y los compara con los índices de palabras que ha creado para cada página web. Otras informaciones sobre el contenido de esa página también se tendrá en cuenta para que las 3 palabras coincidan con la página de índice semántica de más alta puntuación y cuya página será entonces la que se muestre en los primeros puestos. Hay muchos factores a tener en cuenta para medir el ranking de páginas, incluyendo:

  • Longevidad
  • Los volúmenes de tráfico
  • La popularidad de enlaces
  • Relevancia de Redes Sociales
  • Relevancia demográfica local

Hay otros factores que se toman en cuenta los cuales se mantienen en secreto por los motores de búsqueda en un intento de evitar la elusión de sus algoritmos de clasificación para obtener una ventaja injusta.

LSI y el propietario del sitio web/webmaster

Entonces, ¿cómo afecta a la LSI al sitio web de un webmaster o dueño de un negocio en línea? Hay una serie de cosas que se pueden hacer para tomar ventaja de LSI. La comprensión de cómo LSI recoge una página aparte es un buen lugar para comenzar.

En primer lugar un tesauro (lista de palabras con significados similares sinónimos) es una herramienta muy útil para ayudar en el desarrollo de LSI y así crear contenido amigable. Los motores de búsqueda aprendieron hace mucho tiempo a controlar algunos de los esfuerzos de SEO poco limpias que se intentaron con el fin de “vencer” a los motores de búsqueda. El spam es un método común que se utiliza hace años, por lo que una palabra clave se “metía” en una página web tantas formas como fuese posible, incluyendo algunos muy clandestinos (Black-Hat SEO) como métodos de ocultar el texto de anclaje, el uso del color de fondo para el texto, para ocultar palabras clave repetidas etc … .

Si nos fijamos en una página web que habla de los trenes, la palabra “tren” se va a plantear a menudo. Pero también se van a plantear muchas cosas en un sitio que vende transmisiones como “tren de potencia” es una frase común en esa industria. Otro sitio puede vender accesorios de bodas y usar la palabra “tren” también, como lo haría otro sitio web que vende equipo de gimnasia o fitness.

Esta confusión sobre lo que el usuario desea encontrar se da cuando este escribe solo la palabra “tren” y por el contrario si es una frase más compuesta una gran manera de buscar bien seria “Quiero comprar un tren”

El motor de búsqueda es capaz de reducir los resultados de búsqueda ya como “un tren” es un objeto y no un verbo para que las páginas de “fitness” deberán ser descartados por el motor de búsqueda – una decisión simple del software. Pero el motor de búsqueda todavía está atascado con el ofrecimiento de un tren, ¿un tren de vestido de novia o partes de una transmisión?

Cuando la palabra “modelo” se añade a esta consulta la intención de búsqueda se vuelve más evidente para el software que ofrece un resultado de búsqueda; “Quiero reservar tren para celebrar boda” es mucho más exigente. La cosa es que el software de motor de búsqueda no tiene tiempo para buscar más de un billón de páginas (no importa el agregado de millones desde ayer) y encontrar la frase que ha escrito. Lo que es pero tal vez que ni siquiera exista!

Aquí es donde LSI pasa a primer plano; El Software del motor de búsqueda utiliza LSI constantemente para verificar el índice (y refinar los índices existentes) del contenido de todas las páginas que se encuentra. Este índice tiene el efecto de reducir el ámbito de búsqueda ya que el índice es una lista de a lo mejor en un billón de entradas. Esto puede ser buscado mucho más rápidamente que los billones de páginas que hay. E indexando el índice (sí que suena un poco extraño) los resultados pueden ser recuperados a tasas fenomenales pues la búsqueda se estrecha aún más.

El Motor de búsqueda aplica LSI a una página web y toma las palabras relevantes que transmiten el significado de una página y toma una decisión sobre su importancia y relevancia para un término de búsqueda. A esto se incluyen otros factores y se obtiene un modelo de tal forma que el ROBOT DE GOOGLE “aprende” para que su motor de búsqueda se las arregle para conseguir resultados más rápido.

¿Cómo puedo utilizar LSI para ganar una alta clasificación?

Para aquellos sitios web que necesitan alinearse por algunas palabras clave en particular, la comprensión de LSI y los motores de búsqueda y la forma como utilizarlo puede ser muy beneficioso. Se ha sabido desde hace muchos años que el relleno de palabras clave no funciona cuando se trata de conseguir un sitio clasificado, de hecho perjudicará sus posibilidades. Entonces, ¿cómo hace uno para aplicar LSI?

El uso de varias palabras clave que transmiten significados en su contenido del sitio web de una manera natural en el texto es un primer paso. Los Motores LSI pueden ver la diferencia entre una palabra clave y frases que se relacionan semánticamente pero no palabras clave reales repetidas. Una forma de verlo es que si usted hace su contenido como debe ser “información útil y relevante” en lugar de “palabra clave – rellenos” entonces conseguir resultados positivos.

Esto significa que si tiene un contenido de calidad por escrito que explique de forma concisa la información que usted necesita para transmitir a su visitante. Pocas personas en línea tienen tiempo para leer masas de contenido, pero algunos lo hacen y la cantidad presentada debe ser el reflejo de las necesidades de la audiencia. Un sitio web de venta de un producto altamente competitivo, probablemente, tendrá que encontrar una docena de maneras de explicar ese producto. No sólo para evitar aburrir al lector, sino también para la prestación de la mayor cantidad de oportunidades de resultados en los motores de búsqueda como sea posible. Usar esto para una manipulación cuidadosa de las palabras por el contrario – la ingeniería de los resultados LSI a de ayudar y se hace evidente que el contenido se puede crear para que sea más favorable a los motores de búsqueda y por lo tanto lograr un rango más alto en los SERPs.

La Indexación semántica latente asocia el contenido global de un sitio web y determina su “autoridad” sobre un tema por lo que el contenido de apoyo que usted ofrece para convertirse en esa “autoridad” se puede clasificar mucho mejor.

Puede ser tan simple como mejorar la descripción de los productos describiéndolo en tantos lugares como sea posible con la información más detallada sobre el tema, sin exceso de palabrería.

Fuera del sitio web, lo mismo se aplica a los enlaces que apuntan a su sitio; tener los enlaces variados en el texto, pero todos relacionados con el producto/servicio de alguna manera puede ayudar bastante.

Un ejemplo de alguien que vende duchas de campamento para lograr optimizar off-Page de oportunidades LSI sería crear backlinks redactadas como:

  •  Comprar duchas para Campamento!
  •  Encontrar duchas para Campamento!
  •  Tienda para Duchas de Campamento Barato!

En lugar de escribir exactamente la palabra clave “Duchas para Campamento” para crear los anchor text en los vínculo de retroceso, se ha optado por lograr la variación de estos anchor text en los enlaces, y usando la semántica apropiada para hacer declaraciones similares, hacen que los enlaces tengan sean más naturales, frente a los ojos de los motores de búsqueda y estas son herramientas importantes en cualquier campaña SEO.

Conclusión

Una vez que los propietarios de sitios web, webmasters y comercializadores logren un alto ranking en los SERPs gracias al manejo de LSI, no es de extrañar que las empresas también buscaran ayuda externa para hacer que todo esto suceda en sus sitios web. LSI es sólo otro método que los motores de búsqueda utilizan para optimizar sus resultados de búsqueda en términos de eficiencia, precisión y velocidad.

Los resultados tienen que ser traídos al investigador a la velocidad del rayo de lo contrario el usuario, que normalmente no tiene tiempo para esperar, se ira a otro lugar. El equilibrio buscado por Google y Bing incluye la entrega de relevancia en sus resultados. LSI es parte del mecanismo que utilizan para hacer esto. Usarlo para proporcionar un apalancamiento extra en los resultados búsqueda es parte de SEO inteligente y seguirá siendo la base sobre la que los motores de búsqueda aplican relevancia.

En el Curso SEO Online “Como Posicionar Sitios Web en Google” encontrara herramientas y manuales para realizar búsquedas para encontrar palabras clave LSI adecuadas para utilizarlo en su sitio web. También le dotamos de técnicas y datos accesibles para que tenga éxito en la creación de sitios web de alto rango y a la vez que sean rentables.

About emprendor

Educador y Webmaster, fanatico del marketing digital, convencido de que puedes logar tu éxito on dedicación y autoaprendizaje...

Check Also

Técnicas de link building 2014

Link building

Introducción a Link building ¿Cuándo un backlink vale la pena para Link building? ¿De dónde …

One comment

  1. Podrías decirme que diferencia hay los Long Tails con las LSI..? O son lo mismo…’

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *