Watermelon: la web de datos enlazados en un eterno grafo de conocimiento > posicionamiento web

    1 resultados

    Artículo

    /

    Publicado el 6.11.2014 por Equipo GNOSS

    El posicionamiento web y la Web Semántica. Semantic SEO

    Las recomendaciones usuales sobre optimización del posicionamiento web se pueden resumir en dos aspectos esenciales: tener un contenido original y relevante, y disponer de un diseño HTML adecuado. Existen, sin embargo, otros elementos relacionados con la Web Semántica, que nos permiten mejorar la información que proporcionamos a los buscadores ofreciendole RDF (Resource Description Framework) que le posibiliten al buscador “comprender” lo que las cosas significan, y distinguir una persona, de un lugar, de un producto, de un servicio bancario o de una obra de arte. Se trata de ofrecer explícitamente los datos que están implícitos en el HTML de la página.

    Haciendo historia, podemos indicar 3 hitos importantes en el uso de datos por parte de los buscadores en general, y de Google en particular:

    • Año 2009: Google y otros buscadores comienzan a mostrar información estructurada junto a los resultados de las búsquedas. Google llamó “rich snippets” a esta información (http://googlewebmastercentral.blogspot.com.es/2009/05/introducing-rich-snippets.html), que incluía datos como el precio de un producto y su valoración por parte de los usuarios. Estos datos podían ser marcados, dentro del HTML, con los 2 formatos disponibles en el momento: RDFa y microformatos.
    • Año 2011: se presenta la iniciativa schema.org (promovida inicialmente por Google, Bing y Yahoo), que propone un nuevo formato de marcado de datos, al que llaman microdatos. Durante los años 2011 y 2012, se planteó una batalla entre los diferentes formatos de marcado de datos estructurados, en la que estaban implicados los siguientes: metatags HTML, microformatos, microdatos (schema.org) y RDF/RDFa. Afortunadamente, esta batalla causada por la extraña alergia a los estándares de algunos ingenieros informáticos, no llegó siquiera a empezar, aunque algunos tardaran en enterarse, ya que Google y el resto de la alianza schema.org (Bing, Yahoo, etc) decidieron un enfoque más pragmático, aceptando cualquier tipo de formato: lo que querían, y siguen queriendo, son datos que les aporten información semántica y, a ser posible, un grafo que relacione entidades y conceptos. Así lo indica Google en su documentación (https://support.google.com/webmasters/answer/99170?hl=es):

    “… Esto permite a Google presentar tus datos de una forma totalmente nueva y más atractiva en los resultados de búsqueda y en otros productos, como el Gráfico de conocimiento de Google (http://www.google.com/insidesearch/features/search/knowledge.html)”

    Hay que indicar que Google recomienda usar un único formato dentro del HTML (http://googlewebmaster-es.blogspot.com.es/2011/07/presentamos-schemaorg-los-motores-de.html), aunque sea técnicamente posible usar varios. Se trata de una recomendación para evitar que cada formato contenga una información diferente, cayendo en contradicciones en la información expresada, lo que podría ocasionar un efecto negativo en el posicionamiento.

    • A mediados de 2012 Google presenta su Knowledge Graph, que es uno de los resultados visibles de su adquisición de la empresa Metaweb en el año 2010. La empresa Metaweb desarrolló Freebase (http://www.freebase.com), una “colección en línea de datos estructurados sobre personas, lugares y cosas”. Google ha utilizado los desarrollos tecnológicos y datos de Freebase y su conexión con la DBpedia (Wikipedia estructurada semánticamente) para mejorar su propia tecnología de indexación y presentación de resultados, con 2 usos principales:

    • Mejorar el cálculo de relevancia en los resultados de sus búsquedas.
    • Presentar “cajas de información” con respuestas directas, junto con los resultados de las búsquedas cuando esto es posible. (ver imagen siguiente)

    En 2011 publicamos en Watermelon el documento, “Datos enlazados / Linked data: Formatos de presentación y posicionamiento en buscadores” En este documento explicábamos nuestra postura al respecto de la presentación de datos estructurados. Lo que se indicaba en ese post sigue siendo esencialmente válido, y es el origen de nuestra solución.

    En GNOSS consideramos que hay 2 modos de ofrecer datos semánticos a los BOTs:

    • Incrustando la información dentro del HTML de la página.
    • Añadiendo una presentación alternativa de cada página en RDF, que contenga los datos implícitos.

    En el primer caso, el HTML de la página incluye una serie de marcas, no visibles por los usuarios, que rodean y añaden significado al contenido así marcado. Por ejemplo, si en la página aparece el texto “Angie”, podemos añadir información, dentro del HTML de la página, para indicar a los BOTs si se trata del nombre de una persona o del título de una canción. En principio está considerado como una mala práctica que el contenido marcado sea invisible para el usuario. Este contenido debería rodear a textos legibles. En esto hay alguna excepción, como indica Google en su documentación (https://support.google.com/webmasters/answer/146898?hl=es&ref_topic=6003477):

    “… no muestres contenido a los usuarios de un modo y a la vez uses texto oculto para marcar la información de forma independiente para los motores de búsqueda y para las aplicaciones web. Debes marcar el texto que se muestra realmente a los usuarios cuando estos acceden a tus páginas web.

    Sin embargo, en algunas ocasiones puede resultar valioso proporcionar información más detallada a los motores de búsqueda, aunque no quieras que esa información esté disponible para los usuarios que visiten tu página. Por ejemplo, si proporcionas la latitud y longitud de un lugar, esto ayuda a Google a asegurarse de que aparece correctamente en los mapas y, de igual modo, si indicas la fecha de un evento con el formato de fecha ISO, estarás contribuyendo a que se muestre bien en los resultados de búsqueda.”

    Con la lectura de los datos incrustados, los BOts mejoran la identificación e indexación del contenido y, por tanto, pueden afinar en la valoración y relevancia de la Web. Además, Google, como hemos escrito anteriormente, identifica entidades en los datos (personas, organizaciones, etc) mediante sus propios algoritmos, indexándolas en su Gráfico de conocimiento. Después, los datos obtenidos pueden ser utilizados en la construcción y visualización del Gráfico asociado a una búsqueda, lo que mejora el SEO del sitio.

    De manera nativa, la plataforma GNOSS marca los datos usando RDFa, si bien sería posible usar Microdatos, alternativamente. Por ejemplo, en este fragmento de página, correspondiente a la cabecera de un recurso:

    nos encontramos con el siguiente HTML, en el que se observa el código RDFa incrustado:

    Es decir, dentro de ese fragmento de HTML se explicitan los siguientes datos:

    • Título de la página. dcterms:title.
    • Creador del recurso. Sioc:has_creator, foaf:Person, foaf:name.
    • Fecha de creación del recurso. Dcterms:created.

    En el segundo caso, se ofrece una vista de la página en la que sólo se muestran los datos estructurados de una página HTML, en formato RDF/XML, uno de los estándares de la web semántica desarrollados por el W3C.

    Por ejemplo, si el HTML de una página de GNOSS muestra esta información:

    Tendríamos la siguiente vista de datos equivalente:

    En el fragmento de datos anterior, expresado en RDF/XML, podemos ver los siguientes datos:

    • Un fragmento de la descripción del recurso, sioc:content.
    • El creador del recurso, dc:creator, sioc:has_creator.
    • La fecha de creación del recurso, dcterms:created.
    • El título del recurso, dcterms:title.
    • La red en donde se ha publicado el recurso, sioc:has_space.
    • Las etiquetas del recurso, sioc_t:Tag

    Nos consta que los BOTs, especialmente Google, solicitan e indexan estas vistas de datos, como recursos independientes de las páginas HTML. Si tenemos en cuenta todo lo que se ha explicado hasta ahora, resulta evidente que dichas vistas de datos les resultan muy interesantes; no sólo contienen datos explícitos de entidades bien identificadas, sino que también expresan un grafo de relaciones explícito. En efecto, los BOTs no tienen que identificar y relacionar las entidades con sus algoritmos, como pasa con los datos incrustados con RDFa o Microdatos, sino que se pueden limitar a recoger la información ya procesada.

    La plataforma GNOSS genera nativamente estas vistas de datos, lo que permite, además de su indexación por los BOTs, que los sitios se incorporen con sencillez al movimiento Linked Data, formado por conjunto de sitios que exponen datos enlazados (http://linkeddata.org):

    Linked Data is about using the Web to connect related data that wasn't previously linked, or using the Web to lower the barriers to linking data currently linked using other methods”.

    Por todo ello consideramos que la estrategia a abordar para cualquier portal web o proyecto de estrategia de posicionamiento web debiera atender las recomendaciones generales del SEO “convencional” y aprovechar todas las posibilidades que da la representación semántica en RDF de los contenidos originales y de alta calidad como vía para obtener su máxima expresión, visibilidad y relevancia.

     

    ...