Watermelon: la web de datos enlazados en un eterno grafo de conocimiento > yahoo

    1 resultados

    Artículo

    /

    Publicado el 14.12.2011 por Ricardo Alonso Maturana

    Explotación de metadatos embebidos: posicionamiento, recuperación de la información y generación de contextos

    En artículos anteriores de Watermelon he ido escribiendo algunas entradas sobre la web de los datos y su relación con nuevos sistemas de búsqueda. Estas entradas son:

    Además de las técnicas de posicionamiento tradicionalmente aplicadas al HTML (lo que podemos denominar SEO orgánica), Google, Bing y otros motores de búsqueda recomiendan el uso de metadatos embebidos en el HTML. El uso que dan a estos datos es doble. 

    • Primero, consiguen información más detallada del significado del documento, es decir, más semántica. Los metadatos embebidos definen expresamente que un texto es el nombre de una película, o las calorías de una receta, o el autor de un libro. Esto les permite presentar unos resultados de búsqueda más ajustados, e incluso que cada resultado tenga una presentación enriquecida con precios, valoraciones de los usuarios, autores, etc.
    • Segundo, los más importantes motores de búsqueda están promoviendo verticales de sus servicios, de manera que la búsqueda de recetas, viajes o libros pueda hacerse en páginas específicas. En dichas páginas se presentan facetas de búsqueda (por ejemplo, para filtrar recetas por ingrediente), que solo pueden ser obtenidas desde metadatos semánticos incrustados en el HTML.

    Ninguno de estos motores ha especificado aún el peso que confieren a la existencia de metadatos respecto a los otros parámetros conocidos de posicionamiento, ni siquiera al nivel cualitativo que suelen hacerlo. Sin embargo, la recomendación de uso está ahí y es clara.

    Pasemos ahora al asunto de los formatos. Google declara leer RDFa y microformatos, además de microdatos, el reciente estándar que promueve junto a Bing y Yahoo. Por otra parte, nos consta que indexa y posiciona el contenido RDF asociado al HTML.

    En nuestra opinión, una solución completa en este ámbito, que aporte el máximo valor de posicionamiento, además de las técnicas HTML habituales debería componerse de:

    • RDFa embebido, con vocabularios estándar para expresar las entidades reconocidas por los motores de búsqueda.
    • Microformatos, si la información se refiere a alguna de las entidades de las especificaciones aprobadas (como hCard para personas, o hCalendar para eventos), o a alguno de los más prometedores o exitosos borradores (como hProduct o hRecipe).
    • Microdatos, aún cuando la especificación, por su inmadurez, no llegue a cubrir el total de los datos expresados en los otros formatos.
    • RDF vinculado al HTML, que permita el enlace de datos y la construcción de contextos que enriquezcan la información.

    Esta es la solución que hemos puesto en marcha en www.mismuseos.net, por ejemplo y en otros lugares de GNOSS.

    Reconociendo la importancia del posicionamiento en buscadores de los recursos, el problema de la representación del conocimiento implícito en un recurso quedaría muy incompleta si no consideráramos a la vez otras explotaciones del mismo. Este es el asunto del que se ocupa la Web Semántica.

    La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

    La Web Semántica resultará tanto más útil en la medida en la que las máquinas comprendan de un modo más preciso y profundo el significado de los recursos, lo que depende críticamente de la expresividad de los formatos de representación del conocimiento que utilicemos y, en este sentido, OWL-RDF no tienen competencia. Si lo que queremos es desarrollar un sistema de recuperación de la información eficiente e intuitivo, un sistema de generación de contextos pertinentes y poco ambiguos, o un sistema de recomendación inteligente, los microformatos y microdatos resultarán claramente insuficientes para muchísimas explotaciones verticales. Esto refuerza lo que hemos denominado un poco más arriba “solución completa en este ámbito”, pero en cierto modo invierte el orden de las prioridades: convendrá utilizar un estándar ontológico o vocabulario en primer lugar, para reforzarlo con microdatos y microformatos cuando de comunicarse con los buscadores se trate.

    Imagen vía: https://promocionmusical.es/

    ...