tipo de documento Artículo

Artículo

Web semántica, Web de los datos y estándares de representación del conocimiento

Acerca de este recurso...

1006

+1

Publicado el 18 . 10 . 2011 por Ricardo Alonso Maturana

La comunidad tecnológica de la Web semántica ha sufrido últimamente 2 polémicas respecto a las tecnologías de soporte. Por un problema de comunicación intrínseco a la profesión de ingeniero, a veces parece que la web semántica sea sólo un conjunto de estándares, y las herramientas generadas en torno a ellos. Desde luego, esto no es así: igual que la Web no es el HTMLXHTMLCSSXML (estándares del W3C) oJavascript (estándar ECMA, mantenido por Mozilla Foundation) que componen sus páginas, la Web semántica no es RDFOWLSPARQL, o Turtle (también estándares del W3C), o cualquier otro acrónimo más o menos conocido.

La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos, y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

La primera de las polémicas se plantea en el uso de los estándares y tecnologías para la recuperación y explotación de datos. Según Glen Macdonald, diseñador y product manager de Needlebase (una base de datos de grafos y plataforma de explotación de datos, propiedad de ITA Software, a su vez adquirida por Google en abril de 2011), lo importante no son los estándares, sino proporcionar a los usuarios un interfaz comprensible, y un lenguaje de consulta más sencillo. Siguiendo con su razonamiento, criticaba RDF y SPARQL por poco expresivos para la gente. Es fácil estar de acuerdo con esta opinión, igual que si se refiriera a XHTML, SQL, CSS o Javascript: no son muy expresivos para la gente, aunque han servido para construir la web. En mi opinión, Macdonald confunde, interesadamente, los estándares y tecnologías con la Web semántica, aunque también es cierto que muchos de los desarrollos sobre la Web semántica se han centrado en la tecnología y poco en la gente. Además, Macdonald olvida que la búsqueda y exploración de información son sólo una parte de la Web de los datos: ¿cómo enlazar datos con datos sin estándares? O, echando la vista atrás, ¿cómo se enlazarían documentos con documentos sin un lenguaje de marcas estándar para todos ellos, es decir, sin el estándar HTML?

La segunda de las polémicas se centra en el modo de expresión de los datos en bruto, origen de la mayoría de las páginas Web dinámicas. Como ya explicamos en un post anterior, una de las opciones pasa por la incrustación de marcas dentro del HTML de las páginas, con 3 posibilidades: microformatos, RDFa y microdatos. La iniciativaSchema.org, apoyada por Bing, Google y Yahoo, propone, desde Junio de 2011, el uso de microdatos, porque “…los microdatos ofrecen el equilibrio entre la posibilidad de ampliación de RDF y la sencillez de los microformatos…”. . En primer luhar, hay que señalar que, desde la comunidad de datos enlazados, se ha recibido Schema.org como algo positivo, ya que es un paso importante hacia la creación de la Web de los datos. Como contribución y esfuerzo complementario, esta comunidad ha creado el sitio Web schema.rdfs.org, para dar soporte al uso y puesta en marcha de Schema.org, especialmente enfocado a los datos enlazados.

Volviendo a las características enunciadas en los microdatos,  es cierto que la extensibilidad es algo mayor que en los microformatos, pero también que el nivel de sencillez (o dificultad) respecto al RDF o RDFa no es muy diferente.

Si se compara la extensibilidad con el RDF, llegamos a un problema de estandarización, y de quien controla los estándares. Supongamos que un usuario quiere extender la clase Product de Schema.org, para incluir datos de automóviles: peso, medidas, cilindrada, potencia, etc. Si lo extiende por su cuenta, tiene 2 problemas. Primero, aunque Schema.org podría adoptar su extensión, si ha tenido éxito, pudiera ser que produjeran una propia, para el mismo ámbito. Segundo, y más importante, nadie, ni los robots de búsqueda, entienden a priori la nueva extensión. Podría hacerse una comunicación ad hoc del nuevo formato, externa a Schema.org, y proporcionar la documentación que explique el funcionamiento y la naturaleza de los datos extendidos. La verdad, esto suena a antiguo y, desde el punto de vista técnico y de imagen, sorprende que alguna de las empresas promotoras, tan habitualmente puristas en el uso de estándares abiertos, hayan propuesto esta solución.

Esto no sucede con RDF, donde, para empezar, los estándares son abiertos, y no propiedad de empresas. Por supuesto que es posible que alguien reinvente la rueda. Sin embargo, la posibilidad de conseguir enlazar datos con datos, si se siguen las recomendaciones de reutilización de vocabularios y ontologías en su publicación, es suficiente premio al esfuerzo, que en realidad no es tal. Además, el vínculo obligatorio entre los datos RDF y una ontología accesible y pública que los defina, consigue una auto-expresión de los datos, y posibilita su comprensión mecanizada.

La decisión técnica de Schema.org podría tener una explicación de otro tipo, si se piensa en la iniciativa adoptada recientemente por Facebook. Como es sabido, Facebook mantiene una apuesta fortísima de construcción de plataforma, que permita a otras empresas generar más y más desarrollos que complementen la funcionalidad. Pues bien, dando un paso más, Facebook ha implementado la obtención y enlazado de datos en formato RDF, desde las funciones de su API. Esto, además de convertirles de facto en el más importante nodo de datos enlazados, supone un respaldo de primer orden a los estándares de W3C.

Editores: Ricardo Alonso Maturana , Editores Watermelon

Se respeta la licencia original del recurso.

0 Comentarios

¿Quieres comentar? Regístrate o inicia sesión