Watermelon: la web de datos enlazados en un eterno grafo de conocimiento > ricardo+alonso+maturana

    2 resultados

    Artículo

    /

    Publicado el 8.6.2015 por Ricardo Alonso Maturana

    Las web semánticas de la Web: el negocio de construir y explotar grandes grafos de conocimiento especializados

    LAS WEB SEMÁNTICAS DE LA WEB: EL NEGOCIO DE CONSTRUIR Y EXPLOTAR GRANDES GRAFOS DE CONOCIMIENTO ESPECIALIZADOS

    Desde que en 2001 Tim Berners-Lee escribiera Semantic Web en Scientific American, "Web semántica" hace referencia a un lenguaje técnico de marcado, así como, posteriormente, a un conjunto de estándares de interrogación de bases de datos (como SPARQL) que tienen como finalidad posibilitar la publicación de los recursos digitales que generan las personas de tal modo que resulte interpretable o inteligible por las máquinas o sistemas. Se trata, por tanto, de un lenguaje para máquinas. En este sentido, la web semántica no es lo opuesto a la web no semántica o que precisa un emisor y un receptor humanos o, si se prefiere, la web HTML (HyperText Markup Language); si consideramos a esta última como el haz de la web, aquella sería su envés. De este modo, todo recurso digital podría tener dos caras, la que puede leer o interpretar una persona, esto es la que aparece cuando solicitamos una página web y que se muestra o publica en HTML y aquella otra que pueden interpretar las máquinas y que se publica utilizando OWL-RDF (Ontology Web Languaje-Resource Description Framework).

    Ya en el artículo seminal al que me refiero se apuntaban algunos de los atributos esenciales de esta nueva forma de publicar en la World Wide Web, como son el de expresar el significado de los recursos mediante ontologías, representar el conocimiento entendiendo éste como la agregación o el enlazado (linked) de recursos distribuidos o no centralizados, facilitar la recuperación de la información posibilitando modos de interrogación más próximos al modo intencional e iterado en el que funciona la mente humana y, finalmente, acelerar la evolución del conocimiento humano al facilitar la transición o transformación de la nuevas ideas seminales frecuentemente producidas por un individuo o grupo pequeño, que viven en el marco de una subcultura original, en ideas comunes o establecidas con gran amplitud cultural. En la visión original de la web semántica, los agentes inteligentes o bots serían capaces de enlazar en un grafo de conocimiento los datos representados ontológicamente.

    Esta primera visión de la web desencadenó un enorme esfuerzo por identificar y establecer estándares ontológicos, que son la condición para poder representar conjuntos de recursos mediante un lenguaje de datos unificado. Los resultados se dejaron esperar, debido, sobre todo, al hecho de que los acuerdos humanos acerca de cómo representar un ámbito de la realidad o ámbito de conocimiento llevan tiempo, especialmente en aquellos campos en los que no preexistía una cultura caracterizada por esa clase de esfuerzos, como sí ocurría en el campo de la salud, las bibliotecas o los archivos, por poner sólo algunos casos. Los primeros resultados prácticos sólo se produjeron a partir de 2007, cuando Berners-Lee puso el acento en el hecho de que la Web Semántica debía concebirse como una Web de Datos Enlazados para que cumpliera con el propósito fundacional de contribuir a la evolución acelerada del conocimiento humano. En ese momento se establecieron los estándares ontológicos más básicos (aprovechando el vocabulario DublinCore y generando FOAF, SIOC o SKOS) y se empezaron a publicar los primeros datasets o conjuntos de datos estructurados semánticamente. De un modo que conviene explicar, estos conjuntos de datos se pusieron a disposición de terceros o reutilizadores, suponiendo que la producción de datos de esta clase iba a alentar el desarrollo de un ecosistema de reutilizadores que les daría finalmente un valor económico.

     

     

    Esto no se produjo, o no se produjo lo suficientemente rápido. Las causas por las que los datos estructurados semánticamente no generaron la clase de movimiento tecnológico y valorización de la información esperada son seguramente varias. Por un lado, la distinción seminal entre producción de datos y la explotación de los mismos por parte de agregadores o robots apelaba a una imagen de la futura Web Semántica que, al igual que sucede en la web Google por así decirlo, distinguía entre productores de datos y aquellos que podrían finalmente darles valor, unificarlos en un grafo de conocimiento o, simplemente, explotarlos; en segundo lugar, se consideraba que la publicación de datos estructurados semánticamente era una forma secundaria y posterior de publicar los recursos o contenidos de la web, de manera que nadie parecía ser consciente, entre los principales productores de datos (desde el British Museum, la Biblioteca del Congreso de EE.UU o la NASA), de la posibilidad de que en el mismo acto pudieran producirse el haz y el envés de la web o, dicho de otro modo, que un gestor de contenidos, una red social o cualquier otro sistema de edición y publicación de recursos o contenidos digitales produjera ambos formatos en el mismo acto. Esto hizo posible que se diera la paradoja de que los productores de datos estructurados no se vieran a sí mismos como reutilizadores de los mismos. Por esta vía se llegó al absurdo de que los principales productores de datos no fueron capaces de usarlos para desarrollar utilidades orientadas a mejorar la experiencia web de los/sus usuarios finales. Así, por poner sólo un par de ejemplos, el British Museum o Nature han publicado excelentes datasets, realizados con una gran calidad ontológica, que prácticamente carecen de reutilizadores y que tampoco han sido utilizados por ellos mismos para la mejora de los procesos de interacción de las personas con los computadores (Human Computer Interaction) y, por ende, para la mejora de la experiencia web de sus usuarios. Por último, en la medida en la que se produjo todo lo anterior, se entendió la web semántica como un asunto que posibilitaría la interoperabilidad entre silos de datos distribuidos, algo que afectaba a la web más profunda, pero no a los usuarios finales, al menos en un primer momento.

    Sin embargo, algunas empresas y cabe decir que algunos sectores en particular, entendieron bastante tempranamente que la web semántica, en la medida en la que era una estrategia tecnológica que posibilitaba que las máquinas entendieran el significado que estaba detrás de los contenidos, podría ser una estrategia muy prometedora para una explotación avanzada de la información, y por ende para el desarrollo de nuevos negocios basados en el descubrimiento de conocimiento, siempre y cuando el proyecto expresara un grafo de conocimiento de un modo interrogable por las personas. Esto sucedió en el ámbito de las empresas dedicadas a las biociencias, como las farmacéuticas, o entre los grandes publicadores científicos, como Elsevier o Thompson Reuters, pero también entre los medios de comunicación más avanzados, como puede verse cuando se analiza la estrategia digital de BBC o The New York Times, pero también de, por ejemplo, The Guardian (que tiene casi 45 millones de usuarios únicos al mes, frente a los 14 millones de El País digital). Casi simultáneamente, Google compró Metaweb, la empresa que estaba construyendo Freebase, en realidad un gran grafo de conocimiento que interpretaba el conjunto de la web en forma de entidades y, a través de ellas, vinculaba o enlazaba el conocimiento implícito en la totalidad de la web. Por aquel entonces, julio de 2010, Freebase tenía ya más de 12 millones de entidades; en la actualidad tiene más de 46 millones. Esta adquisición ha permitido a Google crear un gran grafo de conocimiento basado en OWL-RDF y explotarlo como expondremos en apartados siguientes.

    1.1LAS NUEVAS POSIBILIDADES DE LA REPRESENTACIÓN SEMÁNTICA DEL CONOCIMIENTO: DE LAS BÚSQUEDAS BASADAS EN LITERALES A LAS BÚSQUEDAS BASADAS EN ENTIDADES

    La explotación más relevante que Google está llevando a cabo es el paso de una búsqueda basada en literales o en secuencias de caracteres a una búsqueda basada en entidades y las nuevas posibilidades que esto ofrece. La diferencia entre un literal y una entidad es crucial: en el segundo caso la máquina reconoce un determinado objeto del mundo mientras que en el primero busca secuencias de caracteres y las relaciona mediante "cuerdas" con secuencias homólogas en otros documentos. Cuando una máquina reconoce una entidad entonces entiende, por ejemplo, que "Mario Vargas Llosa" es una persona, que tiene como nombre "Mario" y como apellidos "Vargas Llosa"; que dado que es una persona tendrá una fecha de nacimiento y eventualmente de defunción y, por ende, un lugar de nacimiento y quizá de defunción, una profesión, en este acaso "artista" y, dentro de ese espectro profesional "escritor", etc...Cuando una máquina reconoce una entidad es porque es capaz de reconocer sus atributos, de hecho, una entidad lo es en función de los atributos que la conforman. Imaginemos que una máquina es capaz de identificar sólo las personas contenidas en una colección dada de documentos, entonces sería capaz de enlazarlas a todas en un grafo y nosotros podríamos realizar preguntas o interrogar a ese grafo en función de atributos concretos, como por ejemplo, las personas que nacieron en tal o cual año, o en tal o cual sitio, o bien las que comparten una profesión, por ejemplo la de escritor y, además, han nacido en Sudamérica y han escrito su obra principal en los 60 o principios de los 70. Un conjunto de interrogaciones iterado de ese tipo nos permitiría conocer el conjunto de autores que constituyen el boom sudamericano, por ejemplo, pero lo mismo podríamos preguntar por los pintores nacidos en Ciudad Real, por poner otro caso. Otra explotación muy sencilla, es mostrar, para una búsqueda dada, los detalles ontológicos (el conjunto de atributos) de la entidad principal por la que se pregunta. Es lo que hace Google cuando muestra la ficha de Velázquez, el pintor barroco español. Cuando introducimos en la caja de búsqueda el literal "Velázquez", Google infiere que preguntamos por Velázquez, el pintor, y nos muestra su fecha de nacimiento y defunción, el lugar de esos eventos y los principales cuadros de los que fue autor, también otros pintores relacionados con Velázquez, por lo general de su misma época y/o escuela. Si hacemos clic en alguno de esos cuadros, nos ofrece una nueva búsqueda con muchos más cuadros de Velázquez y si clicamos alguno de ellos podemos llegar a una ficha de Wikipedia. Desde luego, el recorrido que realizamos a partir de una petición tiene sentido porque el conjunto de entidades que manejamos, "pintores" y "obras de arte" están relacionadas, lo mismo hubiera ocurrido si se hubiera tratado de "celebrities" y "programas de televisión", o de "futbolistas" y "equipos en los que han jugado".

    En los enlaces que pueden visitarse al final de este punto, se puede conocer lo que explícitamente ha publicado Google sobre el tema, incluyendo el hecho de que utilizan las descripciones ontológicas en OWL-RDF de terceros, siempre y cuando sean referentes en su campo de conocimiento. Lo que ha quedado claro en esta fase de la implantación de la Web Semántica es que cuando ésta es entendida como Grafo de Conocimiento (y no sólo como un dataset o como un conjunto de ficheros expresivos y enlazables) entonces hay muchos negocios posibles, siempre y cuando se piense en la clase de utilidades que hacen más sencillas y útiles las webs al conjunto de audiencias que en su conjunto denominamos “usuario final”. Y ello porque en cualquier colección de recursos suficientemente amplia, existe un conjunto de relaciones implícitas valiosas para diversos grupos de interés, algunos probablemente muy minoritarios, que hacen posible una explotación avanzada de los mismos, pero también porque todo grafo de conocimiento representado sobre estándares es extensible y se puede enlazar con datos provenientes de terceros, como ha demostrado Google con su acoplamiento simbiótico con Wikipedia o, más modestamente, Didactalia con su grafo dinámico de conocimiento basado igualmente en Wikipedia, vía DBPedia. A Google, ese acoplamiento le ha servido para multiplicar el tiempo que las personas permanecen en el buscador y para ampliar su utilidad a costa de los productores primarios de contenidos, lo que sin duda es un buen negocio. A continuación, los artículos de Google prometidos, en donde ellos mismos dan cuenta de su proyecto de Grafo de Conocimiento. La conclusión a la que un lector atento podría llegar es que si alguien dispone de una base de recursos de suficiente calidad, lo más interesante es enlazarlos en un grafo de conocimiento entre sí y con terceros que puedan enriquecerlo y extenderlo, porque en ello es seguro que hay nuevos negocios.

    1.2MODELOS DE INTERACCIÓN DE LAS PERSONAS CON LOS ORDENADORES: UTILIDADES Y NEGOCIOS ASOCIADOS CON LA CONTRUCCIÓN DE UN GRAFO DE CONOCIMIENTO

    El área de conocimiento Human-Computer Interaction (HCI) investiga el diseño y uso de la tecnología informática, con especial atención a las interfaces que intermedian entre las personas o usuarios y las computadoras. Los investigadores en el campo de la HCI observan los modos en que los seres humanos interactúan con las computadoras y tratan de desarrollar nuevos diseños y eventualmente nuevas tecnologías que posibiliten a las personas interactuar con las computadoras en formas novedosas. Human-Computer Interaction, como campo de investigación, está situado en la intersección de la informática, las ciencias de la conducta y, en especial la psicología, el diseño, el estudio de los media y otros variados campos de estudio. El término fue popularizado por Stuart K. y Allen Newell de la Universidad Carnegie Mellon y Thomas P. Moran de IBM Research en su artículo de 1983, La Psicología de la Interacción Persona-Ordenador, que constituye la obra seminal sobre el tema. A diferencia de otras herramientas con usos limitados (como un martillo o el destornillador o cualquier otra herramienta de mano, pero también como ocurre con cualquier máquina-herramienta), un ordenador tiene muchos usos posibles, lo que implica que las conversaciones o diálogos posibles entre las personas y las máquinas son múltiples y evolutivas. Hemos tratado con anterioridad de un aspecto de esta interacción, en concreto de lo relacionado con los modelos de búsqueda y recuperación de la información (véase: Human-Computer Information Retrieval: Buscadores Facetados, la siguiente generación de buscadores basados en razonamiento).

    El primer negocio tiene que ver con el modo en el que recuperamos la información e interrogamos a los contenidos. Durante los últimos años, la confluencia de estudios en las áreas de IR (Information Retrieval) y HCI (Human Computer Interaction) ha generado un área de estudio específica, HCIR(Human–Computer Information Retrieval), que se ocupa de las técnicas de recuperación de información que introducen la inteligencia humana en el proceso de búsqueda. Algunas de las ideas generadas, que ya se están aplicando en los buscadores más avanzados, son:

    • Dar la responsabilidad y el control de la búsqueda a la persona. Le requiere esfuerzo, pero se le recompensa.
    • No adivinar las intenciones, sino mejorar la comunicación.
    • Soportar refinamiento y exploración.
    • Responder con un conjunto de resultados ordenado y adecuado, lo que incluye ofrecer diferentes formas de presentación según el tipo de resultados: listas, mosaicos, mapas, timeline, etc.
    • Extender los resultados y la información con contextos, que son, a su vez, resultados de otras búsquedas o de las búsquedas que de modo automático puede realizar una máquina a partir de un conjunto de interrogaciones desarrolladas por una persona (Computer-Computer Informational Retrieval)

    Una de las propuestas concretas es el uso, como interfaz, de buscadores facetados. Han sido pioneros, en el uso de este tipo de interfaz, sitios web como Amazon o Ebay.

    Los buscadores facetados se caracterizan por:

    • Ofrecer una sumarización basada en propiedades que caracterizan específicamente a los resultados mostrados. Por ejemplo, si se trata de mostrar obras de arte, podrían ser autor, museo, época, estilo, escuela, técnica, etc.
    • Cada posible valor de la propiedad es una opción de refinamiento de la búsqueda. Por ejemplo, una vez buscadas obras de arte sobre caballos, se dispone de una lista con estilos. Eligiendo uno de ellos, Barroco, se obtendrían 14 cuadros. De ellos, observamos que uno de los autores es Velázquez, con lo que llegamos a 3 cuadros: precisión y pertinencia
    • Las opciones de refinamiento ofrecen resultados posibles. En el ejemplo anterior, no es posible elegir como autor a Goya, ya que ninguna de sus obras correspondería al estilo barroco. Es un defecto frecuente de algunos sistemas de búsqueda la posibilidad de combinar opciones de búsqueda que no devuelven resultados.

    Las tecnologías de la web semántica posibilitan extender esta clase de buscadores a repositorios de contenidos menos estructurados que los elementos de un catálogo, como es el caso de los grandes buscadores mencionados, por ejemplo, de una gran base de noticias o de videos anotados. El resultado natural de implantar un modelo de búsqueda basada en un facetado con sumarización es una mayor precisión en los resultados, un mayor tiempo de permanencia, así como la posibilidad de facilitar a los usuarios tanto especializados como ordinarios un espacio de descubrimiento de conocimiento. Las máquinas pueden computar el conjunto de relaciones entre todas las entidades y atributos contenidos en un grafo, lo que no resulta posible para una persona, por muy experta que sea en la materia.

    El segundo negocio tiene que ver con la posibilidad de generar nuevos relatos en un dominio específico (periodístico, educativo, cultural, turístico) utilizando la capacidad de las máquinas para realizar inferencias automáticas sobre el conjunto de relaciones explícitas entre el conjunto de entidades que conforman el grafo y de presentarlo de un modo útil y atractivo para los usuarios. Los relatos basados en sistemas de inferencia automáticos posibilitan desarrollar un discurso a partir del interés manifestado por una persona por un conjunto de entidades, mostrando entidades relacionadas de diverso modo con la requerida y extendiendo, por tanto, con posibilidades nuevas de descubrimiento de conocimiento y navegación, las posibilidades de diálogo y conversación entre las personas y los contenidos representados en el grafo de conocimiento. Imaginemos una noticia que trata de Manuel Fraga, la máquina puede inferir de las relaciones implícitas en el grafo su relación con otros políticos del PP, o con personas de AP, o con aquellas personas que fueron redactores de la constitución,  y abrir a partir de cada uno de esos atributos de Fraga hilos de inferencia y, por ende, de exploración y descubrimiento de conocimiento. Un relato de esta naturaleza propone un viaje y alienta la curiosidad y el instinto por saber más y aprender de las personas. En definitiva, visto desde este modo de generación de relatos automáticos, un grafo multiplica las posibilidades de permanencia y de páginas vistas.

    En tercer lugar, la publicación dinámica semántica (Semantic Dynamic Publishing) de un grafo de conocimiento contiene todas las páginas webs posibles que se pueden realizar con ese contenido y, lo que es aún mejor, estas se pueden pintar automáticamente si existe un sistema de interrogación adecuado. Así por ejemplo, el grafo de conocimiento del Museo del Prado, incluye las páginas web del bodegón español del siglo XVIII, el de los desnudos femeninos del siglo XVII en la Escuela Italiana o el de los retratos reales en el siglo XVI. Todas estas búsquedas pueden ser en el caso del Prado el correlato de una posible exposición dedicada.

    Supongamos lo mismo con una base de noticias. La BBC utilizó la publicación semántica dinámica en el Mundial de Fútbol de Sudáfrica de 2010. Construyó un gran grafo de conocimiento que contenía a los jugadores, los entrenadores y otros profesionales relacionados con los equipos, las selecciones, los países a los que pertenecían esas selecciones, las sedes...Todo ello le permitió mantener más de 700 páginas web (una por jugador, por equipo, por sede...) sin un gran equipo de editores. La publicación dinámica semántica posibilita generar páginas web ad hoc de un suceso específico, de una persona o conjunto de ellas, de un evento, a muy bajo coste. A su vez, la publicación de información especializada just in time sobre asuntos de actualidad genera tráfico, visitas y eventualmente registro y suscripciones.

    Dado que un grafo de conocimiento puede mostrar su información de múltiples maneras, listas, mosaicos, mapas, timeline, etc... y que también puede realizar inferencias que posibilitan a los usuarios descubrir conocimiento, algunas o muchas de estas utilidades pueden ser ellas mismas sólo accesibles para usuarios registrados o para suscriptores. La mayor parte de la gente aceptará registrarse y suscribirse si con ello accede a una experiencia de conversación con los contenidos de la web realmente superior, de manera que las ventajas que la tecnología ofrece para el diálogo entre las personas y las máquinas pueden convertirse en registro y eventualmente en suscriptores.

    Un grafo de conocimiento, en la medida en la que anota o identifica las entidades de los contenidos, permite valorizar esos mismos contenidos para fines distintos de aquellos para los que originalmente fueron concebidos. Así, por ejemplo, buena parte del trabajo que se realiza en un periódico o una televisión puede tener un valor educativo, turístico o cultural también. Esos contenidos podrían eventualmente tomar parte o enlazarse a través de sus entidades con grafos cuyos contenidos primarios fueron pensados para otros sectores. También pueden desarrollar un nuevo valor intrínsecamente informativo, al facilitar la construcción de presentaciones nuevas de los mismos, por ejemplo a través de portales verticales. De hecho, la facilidad para construir y mantener portales verticales puede ser una de las mayores formas de valorizar una gran base de contenidos a través de un grafo de conocimiento.

    Finalmente y dado que un grafo de conocimiento dota de un corazón semántico a una gran base de conocimiento, resulta posible desarrollar un potente negocio basado en ofrecer a cada usuario de manera proactiva información ad hoc y contextual asociada con sus intereses, en especial a aquellos que están registrados o son suscriptores y cuyos datos, de hecho, pueden ser incorporados como parte del propio grafo de conocimiento. La capacidad para personalizar la información y por ende la publicidad constituye una de las principales posibilidades de un grafo de conocimiento que represente también de manera semántica a los usuarios y sus interacciones.

    Por último, la representación semántica del contenido tiene un evidente impacto en el posicionamiento y, en consecuencia, en el tráfico. Dado que, de todos los debates sobre las posibilidades de la web semántica, este es el más conocido y comentado, y dado también que la pelea por las audiencias y por el tráfico es una de las más importantes y extendidas de la web, y considerando por último que la ordenación de los resultados de búsqueda está, hoy en día, en una situación monopolística, creemos que es necesario dedicar a este punto un capítulo específico.

    1.3SEMANTIC SEO O EL DEBATE SOBRE CÓMO DESARROLLAR UNA ESTRATEGIA SEO GANADORA

    La batalla por posicionar los contenidos ha resultado ser, en la práctica, la de entender lo más precisa y rápidamente posible las preferencias de los grandes agregadores a la hora de presentar el contenido como resultado de una determinada búsqueda. El problema en este momento de la instalación de la sociedad del conocimiento, caracterizado por una gran abundancia de información y una creciente escasez de atención, es que esta lucha ha terminado por ocupar el centro del conjunto de estrategias que caracterizan el combate por la prevalencia en la web. Es natural que así sea, pero aquí, como en todo, la posesión de tecnología diferencial puede determinar el resultado final de la riña.

    La construcción de la web semántica como grafo de conocimiento ha debido entrar en conversaciones laterales, y también muy generales, que poco tenían que ver con su visión original, pero que han resultado ineludibles desde que los principales buscadores se asociaran a partir de 2010 en schema.org con el fin de desarrollar un modelo de metadatos semánticos que pudiera resultar accesible para las agencias de comunicación y publicadores web no especializados. Resulta inevitable apuntar aquí que el proyecto de los grandes jugadores en el ámbito de la búsqueda y especialmente de Google era anotar la web y que el premio para los colaboradores era mejorar, bajo ciertas restricciones o condiciones, su posicionamiento. Así es como empezó la historia de los metadatos y los microformatos y como se relacionó un gran proyecto de anotación semántica vinculado con la construcción de un grafo de conocimiento con el posicionamiento web y con la estrategia SEO. Es evidente que Google aprecia la semántica, pero especialmente aprecia los ficheros RDF.

    Con relación al tema de los microdatos y los microformatos creo que el tema de fondo, aunque no sólo, debería ser el hecho de que alguien, una empresa, un publicador, un medio de comunicación... que posea gran contenidos propio, original y de calidad decida construir un grafo de conocimiento que enlace todas las miles de entidades de sus diversas colecciones de recursos entre sí, que, además, acumule varios cientos de miles de atributos a través de los cuáles se pueda viajar o navegar o formular preguntas (queries) iteradas que posibiliten recuperar la información de un modo no previsto por el administrador y no dependiente de un algoritmo que funcione con un conjunto de reglas fijas y administradas a priori. Ese grafo debería responder a un modelo ontológico normalizado que eventualmente permitiría incorporar al mismo información descrita también ontológicamente por terceros y, por tanto, enlazarlo con el de otras organizaciones que utilicen un modelo semejante o simplemente con entidades homólogas de grafos heterogéneos. Si alguien hace esto, desde luego que puede atender y soportar en su estrategia SEO cualquier modo de anotación semántica solicitado por los principales jugadores en el campo de la búsqueda.

    El lenguaje técnico que utilizamos para describir ese grafo interpretable o decodificable por las máquinas es OWL-RDF; y el modo "natural" en el que incrustamos algunos atributos del RDF en el HTML se denomina RDFa, que es lo que permite que los robots de búsqueda consuman información semántica del RDF desde el HTML. Ello tiene efectos en el posicionamiento, como ya hemos dicho. Pero lo importante es el RDF que, sin descuidar lo que pueda tener de interés en SEO a través de su publicación resumida en forma de RDFa, es el que posibilita estrategias HCI (Human Computer Interaction) orientadas a explotar el grafo de conocimiento subyacente de manera relevante para las personas y, por ende, abre el camino a nuevos modelos de negocio basados en el descubrimiento de conocimiento y en la presentación de conocimiento relevante just in time.

    Dicho esto el problema suele consistir en discutir, no acerca del grafo de conocimiento y de una verdadera estrategia semántica, sino sobre la bondad de los microdatos frente al RDFa y, en última instancia, frente al RDF en el marco de una conversación que considera que toda estrategia semántica tiene sentido en el marco de una batalla por el SEO, lo que resulta ser, como hemos tratado de mostrar, un punto de vista que no toma en cuanta algunas de las posibilidades más relevantes de la web semántica.

    En todo caso, creemos que no existe (ni existió) tal batalla entre formatos, ni una situación de "microdatos vs RDFa", al menos para los grandes consumidores de dichos datos: los robots de búsqueda. La situación actual es que Google, y el resto de sistemas de búsqueda, quieren los datos que están implícitos en las páginas HTML, y parece no importarles mucho el formato usado, siempre que éste sea estándar. En este sentido, cabe indicar que schema.org es un "estándar de facto", creado y promovido por 4 empresas (dependiente por tanto de Bing, Google, Yahoo y Yandex), y no de una entidad certificadora independiente, como W3C, IEEE o ECMA; mientras que RDFa y RDF son estándares de World Wide Web Consortium (W3C).

    Hay que señalar que los Microdatos existentes se refieren a un conjunto ontológico generalista y bastante reducido. Además, el método de extensión de vocabularios y tipos de entidades definido en schema.org, que se acaba de modificar este mes de mayo, parece poco robusto, si de lo que ese trata es de soportar proyectos altamente expresivos.

    Como hemos indicado en este texto, en el core de nuestra arquitectura está la publicación de datos síncrona con la publicación del contenido como tal (HTML). Comenzamos a analizar en profundidad este asunto en el año 2011, definiendo nuestra solución actual (HTML + RDFa + RDF), y publicando algunos posts que os invitamos a consultar:

    A finales del año pasado, publicamos un nuevo post con nuestra visión sobre el estado actual de esta cuestión: El posicionamiento web y la Web Semántica. Semantic SEO

    Dicha visión sobre SEO (que no es más que una de las explotaciones posibles de un grafo de conocimiento) se puede resumir en:

    • Hay que ofrecer datos incrustados a los buscadores.
    • El formato puede ser microdatos o RDFa. Nuestra solución estándar (por la que hemos optado en GNOSS) ofrece RDFa, pero podríamos ofrecer Microdatos (recordando que hay que elegir uno de los 2) si fuera necesario.
    • Además de los datos incrustados en HTML, en GNOSS ofrecemos una vista RDF que sólo contiene los datos, pudiendo incluir propiedades adicionales a las incluidas en HTML+RDFa.

    Llegados a este punto, ¿por qué RDFa en lugar de Microdatos para una web basada en estándares de Web Semántica? Creemos que este pregunta tiene sentido en el caso de que se utilicen modelos de referencia (y no tanto en proyectos más informales de anotación semántica donde la relación entre el RDF y el RDFa puede ser mucho más casual)

    Un caso que puede entenderse con claridad es aquel que utiliza algún modelo de referencia, como es el caso de los museos que utilizan el vocabulario CIDOC-CRM. Los microdatos de schema.org ofrecen un vocabulario con diversos tipos de entidades, entre los que se encuentra CreativeWork, que podríamos aplicar en este caso, y que tiene subtipos más específicos como Painting o Sculpture. Sin embargo, estos subtipos no tienen propiedades específicas.

    Si revisamos las propiedades de CreativeWork nos encontramos con que podríamos usar las siguientes:

    • description. A short description of the item.
    • image. An image of the item. This can be a URL or a fully described ImageObject.
    • name. The name of the item.
    • alternativeHeadline. A secondary title of the CreativeWork.
    • author. The author of this content.
    • citation. A citation or reference to another creative work, such as another publication, web page, scholarly article, etc.
    • contentLocation. The location depicted or described in the content. For example, the location in a photograph or painting.
    • dateCreated. The date on which the CreativeWork was created.
    • keywords. Keywords or tags used to describe this content. Multiple entries in a keywords list are typically delimited by commas.
    • mentions. Indicates that the CreativeWork contains a reference to, but is not necessarily about a concept.
    • character. Fictional person connected with a creative work.

    Por nuestra parte, el HTML que estamos generando para nuestros proyectos de museos contiene las siguientes propiedades RDFa, provenientes de las ontologías y vocabularios CIDOC y FRBR (simplificamos la escritura del nombre de las propiedades para que sean legibles por humanos):

    Propiedades similares a Microdatos:

    • has_note. Descripción de la obra.
    • shows_visual_item. Imágenes de la obra.
    • has_title. Título de la obra
    • author.
    • is_documented_in. Trabajos documentales sobre la obra (con su título, autor, fecha, editorial y páginas)
    • has_current_location. Situación de la obra en el museo. Por ejemplo, "Sala 014".
    • has_current_location_type. Por ejemplo, "Expuesto".
    • textDate. Fecha de la obra, en texto. Por ejemplo, "Hacia 1632".
    • tagLabel. Cada una de las etiquetas de la obra.
    • represents_object. Objetos representados en la obra. Por ejemplo, "laúd" o "violín".

    Propiedades no disponibles en Microdatos:

    • movedFrom. De dónde llegó la obra, por ejemplo, "Colección Real (Convento..." 
    • identifier. Por ejemplo, "P01167".
    • used_general_technique. Técnica de la obra, por ejemplo "Óleo".
    • employed_support. Soporte de la obra, por ejemplo "Lienzo".
    • dimension. Medidas de la obra.

    Esto es un ejemplo que muestra la mayor expresividad del RDFa y, sobre todo, la del RDF que le sirve de soporte y fuente.

    Finalmente, conviene indicar que la representación RDF de cada obra contiene, además de los expresados en RDFa, los demás datos de la obra. Se trata de la información que está disponible como facetas de búsqueda, pero que tal vez no se incluya en la ficha de la obra (ni en el HTML ni, por tanto, en el RDFa), como la "Escuela" o las demás propiedades relacionadas con Iconografía (Tema, Fauna, Flora y Personajes u otras posibles). Ello dota al grafo de una enorme plasticidad y expresividad y, por ende, de unas grandes posibilidades de extenderlo mediante el recurso de enlazarlo con grafos homólogos o incluso, con entidades concretas de grafos heterogéneos (como estamos haciendo ahora con Didactalia). También de desarrollar nuevos servicios y funciones sobre esa clase de atributos que sólo están en el RDF y no en el RDFa. Ello podría dar lugar, siempre y cuando existieran actores decididos a ello, a realizar la World Wide Web de un modo un tanto diferente a cómo actualmente la conocemos, esto es, no como un gigantesco listado o unas páginas amarillas, sino organizada en un conjunto de espacios temáticos que acumulen información vinculada con un determinado ámbito de conocimiento o realidad de un modo significativo y útil para distintas audiencias. Así en el futuro podría existir una web de datos enlazados, o basada en un grafo de conocimiento, educativa o cultural o de biología molecular, o de viajes de aventura o de…, en el que el conocimiento relevante se muestre y sea interrogable sobre la base de entidades y atributos enlazados. Esto finalmente podría dar como resultado una geometría de la web diferente a la que conocemos, basada en un conjunto de web de datos que expresan y explotan un conjunto de grafos especializados de conocimiento. En todo caso, en la web actual o en cualquier modo en el que la web se desarrolle, la batalla por el SEO será, como hemos dicho al principio de este apartado, una batalla ineludible por prevalecer en un mundo donde la información es un bien que tiende a la hiperabundancia y la atención, por el contrario, un bien cada día más escaso.

     

    Ricardo Alonso Maturana. CEO GNOSS.

    Logroño, junio 2015.

     

    ...

    Artículo

    /

    Publicado el 14.6.2010 por Ricardo Alonso Maturana

    Social data; web semántica; y datos abiertos y enlazados: ¡knowledge internet! / Social data, semantic web, opend and linked data: knowledge internet!

    ENGLISH VERSION/ TEXTO EN ESPAÑOL

    El proceso general de digitalización de la realidad está generando una capa de representación de la totalidad de las cosas y personas, pero también, y esto resulta especialmente relevante, de sus relaciones. A, por ejemplo, ‘Juan Rulfo’ y, pongamos, ‘El llano en llamas’ les une el hecho de que el primero es el AUTOR del segundo, lo que queda expresado mediante la proposición: ‘Juan Rulfo es el autor de ‘El llano en llamas’ Como veremos, la web semántica posibilita computar (deducir, razonar, buscar...) con proposiciones de ese tipo, lo que ofrece grandes posibilidades. Cuando disponemos de los datos y de sus relaciones organizados de acuerdo con los lenguajes de la web semántica (de los que he hablado en ¿Mis datos en manos de terceros? Ventajas de expresar contenidos con estándares de la web semántica), decimos que “los datos están estructurados". Por desgracia, la mayor parte de los datos de la web no están expresados de ese modo. Sin embargo también están estructurados, aunque no del modo en el que lo entienden las máquinas. Buena parte del trabajo consiste, precisamente, en convertir nuestros documentos HTML, .doc, etc...en datos estructurados. En cualquier caso y en buena medida, todos nuestros datos los estamos organizando de forma útil para las personas gracias a las redes sociales. De hecho, construir una web más inteligente parece la condición necesaria para manejar y utilizar de manera eficiente esa enorme y creciente cantidad de datos que está produciendo la actividad humana en las redes. A esta clase de datos categorizados y organizados gracias al trabajo social de las redes les llamaremos Social Data.

     

    Social Data

    Habitualmente los Social Data incorporan el punto de vista de las personas que los editan, o bien, dependiendo de su naturaleza, el de un grupo. Esta información que añade información a una información original suele conocerse con el nombre de metadatos. Los Social Data son, por tanto, metadatos construidos gracias al trabajo social en la red de las personas. Las colecciones de metadatos más habituales en las redes sociales son conocidas por el nombre de folksonomías, que expresan el punto de vista personal o la perspectiva personal con relación a una información o documento determinado. En ocasiones, las redes sociales, en especial cuando se trata de redes profesionales, incluyen puntos de vista más normativos para calificar la información: las taxonomías o los tesauros. La acción de asignar un determinado metadato a una información o documento se conoce con el nombre de etiquetar. El etiquetado social es la fuente primaria de producción de Social Data.

     

    Google es demasiado idiota para entender lo que la gente necesita

    Dado que la racionalidad humana tiene un carácter intencional o finalista, los Social Data aportan una información muy relevante a la hora de recuperar la información con una determinada finalidad o intención. Este es el modo general en el que los humanos desean recuperar información, pero no el modo en el que resuelven este problema los sistemas y buscadores. Pensemos por ejemplo en nuestra experiencia de búsqueda y recuperación de información con Google, el buscador más extendido. Google nos ofrece como resultado de una búsqueda una, habitualmente larga, lista de resultados o posibilidades ordenados en función de la relevancia que atribuye a cada uno de ellos. Eso no estaría mal en primera instancia, pero lamentablemente es todo lo que podemos hacer con Google: no podemos hacer una segunda pregunta relacionada con la primera. Imaginemos que me gustaría conocer qué hay sobre ‘buscadores semánticos que utilicen procesamiento del lenguaje natural y, además, lógica borrosa, escrito por mujeres en 2008, en alguna universidad de California o en San Francisco y alrededores’. Podemos intentarlo introduciendo en la barra del buscador "buscador+semántico+procesamiento+del+lenguaje+natural+lógica+borrosa+san+francisco+2008", pero como puede imaginar casi cualquiera el resultado puede resultar sorprendente. En todo caso, a nadie se nos ocurriría utilizar ‘mujer’ o ‘alrededores’ o ‘alguna universidad de california’ como criterio de recuperación de información, porque conociendo a Google no resulta una expectativa razonable.

     

    Google padece el síndrome del savant o del sabio. Es un idiota con algunas capacidades muy desarrolladas, un idiota inteligente capaz de comparar todos los caracteres de un texto con la secuencia que le proponemos, pero incapaz de entender lo que le solicitamos. En nuestro ejemplo, las categorías ‘documentos escritos por mujeres’ o ‘producidos en una universidad de california’ son difícilmente traducibles a una secuencia de caracteres que ofrezca la perspectiva de un conjunto de resultados aceptable. ¿Por qué no podemos interrogar a nuestro buscador sucesivamente, tal y como hacemos en nuestra vida ordinaria, para resolver problemas que requieren manejar grandes cantidades de información? Nuestro cerebro no está diseñado para manejar enormes cantidades de información, sino relativamente poca pero significativa; por eso nuestra razón produce como resultado de nuestras indagaciones largas listas ordenadas por relevancia, sino que opera estableciendo sucesivas condiciones o restricciones crecientes que nos conducen a un resultado o a unos pocos cuyo valor relativo pueda establecerse de un sólo golpe de vista. En una partida de ajedrez, nadie en su sano juicio consideraría una estrategia razonable el ordenar en una lista en función de sus posibilidades de conducir a la victoria, todas las posibles jugadas vinculadas con una posición dada de las fichas. Obviamente lo puede hacer Deep Blue, pero los humanos carecen de esa capacidad para computar. A cambio ‘saben lo que quieren’, lo que les permite considerar sólo la información útil para ese fin. 

     

    Contextos de interpretación de la información que pueden ser entendidos por las máquinas

    Los Social Data añaden un contexto explícito de interpretación a cualquier información o documento, por lo que constituyen el elemento social de la dimensión semántica de la web. La semántica de la web se construye según vemos social o colectivamente y esa información es útil porque las personas no son demasiado diferentes. 

    Una ontología concreta expresa un modo de categorizar, modelar o representar nuestro conocimiento con relación a un campo, entidad u objeto determinado. Lo normal es que las ontologías representen las entidades, que en nuestro lenguaje natural son denotadas mediante los nombres propios y comunes, y sus relaciones. Como lo hacemos en un lenguaje que puede ser ‘comprendido’ por las máquinas, éstas pueden entenderse entre sí (interoperar o intercambiar datos con independencia de los formatos de almacenamiento y de las aplicaciones de gestión), pero también ‘entendernos’ e interactuar con nosotros de manera inteligente; también podemos verlo al revés, gracias a las convenciones de la web semántica nosotros podemos conversar con ellas utilizando nuestras capacidades de un modo natural, esto es, podemos razonar con ellas. ¡Esto representa una gran oportunidad para todos, que se añade a las que ofrecía el etiquetado social!

    En la práctica, hay muchas cosas que necesitan conocer los sistemas, especialmente en el contexto de una red social, para poder comunicarse con sentido con las personas y para que interoperen con otros sistemas. Para que esto sea realmente posible,  precisamos que todos ellos hablen con las mismas palabras, esto es, que utilicen las mismas ontologías. A estas ontologías sobre las que existe un acuerdo (que puede ser universal, muy amplio o...menos amplio) las denominamos vocabularios. Algunos vocabularios de carácter muy general resultan especialmente importantes. Dado que los sistemas funcionan sobre la base de documentos digitalizados y descripciones de personas, las ontologías que representan nuestra idea general de lo que es un recurso o documento digital, las que modelan la descripción de una persona y aquellas que describen un sistema de categorías o tesauro resultan especialmente importantes porque permiten conectar a la mayor parte de las entidades que existen en la webEllas representan del modo más inclusivo a casi cualquier contenido que puede encontrarse en internet y por ello hacen que las máquinas y los sistemas puedan interoperar entre sí con pocas restricciones.

    La web semántica puede definirse como el conjunto de convenciones que hace posible estructurar los datos contenidos en los distintos formatos de documentos (que generalmente están desestructurados, lo que en realidad significa que no pueden interpretarlos las máquinas), con el fin de que tanto las máquinas como las personas puedan interactuar (interoperar) entre sí de un modo más humanizado, intuitivo, eficiente y satisfactorio que lo que sucedía con la web basada en la computación. Es la base para el desarrollo de una web más inteligente y...autoconsciente.

     

    Open Data y Linked Data

    Open Data designa una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Los datos pueden estar abiertos y, cuando no se utilizan los estándares de la web semántica, no resultar aprovechables por terceros.

    Aún cuando los datos de una determinada aplicación web se expresen de acuerdo con los estándares de la web semántica caben diversas posibilidades:

    • Los datos pueden ser abiertos, pero no estar enlazados
    • Los datos pueden ser enlazados, pero no estar abiertos

    La posibilidad de datos que sean tanto abiertos como enlazados es cada vez más viable, tanto desde el punto de vista tecnológico, como de negocio. La Web Semántica sólo puede funcionar con datos que sean tanto abiertos como enlazados. Nos referimos a esto en un post anterior. En esta entrada, la figura representa el grafo del conjunto de iniciativas y aplicaciones enlazadas que constituyen la Linked Data Web o de la Web de los datos abiertos y enlazados

    Linked Data Web implica una manera de publicar contenidos en la Web que:

    •  favorece la reutilización
    •  reduce la redundancia
    •  maximiza la conectividad (real y potencial)
    •  hace posible el “efecto red” a la hora de añadir valor a los datos

     

    En definitiva:                                                    Linked Data = Open Data + Open Standars

     

    La web semántica tiene ya un tamaño considerable, que irá aumentando a medida en la que se vayan estructurando los datos de más espacios de la web (a la par que se crean espacios con los datos ya estructurados). Los datos estructurados permiten estrategias de búsqueda que en lugar de ordenar una lista de posibles soluciones en función de la relevancia (en lugar de obligar a los humanos a entender la lógica de las máquinas), permite ir razonando hasta localizar el resultado o pequeño número de resultados que responde a las restricciones o condiciones del razonamiento. En definitiva, permiten las búsquedas basadas en el razonamiento o búsquedas facetadas.

    Por otro lado, la web semántica posibilita ofrecer como resultado de una determinada búsqueda el conjunto de contextos relacionados con ella, como por ejemplo personas relacionadas, documentos relacionados, imágenes relacionas, etiquetas o metadatos relacionados, etc…Esto posibilita el poder desarrollar y evolucionar las búsquedas desde la perspectiva humana de la exploración.

    En resumen, Linked Data Web sería:

    •          Base de datos global
    •          Diseñada para que las máquinas ‘hablen’ y ‘piensen’ al modo humano·        
    •          Los objetos que maneja y conecta representan cosas (como personas, películas, imágenes, libros, plantas, etc…, esto es, cualquier cosa que podamos representar mediante una ontología) y no, como ocurre en la web HTML, documentos (páginas web)
    •          Los enlaces representan relaciones entre entidades o 'cosas'
    •          Para ello se precisa de un alto grado de estructuración en las descripciones de esas entidades
    •          Es preciso, por tanto, que la semántica de las cosas sea explícita

    Las tecnologías o estándares asociados con su desarrollo serían: URIs, HTTP, RDF, RDFS/OWL

     

    El siguiente grafo muestra el conjunto de iniciativas que forman parte de la web semántica y sus diferentes grados de interacción

     

     

     

    Imagen: linkeddata.org

     

    www.gnoss.com es un sistema de redes sociales enlazadas cuya ontología se expresa de acuerdo con los estándares de la web semántica. gnoss.com, además de ser un espacio Open Data, es un espacio de Linked Data, esto es, sus datos son enlazables, interpretables y expresables desde cualquier web que trabaje dentro de los estándares de la web semántica. Pero la web semántica son, en el fondo, social data pues la semántica expresa siempre un acuerdo formal o informal entre personas: no hay posibilidades de entendernos sin una idea común acerca del significado de las palabras. Esta semántica se va construyendo, es un ‘work in progress’ que se puede expresar de diferentes modo, pero que finalmente, dentro de la lógica evolutiva de la web semántica, tiende a concretarse en vocabularios estándar. Estos estándares son los que en el corto y medio plazo se irán imponiendo para resolver los profundos problemas de aislamiento a los que nos somete el no hacerlo así. Los sistemas de salud, las administraciones públicas y las grandes corporaciones están asumiendo la necesidad de trabajar con ellos si quieren aprovechar el potencial de sus sistemas y de la relación entre ellos y las personas. Poco a poco lo irán haciendo el resto de las empresas y personas. 

     

    ENGLISH VERSION/ TEXTO EN ESPAÑOL 

     

    The general process of reality digitalization of is creating a layer of representation of all things and people, but also of their relationships, and this is particularly important. For example, ‘Juan Rulfo’ and, let’s say, ‘The Burning Plain and Other Stories’ are linked by the fact that the first one is the author of the second one. This is expressed by the proposition: “Juan Rulfo is the author of The Burning Plain”. As we shall see, the semantic Web enables compute (deduce, reason, search...) with proposals of this kind, which offers great possibilities. When you have the data and their relationships organized according to semantic web languages (I have spoken about them in My data in the hands of others? Advantages of expressing content with semantic web standards), we say that “data are structured”. Unfortunately, most web data are not expressed in that way. However, they are structured too, but not in the way that the machines understand. Much of the work involves specifically converting our HTML, doc, etc. documents into structured data. In any case and to a large extend, we are organizing all our data in a useful way for people thanks to social networks. In fact, building a smarter web seems the necessary condition to efficiently manage and use the huge and growing amount of data that human activity is generating on the networks. This kind of data which are categorized and organized through the social work on social networks will be called Social Data.

     

    Social Data

    Social Data usually incorporate the perspective of people who edit them, or, depending on their nature, that of a group. This information that adds information to original information is generally known as metadata. Therefore, Social Data are metadata built thanks to social work in the people network. The most common metadata collections on social networks are known by the name of folksonomies, which express a personal view or personal perspective in relation to a particular information or document. Social networks, especially when it comes to professional networks, sometimes include regulatory viewpoints to describe the information: taxonomies or thesauri. The action of assigning a particular metadata to some information or to a document is known as tagging. Social tagging is the primary source of Social Data production.


    Google is too stupid to understand what people need

    Given that human rationality has an intentional or finalist nature, the Social Data provide very important information when retrieving information with a specific purpose or intent. This is the general way in which humans want to retrieve information, but not the way in which systems and search engines solve this problem. For instance, let’s consider our experience of information search and retrieval with Google, the most widespread search engine. As a result of a search, Google shows us a typically long list of potential results sorted according to the relevance it gives to each of them. At first, that would not be a bad option, but unfortunately that’s all we can do with Google: we cannot ask a second question related to the first one. Imagine that  you would like to know what’s on ‘semantic search engine using natural language processing, and also fuzzy logic, written by women in 2008 in any university in California or in San Francisco and surroundings’. We can try entering into the search bar: "search+engine+semantic+processing+of+natural+language+fuzzy+logic+san+Francisco+2008". But almost anyone can imagine that the result might be rather surprising. In any case, no one would use ‘woman’ or ‘surroundings’ or ‘any university of california’ as a criterion for information retrieval, because it is not a reasonable expectation when you know Google.

    Google has the savant syndrome. It’s an idiot with some highly developed skills, an intelligent fool that can compare all the characters in a text with the sequence that we are proposing, but unable to understand what we are asking. In our example, the categories ‘documents written by women’ or ‘produced in any university of california’ are difficult to translate into a sequence of characters that offers the prospect of an acceptable result set. Why can’t we query our search engine successively, as we do in our ordinary life, to solve problems that require handling large amounts of information?

    Our brain is not designed to handle huge amounts of information, but relatively small, but significant. That’s why our reason doesn’t produce long lists sorted by relevance as a result from our inquiries, but it operates establishing successive conditions or restrictions that lead to one result or to a few ones of which relative value can be established at a glance. In a game of chess, nobody in his right mind would consider as a reasonable strategy ordering in a list, according to their ability to lead to victory, all the possible moves associated with a given position of the chess pieces. Obviously, Deep Blue can do it, but humans lack the ability to compute. In turn, they ‘know what they want’, what allows them to consider only the relevant information for their purpose.

     

    Contexts of information interpretation that can be understood by machines

    Social Data add an explicit context of interpretation to any information or document, so they are the social element of the semantic dimension of the web. The Semantic Web is built according to social or collectively perspective and that information is useful because people are not too different.

    A specific ontology expresses a way of categorizing, modeling or representing our knowledge in relation to a determined field, entity or object. Ontologies normally represent the entities, which in our natural language are denoted by proper and common names, and their relationships. As we do it in language which can be ‘understood’ by the machines, these ones can understand each other (interoperate or interchange data regardless of storage formats and management applications), but also ‘understand’ us and interact with us intelligently. We can also see the opposite: thanks to the conventions of the Semantic Web, we can talk with them using our skills in a natural way, that is, we can reason with them. This represents a great opportunity for all, in addition to those offered by the social tagging!

    In practice, there are many things systems need to know, especially in the context of a social network, to communicate meaningfully with people and to interoperate with other systems. For this to be really possible, they all must speak the same words, that is, using the same ontologies. These ontologies for which there is an agreement (which may be universal, broad or… narrower) are called vocabularies. Some very general vocabularies are particularly important. As the systems operate on the basis of digital documents and descriptions of people, the following ontologies related to them are specially important because they allow you to connect most of the entities that exist on the web: a) ontologies that represent our general idea about a resource or a digital document, b) the ones that shape the description of a person and c) those that describe a system of categories or thesaurus. They represent the most inclusive way to almost any content that can be found on the Internet. Thus, they make the machines and systems to interoperate with each other with few restrictions.

    The Semantic Web can be defined as the set of conventions that makes it possible to structure the data in different document formats (which are usually unstructured, what actually means that machines can’t interpret them), so that both machines and people can interact (interoperate) with each other in a more humane, intuitive, efficient and satisfying way than what happened with the computer-based web. This is the basis for the development of a more intelligent and… self-aware web.

     

    Open Data and Linked Data

    Open Data means a philosophy and practice that pursues that certain data are freely available to everyone without restrictions of copyright, patents or other control mechanisms. Data can be open but not usable by others, when semantic web standards aren’t used.

    Even when data from a particular web application are expressed in accordance with the standards of the Semantic Web, there are several possibilities:

    • Data can be open, but not be linked
    • Data can be linked, but not be open

     The possibility of data being both open and linked is increasingly viable, both from a technological and business standpoint. The Semantic Web can only work with data that are both open and linked. I referred to this in a previous post. The below figure represents the graph of all the linked initiatives and applications which form the Linked Data Web.

    Linked Data Web involves a way to publish content on the Web that:

    • promotes reuse
    • reduces redundancy
    • maximizes connectivity (real and potential)
    • makes possible the ‘network effect’ when it comes to adding value to data

    In short:  Linked Data = Open Data + Open Standars

    The Semantic Web has already a considerable size, which will increase as data from more web sites get structured (at the same time that spaces with already structured data are being created). Structured data allow search strategies to reason until they reach the result or small number of results according to restrictions or conditions of reasoning, instead of ordering a list of possible solutions depending on the relevance (rather than forcing humans to understand the logic of the machines). In short, they allow searches based on the reasoning or faceted search.

    On the other hand, the semantic web enables to offer as a result of a particular search a context set associated with it, such as related people, documents, images, tags or metadata, etc... This makes it possible to develop and evolve search from the human exploration perspective.

    To sum up, Linked Data Web would be:

    • Global database
    • Disigned for machines to ‘talk’ and ‘think’ the human way.
    • Objects that it manages and connects represent things (like people, movies, images, books, plants, etc…, that is, anything that can be represented by an ontology), but not documents (web pages) as it occurred in the HTML web
    • Links represent relations between entities or ‘things’.
    • This requires a high degree of structure in the descriptions of these entities.
    • Therefore, it is necessary that the semantics of things is explicit.

    Technologies or standards associated with its development would be: URIs, HTTP, RDF, RDFS/OWL

    The following graph shows the set of initiatives that are part of the semantic web and their different degrees of interaction

     

    Image: linkeddata.org
     

     www.gnoss.com is a system of linked social networks whose ontology is expressed in accordance with the standards of the semantic web. gnoss.com, besides being an Open Data space, is a Linked Data space, that is, its data can be linked, interpreted and expressed by any site that works within the standards of the semantic web. But the semantic web is in the background, social data, since the semantics expresses always a formal or informal agreement between people: there is no chance of understanding without a common idea of the meaning of words. This semantics is being built, is a work in progress which can be expressed in different ways, but finally tends to be translated into standard vocabularies, within the evolutionary logic of the Semantic Web. Those standards are the ones that will go imposing in the short and medium term to solve the deep problems of isolation generated when not doing it so. Health systems, public administrations and large corporations are taking the need to work with them if they want to exploit the potential of their systems and the relationship between them and people. The rest of the companies and individuals will be doing it little by little.

     

     

     

    ...