Watermelon: la web de datos enlazados en un eterno grafo de conocimiento > linked data web

    5 resultados

    Artículo

    /

    Publicado el 18.9.2015 por Equipo GNOSS

    A propósito del BBVA: los procesos de transformación digital de la empresa

    Hablar hoy día 5 de mayo de 2015 de transformación digital de las organizaciones parece especialmente adecuado dadas las noticias que colman los periódicos del día y que nos hablan del nombramiento de Carlos Torres Vila como Consejero Delegado del BBVA, en sustitución de Angel Cano. Según se puede leer, junto con Torres Vila se han realizado nada menos que 13 nombramientos y se ha producido la salida de 6 antiguos directivos, lo que promete un cambio de calado, con el fondo de la transformación digital del banco como mayor prioridad. En la noticia publicada por El País se dice que " González (Lugo, 1944) ha transmitido a los ejecutivos que quiere que la entidad abandone la zona de confort actual para conseguir que el BBVA deje de ser un banco para convertirse en un elemento tecnológico de la industria bancaria". Todo apunta a que se trata de una apuesta de largo alcance llamada a remover el espacio de negocio y competencia del sector financiero y a la que deberán responder el resto de los jugadores más pronto o más tarde.

    Según creo, la transformación digital de una empresa o de un negocio tiene mucho que ver con el hecho de que estamos desarrollando, por primera vez de manera consistente y masiva, un conjunto de tecnologías que posibilitan que las máquinas y los sistemas interpreten de manera razonablemente correcta los recursos generados por las personas, tanto aquellos que se crean con un carácter intencional (los documentos), como aquellos otros que se registran de manera automática y que constituyen nuestra huella digital. En la práctica y en la medida en la que estamos también en un proceso de webificación de nuestros sistemas de información, lo que estamos haciendo es suplementar el casi colmatado internet de documentos (HTML), dotándole de una capa de representación del contenido interpretable por las máquinas. A este nuevo internet lo denominamos Web de los Datos e incluye los datos producidos por las personas y aquellos registrados por diversos sensores y que representan el modo en el que funcionan las cosas (generalmente en su relación con las personas) .

    Este nuevo internet está desplegándose en todos los sectores de actividad, cuyos negocios se están viendo transformados profudamente, y se verán aún más en el futuro, por este enfoque; así podemos hablar de una educación basada en datos, de una cultura basada en datos, de un turismo basado en datos, de una industria o un determinado proceso industrial basado en datos o de banca basada en datos. Todos estas denominaciones apuntan al hecho de que las máquinas, nuestro sistemas, pueden construir un grafo de conocimiento subyacente a cada espacio o ámbito de actividad humana y que en la explotación de ese grafo hay nuevas posibilidades económicas y de negocio. 

    La Web de los Datos se está construyendo sobre un conjunto de tecnologías y lenguajes técnicos que en su conjunto conocemos como Web Semántica. El modo en el que se expresa la Web Semántica como Web de Datos se conoce como Web de Datos Enlazables (o Enlazados) o Linked Data Web en inglés. Lo que sugiere esta denominación es que nuestros sistemas pueden enlazar datos con datos, información con información de manera automática o cuasi-automática. El resultado es un grafo de conocimiento, en el cual los datos se acoplan, conectan o vinculan de manera automática sí (esto es sin el concurso de un editor o de un lector), pero sobre todo significativa para las personas que de ese modo ven multiplicada por un factor enorme sus capacidades de lectura, interpretación y descubrimiento del conocimiento. En suma, los grafos de conocimiento y los modelos de interrogación que podemos desarrollar sobre ellos, son la condición tecnológica para que las personas, los grupos y las organizaciones puedan desarrollar procesos eficientes de gestión de conocimiento (que incluye modelos de interrogación, de enriquecimiento de la información, de inferencia y razonamiento y, por ende, de descubrimiento de conocimiento) en un mundo (digital) donde la información es hiperabundante y las capacidades humanas de interpretación crecientemente limitadas.

    El abordaje técnico que posibilita esta transformación de documentos (legibles para las personas)  en datos (legible por una máquina) se realiza por medio de ontologías o vocabularios, que recogen y describen en un lenguaje de programación (OWL u Ontology Web Languaje) un conjunto de entidades (junto con sus atributos) que representan un ámbito de la realidad y, por ende, un ámbito de conocimiento. No se trata, cono se ve, de una estrategia basada en el procesamiento del lenguaje natural (aunque recurra a algoritmos de aprendizaje y estadística basada en Bayes para algunos de sus procesos, como es el de la anotación semántica o de reconocimiento de las entidades que contiene un determinado texto), porque las máquinas sólo interpretan correctamente aquello que puede ser anotado o identificado por la ontología (las entidades y sus atributos), pero cuando lo hacen, lo hacen de manera indubitable. Eso permite computar, a partir de la representación de un número dado de recursos digitales relativos a un ámbito de conocimiento o realidad dado, el conjunto de relaciones implícitas entre ellos, lo que en la práctica supone activar procesos de conocimiento que en sí mismos ya son de un gran valor económico.

    Imaginemos el caso de que una empresa tuviera representadas las personas de su negocio (clientes, empleados) mediante FOAF (Friend of a Friend), una ontología que posibilita que los sistemas distingan el nombre, los apellidos y eventualmente otros atributos personales de cualquier otra posible secuencia de caracteres que contenga un texto; eso significa que la secuencia de caracteres J-o-s-e-f-i-n-a- -M-o-l-i-n-a se convierte para las máquinas que computan información en una persona con un nombre propio (Josefina) y un apellido (Molina); si además disponemos de algunos eventos representados del mismo modo, esto es de acuerdo con estándares de la Web Semántica, tales como, por ejemplo, el evento [comprar con tarjeta de crédito] (dentro del cual podríamos distinguir a su vez la cantidad, el lugar y el tipo de comercio donde se realiza la compra) estaríamos en condiciones de poder empezar a desarrollar modelos de interrogación sobre esas colecciones de datos que nos pueden llegar a proporcionar un conocimiento de calidad acerca de los patrones de comportamiento y los estilos de vida de las personas y que, en consecuencia, nos permitirían segmentarlas en audiencias y eventualmente desarrollar una cartera de productos y servicios adecuados a esos segmentos y, en el límite, personalizados o individualizados.

    Por supuesto, podríamos enlazar nuestros datos de Josefina Molina con datos de terceros, que podrían ser también de consumo (como por ejemplo los desplazamientos en avión, su frecuencia y destino, su consumo de teléfono, la naturaleza  y patrón de las llamadas, etc...) o de otro tipo (los artículos científicos, supongamos, que ha escrito Josefina Molina y que están recogidos en Elsevier o en Web of Knowledge). Eventualmente una web de datos podría identificar todo lo relacionado con Josefina Molina de manera indubitable. Un caso sencillo de descubrimiento de conocimiento, que por cierto es ya real o está muy cerca de serlo podría ser éste: Elsevier dispone en su vasta base de conocimiento de artículos científicos que contiene uno que describe el caso de un médico de urgencias de un hospital de provincias polaco que ha utilizado un determinado principio activo para paliar los síntomas más insidiosos de tal o cual enfermedad; Pfizer, por su parte, ha representado semánticamente el conjunto de su actividad investigadora y, por ende, sus ensayos clínicos y conoce por tanto qué principios activos experimentó y para qué, así como qué experimentos tuvieron éxito y cuáles no; en concreto el del principio activo al que nos estamos refiriendo no lo tuvo. Sin embargo, al enlazar los datos de su base de conocimiento con la de Elsevier puede descubrir, a partir de una experiencia empírica marginal realizada en un lugar periférico de la investigación clínica sobre un principio activo concreto que probablemente nadie ha citado y muy pocos han leido, una aplicación eventualmente muy prometedora para un principio activo cuya vida comercial estaba en vía muerta. Por cierto, la industria farmacéutica está haciendo un gran esfuerzo en este campo y también las grandes editoriales científicas. Elsevier, que es junto con World of Knowledge el principal contenedor de la producción científica mundial, tiene representada semánticamente toda su base de conocimiento; por su parte el conjunto de la industria farmaceútica utiliza Uniprot una base de conocimiento sobre proteínas y enzimas que contiene más de 20.000M de triples (el modo en el que se representa la información en Web Semángica) y los diferentes grandes actores del sector están trabajando activamente en su propias bases de conocimiento. Pero lo que merece la pena subrayar aquí se parece mucho a lo que expresaba Richard Feynman en 1959, el año que ganó el Premio Nobel durante la reunión anual de la Sociedad Física Americana celebrada en el Instituto de Tecnología de California (CALTECH), en una célebre conferencia cuyo título podríamos traducir como "Hay mucho espacio por debajo" (There´s Plenty of Room at the Bottom): "Yo imagino que los físicos experimentales deben mirar a menudo con envidia a hombres como Kamerlingh Onnes, quien descubrió un campo como la baja temperatura, la cual parece ser insondable y en el cual uno puede ir abajo y abajo. Un hombre tal es entonces un lider y tiene algún monopolio temporal en una aventura científica. Percy Bridgman, al diseñar una manera de obtener presiones mayores, abrió otro campo nuevo y fue capaz de moverse en él y guiarnos alrededor. El desarrollo de un vacío aún mayor fue un contínuo desarrollo de la misma especie..." (Traducción: Pablo Martín Agüero). Hay mucho espacio por debajo cuando comenzamos el desarrollo de una Web de Datos sea en el ámbito que sea, en un proceso industrial, un departamento de Marketing, una Universidad, un Museo...y muchas oportunidades de ganar nuevo espacio para los negocios, la gestión cultural o el impulso a la educación. De pronto mucho conocimiento marginal y aparentemente poco útil adquiere un nuevo vigor en el marco de un nuevo proceso de generación y descubrimiento de conocimiento.

    Dato, cuando se define desde este punto de vista técnico, debe entenderse en este contexto que hemos expuesto como la porción mínima de información interpretable correctamente por una máquina. Nuestro punto de vista sugiere que si los datos no están domesticados o interpretados mediante ontologías y vocabularios entonces resultarán poco útiles o difícilmente manejables, especialmente cuando se trate de datos muy masivos (Big Data). El disponer de datos representados del modo que hemos descrito, esto es, de "datos enriquecidos", permite desarrollar sistemas de interrogación basados en razonamiento natural especialmente útiles para las que personas conectan el conocimiento de tal manera que, como consecuencia, pueden explicitarse relaciones hasta ahora ignoradas u ocultas entre los datos que lo conforman. Este nuevo ámbito de conocimiento y aplicación que se ocupa de los modelos humanos de interrogación sobre grandes cantidades de información organizadas en un grafo se denomina Human Computer Interaction (HCI) y es una de las disciplinas emergente más interesantes en el ámbito de las IT, pues determina el modo en el que las personas terminarán por dar valor, utilizar e interrogar a los datos y, por ende, determina el conjunto de aplicaciones para usuario final que pueden desarrollarse sobre la base de la Web de los Datos. Por que, conviene subrayarlo, la Web de los Datos no es una Web para las Máquinas, sino la web que las máquinas devuelven a las personas cuando aquellas pueden razonablemente comprender los contenidos que producimos. Los modelos HCI que explotan las posibilidades de la representación semántica precisan, a su vez, de modelos de computación que posibiliten la realización de inferencias o de procesos iterados de interrogación sobre los datos. Y, finalmente, se precisa de una arquitectura de software que facilite una ejecución rápida o industrial de los proyectos. Nada más.

     

    ...

    Categorías:

    Artículo

    /

    Publicado el 19.9.2014 por Equipo GNOSS

    EL futuro cultural y educativo de la Web Semántica. Linked Open Data en Bibliotecas, Archivos y Museos

    El día 27 de febrero de 2014 estuvimos en Peñaranda de Bracamonte invitados por nuestros amigos del CITA (Centro Internacional de Tecnologías Avanzadas) para pensar en las posibilidades que abre para los usuarios finales (personas y organizaciones) la instalación y construcción de la Web Semántica, entendida como Linked Data Web o Web de los Datos Enlazados en el mundo de la cultura, en especial en el de las Bibliotecas.

    Resumimos aquí algunas de las ideas sobre las que venimos trabajando desde hace tiempo y que hemos concretado en diferentes proyectos culturales y educativos que pueden ser visitados por los lectores, como la propia Biblioteca Escolar Digital del CITA, La Biblioteca Nacional Escolar, el buscador de obras de arte de la Fundación Lázaro Galdiano, el Meta-Museo virtual Mis Museos, las plataformas sociales de recursos educativos Inevery CreaDidactalia , Procomún, o el catálogo de blogs educativos Edublogs. Las cinco ideas que pueden consultarse a continuación representan nuestro punto de vista sobre el estado actual, los desafíos y las oportunidades derivadas de las instalación de la Web Semántica en el mundo de la cultura y la educación.

    1.- Las herramientas y tecnologías basadas en estándares de la web semántica y en los principios de laLinked Open Data Web o Web de los Datos Abiertos y Enlazados (o Enlazables) permiten cumplir mejor y de una forma más ajustada el conjunto de fines y objetivos de cualquier biblioteca digital y, por ende y cuando se trata de explotaciones prácticas pensadas para satisfacer las necesidades de los usuarios finales, y no sólo de los profesionales, el proporcionar una experiencia de aprendizaje e integración del conocimiento superiores. Estas ventajas se concretan en la mejora de la experiencia en tres procesos básicos de aprendizaje y acceso al conocimiento cuales son los de, en primer lugar, recuperación de la información y acceso eficaz, rápido y pertinente a la documentación que se precisa mediante buscadores facetados con sumarización que posibilitan desarrollar sobre ellos procesos de razonamiento natural mediante la iteración de restricciones o formulación de nuevas interrogaciones sobre un conjunto dado de resultados; el relacionar, en segundo lugar, los documentos resultantes de un proceso de interrogación como el descrito con otros documentos de la propia biblioteca o espacio digital de un modo significativo y pertinente para el usuario final y también con documentos de otros espacios cuyo contenido esté también representado semánticamente; y el desarrollo, por último, de sistemas de recomendación basados tanto en las interacciones de los usuarios como en el significado de dicha interacciones (un libro para cada usuario, un usuario para cada libro).

    2.- La Web Semántica permite pasar de una web de documentos a una web de datos que se conectan o enlazan con datos. Se abre así la posibilidad de enlazar conjuntos de datos (datasets) con conjuntos de datos y en última instancia datos con datos de acuerdo con una serie de principios y modelos de interrogación bien establecidos (Linked Data Web); de este modo se facilita la portabilidad e interoperabilidad de los mismos. A medida que nuestras Bibliotecas y Repositorios de Conocimiento tengan su contenido representado semánticamente podremos reorganizarlo e integrarlo de maneras nuevas y originales generando de ese modo nuevos productos de conocimiento útiles para el aprendizaje y la investigación, que se verán de este modo reforzados y acelerados en muchos de sus procesos. Las Meta-bibliotecas virtuales que ya se están acumulando o los espacios de agregación de contenidos que trascenderán el concepto de colección o catálogo posibilitarán la aceleración de los procesos de descubrimiento de conocimiento al poner en relación contenidos que no se conocían entre sí y de cuya relación se deriva un nuevo conocimiento útil para nosotros. Eventualmente será posible construir Bibliotecas Especializadas, que respondan al interés específico de un conjunto de usuarios especiliazados (pensemos por ejemplo en una Meta-biblioteca de Política Internacional o de Políticas para el Desarrollo Comparadas o de cualquier otro tema, construida sobre la base de un subconjunto de datos de los diferentes datasets publicados por un conjunto de Bibliotecas). En la medida en la que estas bibliotecas estén conectadas con otros procesos de aprendizaje como las Guías Didácticas, los Programas de Asignaturas, los Materiales Didácticos, etc...podemos acelerar y mejorar los procesos de notificación del conocimiento, como por ejemplo, proponiendo sistemas de construcción y actualización automática de bibliografías o comunicando, justo a tiempo, las novedades relacionadas con los temas que han explicitado los usuarios. Todo ello será posible gracias a que la Web Semántica permite, como hemos señalado, una aproximación más “ligera” y eficaz a la hora de integrar datos de diversos sistemas bibliotecarios.

    3.- La Web semántica permite no sólo una integración de contenidos y objetos digitales, también posibilita el relacionarlos significativamente con las personas y las comunidades o grupos de interés afectados por ellos gracias a que pueden ser representados explícita y unívocamente gracias a un vocabulario específico, conocido por sus siglas en inglés como FOAF (Friend of a Friend). Esto hace posible descubrir a las personas implícitas o explícitas en un grafo de conocimiento y utilizar ese conocimiento con diferentes propósitos. En la práctica podemos extraer o sacar a la luz el grafo social implícito en un grafo documental, por ejemplo el grafo de los autores y coautores de un repositorio de artículos científico o el conjunto de noticias publicadas en un medio de comunicación que afectan a una persona dada o a un grupo determinado, etc... En definitiva, gracias a los modelos de representación de la Web Semántica somos capaces de interrogar a los sistemas sobre el comportamiento de las personas, pues no sólo conocemos los documentos o personas con las que se relacionan, sino el significado de aquellos y los intereses de éstas.

    4.- En buena medida, todas las promesas de la Web Semántica relativas al desarrollo de aplicaciones orientadas a mejorar la experiencia del usuario final dependen de cómo se resuelva en la práctica el proceso de construcción y la evolución de los Modelos de Representación del conjunto de entidades que conforman el mundo ordinario (personal y profesional) en el que vivimos y con el que interactuamos las personas. Esos Modelos de Representación se construyen para un área de interés o actividad humanas y, en ese sentido, representan un Área o Dominio de Conocimiento. A esta clase de Modelos Conceptuales restringidos a un área de interés o conocimiento que tiene sentido para las personas los denominamos Modelos Digitales. Éstos, con el fin de satisfacer el atributo de "ser comprensibles o interpretables por los sistemas" deben correlacionarse elemento a elemento con una expresión o formulación técnica del mismo (esto es en OWL u Ontology Web Languaje que es el lenguaje que "comprenden" las máquinas) a la que denominamos ontología o vocabulario. Por tanto desde un punto de vista técnico diremos que un Modelo Digital se representa mediante ontologías o vocabularios. El problema es que las entidades u objetos del mundo no están relacionados entre sí de un sólo modo, ni siquiera de un sólo modo principal. Es por ello por lo que debemos proceder analíticamente con el fin de descomponer el problema de la identificación de un Modelo Digital en otros más pequeños. Así decimos que un Modelo Digital está conceptualmente compuesto de Objetos de Conocimiento relacionados de un determinado modo que a su vez contiene entidades u objetos individuales relacionamos en un modo que conocemos o que hemos acordado. Sólo entonces podemos "explicar" técnicamente a los sistemas el Modelo. Necesitamos Modelos capaces de agregar conjuntos amplios de entidades si queremos descubrir el conocimiento implícito en nuestros recursos digitales. Hablamos de agregaciones tales como "Ciudad" o "Museo" o "Biblioteca", pero también de agregaciones más abstractas como "Patrimonio Cultural". En el caso concreto de las Bibliotecas, el Modelo está bien representado por el estandar FRBR y en el de los Museos por CIDOC. CIDOC además tiene una extensión que integra y conecta FRBR. Se trata de Modelos fruto de un trabajo profesional continuado orientado a construir un consenso profesional sobre el modo en el que se relacionan los objetos y los atributos de éstos en un cierto dominio de conocimiento e interés. En la medida en la que representan un acuerdo profesional cuasi universal (y en todo caso universalizable) contienen el embrión de todas las promesas de la Web Semántica.

    5.- Las explotaciones orientadas al usuario final, especialmente las explotaciones basadas en el enlazado de datos entre repositorios independientes dependen de que...existan recursos digitales representados con RDF/OWL. Las Administraciones Públicas son grandes productores de información y datos y en buena medida se han obligado a ellas mismas a publicarlos en abierto con el fin de favorecer su reutilización por parte de terceros. Los datos serán más abiertos si además se publican de acuerdo con los estandares de la Web Semántica y los principios de la Web de los Datos Enlazados (o Enlazables). Las empresas y organizaciones privadas también podrán beneficiarse de este modo de publicación, en primer lugar porque podrán integrar el conocimiento de la propia organización y en segundo lugar porque podrán enlazarse con datos públicos o con datos comercializados por terceros, lo que impactará de un modo muy sustantivo en los procesos de Aprendizaje, Cambio, Gestión del Conocimiento, Analíticos y de Inteligencia de Negocio. Es por ello por lo que el establecimiento de una política de publicación de datos en OWL/RDF se torna de este modo como un elemento necesario y tractor a la hora de acelerar y asentar la instalación de la Web Semántica en organizaciones de todo tipo, pero especialmente esto puede ser así si de lo que se trata es de construir un nuevo espacio cultural integrado desde la profundidad de los datos, con capacidades intrínsecamente educativas y que pueda “conversar” y estar fuertemente conectado con otros intereses humanos, como los relacionados con el ocio, el recreo, el viaje o el turismo.

    Video sobre Biblioteca y Web Semántica. Parte I. Universidad de Salamanca. 5 de marzo de 2014

    Video sobre Biblioteca y Web Semántica. Parte II. Universidad de Salamanca. 5 de marzo de 2014.

    Video. Conversaciones sobre Bibliotecas y Web Semántica.

    ...

    Artículo

    /

    Publicado el 14.12.2011 por Ricardo Alonso Maturana

    Explotación de metadatos embebidos: posicionamiento, recuperación de la información y generación de contextos

    En artículos anteriores de Watermelon he ido escribiendo algunas entradas sobre la web de los datos y su relación con nuevos sistemas de búsqueda. Estas entradas son:

    Además de las técnicas de posicionamiento tradicionalmente aplicadas al HTML (lo que podemos denominar SEO orgánica), Google, Bing y otros motores de búsqueda recomiendan el uso de metadatos embebidos en el HTML. El uso que dan a estos datos es doble. 

    • Primero, consiguen información más detallada del significado del documento, es decir, más semántica. Los metadatos embebidos definen expresamente que un texto es el nombre de una película, o las calorías de una receta, o el autor de un libro. Esto les permite presentar unos resultados de búsqueda más ajustados, e incluso que cada resultado tenga una presentación enriquecida con precios, valoraciones de los usuarios, autores, etc.
    • Segundo, los más importantes motores de búsqueda están promoviendo verticales de sus servicios, de manera que la búsqueda de recetas, viajes o libros pueda hacerse en páginas específicas. En dichas páginas se presentan facetas de búsqueda (por ejemplo, para filtrar recetas por ingrediente), que solo pueden ser obtenidas desde metadatos semánticos incrustados en el HTML.

    Ninguno de estos motores ha especificado aún el peso que confieren a la existencia de metadatos respecto a los otros parámetros conocidos de posicionamiento, ni siquiera al nivel cualitativo que suelen hacerlo. Sin embargo, la recomendación de uso está ahí y es clara.

    Pasemos ahora al asunto de los formatos. Google declara leer RDFa y microformatos, además de microdatos, el reciente estándar que promueve junto a Bing y Yahoo. Por otra parte, nos consta que indexa y posiciona el contenido RDF asociado al HTML.

    En nuestra opinión, una solución completa en este ámbito, que aporte el máximo valor de posicionamiento, además de las técnicas HTML habituales debería componerse de:

    • RDFa embebido, con vocabularios estándar para expresar las entidades reconocidas por los motores de búsqueda.
    • Microformatos, si la información se refiere a alguna de las entidades de las especificaciones aprobadas (como hCard para personas, o hCalendar para eventos), o a alguno de los más prometedores o exitosos borradores (como hProduct o hRecipe).
    • Microdatos, aún cuando la especificación, por su inmadurez, no llegue a cubrir el total de los datos expresados en los otros formatos.
    • RDF vinculado al HTML, que permita el enlace de datos y la construcción de contextos que enriquezcan la información.

    Esta es la solución que hemos puesto en marcha en www.mismuseos.net, por ejemplo y en otros lugares de GNOSS.

    Reconociendo la importancia del posicionamiento en buscadores de los recursos, el problema de la representación del conocimiento implícito en un recurso quedaría muy incompleta si no consideráramos a la vez otras explotaciones del mismo. Este es el asunto del que se ocupa la Web Semántica.

    La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

    La Web Semántica resultará tanto más útil en la medida en la que las máquinas comprendan de un modo más preciso y profundo el significado de los recursos, lo que depende críticamente de la expresividad de los formatos de representación del conocimiento que utilicemos y, en este sentido, OWL-RDF no tienen competencia. Si lo que queremos es desarrollar un sistema de recuperación de la información eficiente e intuitivo, un sistema de generación de contextos pertinentes y poco ambiguos, o un sistema de recomendación inteligente, los microformatos y microdatos resultarán claramente insuficientes para muchísimas explotaciones verticales. Esto refuerza lo que hemos denominado un poco más arriba “solución completa en este ámbito”, pero en cierto modo invierte el orden de las prioridades: convendrá utilizar un estándar ontológico o vocabulario en primer lugar, para reforzarlo con microdatos y microformatos cuando de comunicarse con los buscadores se trate.

    Imagen vía: https://promocionmusical.es/

    ...

    Artículo

    /

    Publicado el 18.11.2010 por Ricardo Alonso Maturana

    gnoss.com enlaza sus datos con Freebase/ gnoss.com links its data with Freebase

    ESPAÑOL

    gnoss.com es un espacio de redes entrelazadas, un espacio de datos estructurados que funcionan en abierto. En las últimas semanas hemos estado trabajando para enlazar estos datos con otras webs. El resultado de esta tarea se puede visualizar desde ayer, puesto que gnoss.com ha enlazado sus datos con Freebase, proyecto adquirido recientemente por Google.

    ¿Qué significa esto? Hagamos un matiz: cuando estructuramos los datos enseñamos a las máquinas a pensar como nosotros. Así, se pueden realizar búsquedas más eficientes, basadas en los significados de los contenidos y generar contextos para la información. Os lo contamos en el siguiente vídeo.


    ENGLISH

    gnoss.com is an area of interlinked networks, a structured data space with data open to the public. In recent weeks we have been working to link these data with other websites. The result is visible since yesterday, since gnoss.com has linked its data with Freebase, a project recently acquired by Google.

    What does this mean? Let’s clarify something: when we structure data, we are teaching machines to think like us. So, you can perform more efficient searches based on the content meanings and create contexts for information. We’ll tell you about it the next video.

     

     

     

    ...

    Artículo

    /

    Publicado el 14.6.2010 por Ricardo Alonso Maturana

    Social data; web semántica; y datos abiertos y enlazados: ¡knowledge internet! / Social data, semantic web, opend and linked data: knowledge internet!

    ENGLISH VERSION/ TEXTO EN ESPAÑOL

    El proceso general de digitalización de la realidad está generando una capa de representación de la totalidad de las cosas y personas, pero también, y esto resulta especialmente relevante, de sus relaciones. A, por ejemplo, ‘Juan Rulfo’ y, pongamos, ‘El llano en llamas’ les une el hecho de que el primero es el AUTOR del segundo, lo que queda expresado mediante la proposición: ‘Juan Rulfo es el autor de ‘El llano en llamas’ Como veremos, la web semántica posibilita computar (deducir, razonar, buscar...) con proposiciones de ese tipo, lo que ofrece grandes posibilidades. Cuando disponemos de los datos y de sus relaciones organizados de acuerdo con los lenguajes de la web semántica (de los que he hablado en ¿Mis datos en manos de terceros? Ventajas de expresar contenidos con estándares de la web semántica), decimos que “los datos están estructurados". Por desgracia, la mayor parte de los datos de la web no están expresados de ese modo. Sin embargo también están estructurados, aunque no del modo en el que lo entienden las máquinas. Buena parte del trabajo consiste, precisamente, en convertir nuestros documentos HTML, .doc, etc...en datos estructurados. En cualquier caso y en buena medida, todos nuestros datos los estamos organizando de forma útil para las personas gracias a las redes sociales. De hecho, construir una web más inteligente parece la condición necesaria para manejar y utilizar de manera eficiente esa enorme y creciente cantidad de datos que está produciendo la actividad humana en las redes. A esta clase de datos categorizados y organizados gracias al trabajo social de las redes les llamaremos Social Data.

     

    Social Data

    Habitualmente los Social Data incorporan el punto de vista de las personas que los editan, o bien, dependiendo de su naturaleza, el de un grupo. Esta información que añade información a una información original suele conocerse con el nombre de metadatos. Los Social Data son, por tanto, metadatos construidos gracias al trabajo social en la red de las personas. Las colecciones de metadatos más habituales en las redes sociales son conocidas por el nombre de folksonomías, que expresan el punto de vista personal o la perspectiva personal con relación a una información o documento determinado. En ocasiones, las redes sociales, en especial cuando se trata de redes profesionales, incluyen puntos de vista más normativos para calificar la información: las taxonomías o los tesauros. La acción de asignar un determinado metadato a una información o documento se conoce con el nombre de etiquetar. El etiquetado social es la fuente primaria de producción de Social Data.

     

    Google es demasiado idiota para entender lo que la gente necesita

    Dado que la racionalidad humana tiene un carácter intencional o finalista, los Social Data aportan una información muy relevante a la hora de recuperar la información con una determinada finalidad o intención. Este es el modo general en el que los humanos desean recuperar información, pero no el modo en el que resuelven este problema los sistemas y buscadores. Pensemos por ejemplo en nuestra experiencia de búsqueda y recuperación de información con Google, el buscador más extendido. Google nos ofrece como resultado de una búsqueda una, habitualmente larga, lista de resultados o posibilidades ordenados en función de la relevancia que atribuye a cada uno de ellos. Eso no estaría mal en primera instancia, pero lamentablemente es todo lo que podemos hacer con Google: no podemos hacer una segunda pregunta relacionada con la primera. Imaginemos que me gustaría conocer qué hay sobre ‘buscadores semánticos que utilicen procesamiento del lenguaje natural y, además, lógica borrosa, escrito por mujeres en 2008, en alguna universidad de California o en San Francisco y alrededores’. Podemos intentarlo introduciendo en la barra del buscador "buscador+semántico+procesamiento+del+lenguaje+natural+lógica+borrosa+san+francisco+2008", pero como puede imaginar casi cualquiera el resultado puede resultar sorprendente. En todo caso, a nadie se nos ocurriría utilizar ‘mujer’ o ‘alrededores’ o ‘alguna universidad de california’ como criterio de recuperación de información, porque conociendo a Google no resulta una expectativa razonable.

     

    Google padece el síndrome del savant o del sabio. Es un idiota con algunas capacidades muy desarrolladas, un idiota inteligente capaz de comparar todos los caracteres de un texto con la secuencia que le proponemos, pero incapaz de entender lo que le solicitamos. En nuestro ejemplo, las categorías ‘documentos escritos por mujeres’ o ‘producidos en una universidad de california’ son difícilmente traducibles a una secuencia de caracteres que ofrezca la perspectiva de un conjunto de resultados aceptable. ¿Por qué no podemos interrogar a nuestro buscador sucesivamente, tal y como hacemos en nuestra vida ordinaria, para resolver problemas que requieren manejar grandes cantidades de información? Nuestro cerebro no está diseñado para manejar enormes cantidades de información, sino relativamente poca pero significativa; por eso nuestra razón produce como resultado de nuestras indagaciones largas listas ordenadas por relevancia, sino que opera estableciendo sucesivas condiciones o restricciones crecientes que nos conducen a un resultado o a unos pocos cuyo valor relativo pueda establecerse de un sólo golpe de vista. En una partida de ajedrez, nadie en su sano juicio consideraría una estrategia razonable el ordenar en una lista en función de sus posibilidades de conducir a la victoria, todas las posibles jugadas vinculadas con una posición dada de las fichas. Obviamente lo puede hacer Deep Blue, pero los humanos carecen de esa capacidad para computar. A cambio ‘saben lo que quieren’, lo que les permite considerar sólo la información útil para ese fin. 

     

    Contextos de interpretación de la información que pueden ser entendidos por las máquinas

    Los Social Data añaden un contexto explícito de interpretación a cualquier información o documento, por lo que constituyen el elemento social de la dimensión semántica de la web. La semántica de la web se construye según vemos social o colectivamente y esa información es útil porque las personas no son demasiado diferentes. 

    Una ontología concreta expresa un modo de categorizar, modelar o representar nuestro conocimiento con relación a un campo, entidad u objeto determinado. Lo normal es que las ontologías representen las entidades, que en nuestro lenguaje natural son denotadas mediante los nombres propios y comunes, y sus relaciones. Como lo hacemos en un lenguaje que puede ser ‘comprendido’ por las máquinas, éstas pueden entenderse entre sí (interoperar o intercambiar datos con independencia de los formatos de almacenamiento y de las aplicaciones de gestión), pero también ‘entendernos’ e interactuar con nosotros de manera inteligente; también podemos verlo al revés, gracias a las convenciones de la web semántica nosotros podemos conversar con ellas utilizando nuestras capacidades de un modo natural, esto es, podemos razonar con ellas. ¡Esto representa una gran oportunidad para todos, que se añade a las que ofrecía el etiquetado social!

    En la práctica, hay muchas cosas que necesitan conocer los sistemas, especialmente en el contexto de una red social, para poder comunicarse con sentido con las personas y para que interoperen con otros sistemas. Para que esto sea realmente posible,  precisamos que todos ellos hablen con las mismas palabras, esto es, que utilicen las mismas ontologías. A estas ontologías sobre las que existe un acuerdo (que puede ser universal, muy amplio o...menos amplio) las denominamos vocabularios. Algunos vocabularios de carácter muy general resultan especialmente importantes. Dado que los sistemas funcionan sobre la base de documentos digitalizados y descripciones de personas, las ontologías que representan nuestra idea general de lo que es un recurso o documento digital, las que modelan la descripción de una persona y aquellas que describen un sistema de categorías o tesauro resultan especialmente importantes porque permiten conectar a la mayor parte de las entidades que existen en la webEllas representan del modo más inclusivo a casi cualquier contenido que puede encontrarse en internet y por ello hacen que las máquinas y los sistemas puedan interoperar entre sí con pocas restricciones.

    La web semántica puede definirse como el conjunto de convenciones que hace posible estructurar los datos contenidos en los distintos formatos de documentos (que generalmente están desestructurados, lo que en realidad significa que no pueden interpretarlos las máquinas), con el fin de que tanto las máquinas como las personas puedan interactuar (interoperar) entre sí de un modo más humanizado, intuitivo, eficiente y satisfactorio que lo que sucedía con la web basada en la computación. Es la base para el desarrollo de una web más inteligente y...autoconsciente.

     

    Open Data y Linked Data

    Open Data designa una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Los datos pueden estar abiertos y, cuando no se utilizan los estándares de la web semántica, no resultar aprovechables por terceros.

    Aún cuando los datos de una determinada aplicación web se expresen de acuerdo con los estándares de la web semántica caben diversas posibilidades:

    • Los datos pueden ser abiertos, pero no estar enlazados
    • Los datos pueden ser enlazados, pero no estar abiertos

    La posibilidad de datos que sean tanto abiertos como enlazados es cada vez más viable, tanto desde el punto de vista tecnológico, como de negocio. La Web Semántica sólo puede funcionar con datos que sean tanto abiertos como enlazados. Nos referimos a esto en un post anterior. En esta entrada, la figura representa el grafo del conjunto de iniciativas y aplicaciones enlazadas que constituyen la Linked Data Web o de la Web de los datos abiertos y enlazados

    Linked Data Web implica una manera de publicar contenidos en la Web que:

    •  favorece la reutilización
    •  reduce la redundancia
    •  maximiza la conectividad (real y potencial)
    •  hace posible el “efecto red” a la hora de añadir valor a los datos

     

    En definitiva:                                                    Linked Data = Open Data + Open Standars

     

    La web semántica tiene ya un tamaño considerable, que irá aumentando a medida en la que se vayan estructurando los datos de más espacios de la web (a la par que se crean espacios con los datos ya estructurados). Los datos estructurados permiten estrategias de búsqueda que en lugar de ordenar una lista de posibles soluciones en función de la relevancia (en lugar de obligar a los humanos a entender la lógica de las máquinas), permite ir razonando hasta localizar el resultado o pequeño número de resultados que responde a las restricciones o condiciones del razonamiento. En definitiva, permiten las búsquedas basadas en el razonamiento o búsquedas facetadas.

    Por otro lado, la web semántica posibilita ofrecer como resultado de una determinada búsqueda el conjunto de contextos relacionados con ella, como por ejemplo personas relacionadas, documentos relacionados, imágenes relacionas, etiquetas o metadatos relacionados, etc…Esto posibilita el poder desarrollar y evolucionar las búsquedas desde la perspectiva humana de la exploración.

    En resumen, Linked Data Web sería:

    •          Base de datos global
    •          Diseñada para que las máquinas ‘hablen’ y ‘piensen’ al modo humano·        
    •          Los objetos que maneja y conecta representan cosas (como personas, películas, imágenes, libros, plantas, etc…, esto es, cualquier cosa que podamos representar mediante una ontología) y no, como ocurre en la web HTML, documentos (páginas web)
    •          Los enlaces representan relaciones entre entidades o 'cosas'
    •          Para ello se precisa de un alto grado de estructuración en las descripciones de esas entidades
    •          Es preciso, por tanto, que la semántica de las cosas sea explícita

    Las tecnologías o estándares asociados con su desarrollo serían: URIs, HTTP, RDF, RDFS/OWL

     

    El siguiente grafo muestra el conjunto de iniciativas que forman parte de la web semántica y sus diferentes grados de interacción

     

     

     

    Imagen: linkeddata.org

     

    www.gnoss.com es un sistema de redes sociales enlazadas cuya ontología se expresa de acuerdo con los estándares de la web semántica. gnoss.com, además de ser un espacio Open Data, es un espacio de Linked Data, esto es, sus datos son enlazables, interpretables y expresables desde cualquier web que trabaje dentro de los estándares de la web semántica. Pero la web semántica son, en el fondo, social data pues la semántica expresa siempre un acuerdo formal o informal entre personas: no hay posibilidades de entendernos sin una idea común acerca del significado de las palabras. Esta semántica se va construyendo, es un ‘work in progress’ que se puede expresar de diferentes modo, pero que finalmente, dentro de la lógica evolutiva de la web semántica, tiende a concretarse en vocabularios estándar. Estos estándares son los que en el corto y medio plazo se irán imponiendo para resolver los profundos problemas de aislamiento a los que nos somete el no hacerlo así. Los sistemas de salud, las administraciones públicas y las grandes corporaciones están asumiendo la necesidad de trabajar con ellos si quieren aprovechar el potencial de sus sistemas y de la relación entre ellos y las personas. Poco a poco lo irán haciendo el resto de las empresas y personas. 

     

    ENGLISH VERSION/ TEXTO EN ESPAÑOL 

     

    The general process of reality digitalization of is creating a layer of representation of all things and people, but also of their relationships, and this is particularly important. For example, ‘Juan Rulfo’ and, let’s say, ‘The Burning Plain and Other Stories’ are linked by the fact that the first one is the author of the second one. This is expressed by the proposition: “Juan Rulfo is the author of The Burning Plain”. As we shall see, the semantic Web enables compute (deduce, reason, search...) with proposals of this kind, which offers great possibilities. When you have the data and their relationships organized according to semantic web languages (I have spoken about them in My data in the hands of others? Advantages of expressing content with semantic web standards), we say that “data are structured”. Unfortunately, most web data are not expressed in that way. However, they are structured too, but not in the way that the machines understand. Much of the work involves specifically converting our HTML, doc, etc. documents into structured data. In any case and to a large extend, we are organizing all our data in a useful way for people thanks to social networks. In fact, building a smarter web seems the necessary condition to efficiently manage and use the huge and growing amount of data that human activity is generating on the networks. This kind of data which are categorized and organized through the social work on social networks will be called Social Data.

     

    Social Data

    Social Data usually incorporate the perspective of people who edit them, or, depending on their nature, that of a group. This information that adds information to original information is generally known as metadata. Therefore, Social Data are metadata built thanks to social work in the people network. The most common metadata collections on social networks are known by the name of folksonomies, which express a personal view or personal perspective in relation to a particular information or document. Social networks, especially when it comes to professional networks, sometimes include regulatory viewpoints to describe the information: taxonomies or thesauri. The action of assigning a particular metadata to some information or to a document is known as tagging. Social tagging is the primary source of Social Data production.


    Google is too stupid to understand what people need

    Given that human rationality has an intentional or finalist nature, the Social Data provide very important information when retrieving information with a specific purpose or intent. This is the general way in which humans want to retrieve information, but not the way in which systems and search engines solve this problem. For instance, let’s consider our experience of information search and retrieval with Google, the most widespread search engine. As a result of a search, Google shows us a typically long list of potential results sorted according to the relevance it gives to each of them. At first, that would not be a bad option, but unfortunately that’s all we can do with Google: we cannot ask a second question related to the first one. Imagine that  you would like to know what’s on ‘semantic search engine using natural language processing, and also fuzzy logic, written by women in 2008 in any university in California or in San Francisco and surroundings’. We can try entering into the search bar: "search+engine+semantic+processing+of+natural+language+fuzzy+logic+san+Francisco+2008". But almost anyone can imagine that the result might be rather surprising. In any case, no one would use ‘woman’ or ‘surroundings’ or ‘any university of california’ as a criterion for information retrieval, because it is not a reasonable expectation when you know Google.

    Google has the savant syndrome. It’s an idiot with some highly developed skills, an intelligent fool that can compare all the characters in a text with the sequence that we are proposing, but unable to understand what we are asking. In our example, the categories ‘documents written by women’ or ‘produced in any university of california’ are difficult to translate into a sequence of characters that offers the prospect of an acceptable result set. Why can’t we query our search engine successively, as we do in our ordinary life, to solve problems that require handling large amounts of information?

    Our brain is not designed to handle huge amounts of information, but relatively small, but significant. That’s why our reason doesn’t produce long lists sorted by relevance as a result from our inquiries, but it operates establishing successive conditions or restrictions that lead to one result or to a few ones of which relative value can be established at a glance. In a game of chess, nobody in his right mind would consider as a reasonable strategy ordering in a list, according to their ability to lead to victory, all the possible moves associated with a given position of the chess pieces. Obviously, Deep Blue can do it, but humans lack the ability to compute. In turn, they ‘know what they want’, what allows them to consider only the relevant information for their purpose.

     

    Contexts of information interpretation that can be understood by machines

    Social Data add an explicit context of interpretation to any information or document, so they are the social element of the semantic dimension of the web. The Semantic Web is built according to social or collectively perspective and that information is useful because people are not too different.

    A specific ontology expresses a way of categorizing, modeling or representing our knowledge in relation to a determined field, entity or object. Ontologies normally represent the entities, which in our natural language are denoted by proper and common names, and their relationships. As we do it in language which can be ‘understood’ by the machines, these ones can understand each other (interoperate or interchange data regardless of storage formats and management applications), but also ‘understand’ us and interact with us intelligently. We can also see the opposite: thanks to the conventions of the Semantic Web, we can talk with them using our skills in a natural way, that is, we can reason with them. This represents a great opportunity for all, in addition to those offered by the social tagging!

    In practice, there are many things systems need to know, especially in the context of a social network, to communicate meaningfully with people and to interoperate with other systems. For this to be really possible, they all must speak the same words, that is, using the same ontologies. These ontologies for which there is an agreement (which may be universal, broad or… narrower) are called vocabularies. Some very general vocabularies are particularly important. As the systems operate on the basis of digital documents and descriptions of people, the following ontologies related to them are specially important because they allow you to connect most of the entities that exist on the web: a) ontologies that represent our general idea about a resource or a digital document, b) the ones that shape the description of a person and c) those that describe a system of categories or thesaurus. They represent the most inclusive way to almost any content that can be found on the Internet. Thus, they make the machines and systems to interoperate with each other with few restrictions.

    The Semantic Web can be defined as the set of conventions that makes it possible to structure the data in different document formats (which are usually unstructured, what actually means that machines can’t interpret them), so that both machines and people can interact (interoperate) with each other in a more humane, intuitive, efficient and satisfying way than what happened with the computer-based web. This is the basis for the development of a more intelligent and… self-aware web.

     

    Open Data and Linked Data

    Open Data means a philosophy and practice that pursues that certain data are freely available to everyone without restrictions of copyright, patents or other control mechanisms. Data can be open but not usable by others, when semantic web standards aren’t used.

    Even when data from a particular web application are expressed in accordance with the standards of the Semantic Web, there are several possibilities:

    • Data can be open, but not be linked
    • Data can be linked, but not be open

     The possibility of data being both open and linked is increasingly viable, both from a technological and business standpoint. The Semantic Web can only work with data that are both open and linked. I referred to this in a previous post. The below figure represents the graph of all the linked initiatives and applications which form the Linked Data Web.

    Linked Data Web involves a way to publish content on the Web that:

    • promotes reuse
    • reduces redundancy
    • maximizes connectivity (real and potential)
    • makes possible the ‘network effect’ when it comes to adding value to data

    In short:  Linked Data = Open Data + Open Standars

    The Semantic Web has already a considerable size, which will increase as data from more web sites get structured (at the same time that spaces with already structured data are being created). Structured data allow search strategies to reason until they reach the result or small number of results according to restrictions or conditions of reasoning, instead of ordering a list of possible solutions depending on the relevance (rather than forcing humans to understand the logic of the machines). In short, they allow searches based on the reasoning or faceted search.

    On the other hand, the semantic web enables to offer as a result of a particular search a context set associated with it, such as related people, documents, images, tags or metadata, etc... This makes it possible to develop and evolve search from the human exploration perspective.

    To sum up, Linked Data Web would be:

    • Global database
    • Disigned for machines to ‘talk’ and ‘think’ the human way.
    • Objects that it manages and connects represent things (like people, movies, images, books, plants, etc…, that is, anything that can be represented by an ontology), but not documents (web pages) as it occurred in the HTML web
    • Links represent relations between entities or ‘things’.
    • This requires a high degree of structure in the descriptions of these entities.
    • Therefore, it is necessary that the semantics of things is explicit.

    Technologies or standards associated with its development would be: URIs, HTTP, RDF, RDFS/OWL

    The following graph shows the set of initiatives that are part of the semantic web and their different degrees of interaction

     

    Image: linkeddata.org
     

     www.gnoss.com is a system of linked social networks whose ontology is expressed in accordance with the standards of the semantic web. gnoss.com, besides being an Open Data space, is a Linked Data space, that is, its data can be linked, interpreted and expressed by any site that works within the standards of the semantic web. But the semantic web is in the background, social data, since the semantics expresses always a formal or informal agreement between people: there is no chance of understanding without a common idea of the meaning of words. This semantics is being built, is a work in progress which can be expressed in different ways, but finally tends to be translated into standard vocabularies, within the evolutionary logic of the Semantic Web. Those standards are the ones that will go imposing in the short and medium term to solve the deep problems of isolation generated when not doing it so. Health systems, public administrations and large corporations are taking the need to work with them if they want to exploit the potential of their systems and the relationship between them and people. The rest of the companies and individuals will be doing it little by little.

     

     

     

    ...