Watermelon: la web de datos enlazados en un eterno grafo de conocimiento > angel cano

    1 resultados

    Artículo

    /

    Publicado el 18.9.2015 por Equipo GNOSS

    A propósito del BBVA: los procesos de transformación digital de la empresa

    Hablar hoy día 5 de mayo de 2015 de transformación digital de las organizaciones parece especialmente adecuado dadas las noticias que colman los periódicos del día y que nos hablan del nombramiento de Carlos Torres Vila como Consejero Delegado del BBVA, en sustitución de Angel Cano. Según se puede leer, junto con Torres Vila se han realizado nada menos que 13 nombramientos y se ha producido la salida de 6 antiguos directivos, lo que promete un cambio de calado, con el fondo de la transformación digital del banco como mayor prioridad. En la noticia publicada por El País se dice que " González (Lugo, 1944) ha transmitido a los ejecutivos que quiere que la entidad abandone la zona de confort actual para conseguir que el BBVA deje de ser un banco para convertirse en un elemento tecnológico de la industria bancaria". Todo apunta a que se trata de una apuesta de largo alcance llamada a remover el espacio de negocio y competencia del sector financiero y a la que deberán responder el resto de los jugadores más pronto o más tarde.

    Según creo, la transformación digital de una empresa o de un negocio tiene mucho que ver con el hecho de que estamos desarrollando, por primera vez de manera consistente y masiva, un conjunto de tecnologías que posibilitan que las máquinas y los sistemas interpreten de manera razonablemente correcta los recursos generados por las personas, tanto aquellos que se crean con un carácter intencional (los documentos), como aquellos otros que se registran de manera automática y que constituyen nuestra huella digital. En la práctica y en la medida en la que estamos también en un proceso de webificación de nuestros sistemas de información, lo que estamos haciendo es suplementar el casi colmatado internet de documentos (HTML), dotándole de una capa de representación del contenido interpretable por las máquinas. A este nuevo internet lo denominamos Web de los Datos e incluye los datos producidos por las personas y aquellos registrados por diversos sensores y que representan el modo en el que funcionan las cosas (generalmente en su relación con las personas) .

    Este nuevo internet está desplegándose en todos los sectores de actividad, cuyos negocios se están viendo transformados profudamente, y se verán aún más en el futuro, por este enfoque; así podemos hablar de una educación basada en datos, de una cultura basada en datos, de un turismo basado en datos, de una industria o un determinado proceso industrial basado en datos o de banca basada en datos. Todos estas denominaciones apuntan al hecho de que las máquinas, nuestro sistemas, pueden construir un grafo de conocimiento subyacente a cada espacio o ámbito de actividad humana y que en la explotación de ese grafo hay nuevas posibilidades económicas y de negocio. 

    La Web de los Datos se está construyendo sobre un conjunto de tecnologías y lenguajes técnicos que en su conjunto conocemos como Web Semántica. El modo en el que se expresa la Web Semántica como Web de Datos se conoce como Web de Datos Enlazables (o Enlazados) o Linked Data Web en inglés. Lo que sugiere esta denominación es que nuestros sistemas pueden enlazar datos con datos, información con información de manera automática o cuasi-automática. El resultado es un grafo de conocimiento, en el cual los datos se acoplan, conectan o vinculan de manera automática sí (esto es sin el concurso de un editor o de un lector), pero sobre todo significativa para las personas que de ese modo ven multiplicada por un factor enorme sus capacidades de lectura, interpretación y descubrimiento del conocimiento. En suma, los grafos de conocimiento y los modelos de interrogación que podemos desarrollar sobre ellos, son la condición tecnológica para que las personas, los grupos y las organizaciones puedan desarrollar procesos eficientes de gestión de conocimiento (que incluye modelos de interrogación, de enriquecimiento de la información, de inferencia y razonamiento y, por ende, de descubrimiento de conocimiento) en un mundo (digital) donde la información es hiperabundante y las capacidades humanas de interpretación crecientemente limitadas.

    El abordaje técnico que posibilita esta transformación de documentos (legibles para las personas)  en datos (legible por una máquina) se realiza por medio de ontologías o vocabularios, que recogen y describen en un lenguaje de programación (OWL u Ontology Web Languaje) un conjunto de entidades (junto con sus atributos) que representan un ámbito de la realidad y, por ende, un ámbito de conocimiento. No se trata, cono se ve, de una estrategia basada en el procesamiento del lenguaje natural (aunque recurra a algoritmos de aprendizaje y estadística basada en Bayes para algunos de sus procesos, como es el de la anotación semántica o de reconocimiento de las entidades que contiene un determinado texto), porque las máquinas sólo interpretan correctamente aquello que puede ser anotado o identificado por la ontología (las entidades y sus atributos), pero cuando lo hacen, lo hacen de manera indubitable. Eso permite computar, a partir de la representación de un número dado de recursos digitales relativos a un ámbito de conocimiento o realidad dado, el conjunto de relaciones implícitas entre ellos, lo que en la práctica supone activar procesos de conocimiento que en sí mismos ya son de un gran valor económico.

    Imaginemos el caso de que una empresa tuviera representadas las personas de su negocio (clientes, empleados) mediante FOAF (Friend of a Friend), una ontología que posibilita que los sistemas distingan el nombre, los apellidos y eventualmente otros atributos personales de cualquier otra posible secuencia de caracteres que contenga un texto; eso significa que la secuencia de caracteres J-o-s-e-f-i-n-a- -M-o-l-i-n-a se convierte para las máquinas que computan información en una persona con un nombre propio (Josefina) y un apellido (Molina); si además disponemos de algunos eventos representados del mismo modo, esto es de acuerdo con estándares de la Web Semántica, tales como, por ejemplo, el evento [comprar con tarjeta de crédito] (dentro del cual podríamos distinguir a su vez la cantidad, el lugar y el tipo de comercio donde se realiza la compra) estaríamos en condiciones de poder empezar a desarrollar modelos de interrogación sobre esas colecciones de datos que nos pueden llegar a proporcionar un conocimiento de calidad acerca de los patrones de comportamiento y los estilos de vida de las personas y que, en consecuencia, nos permitirían segmentarlas en audiencias y eventualmente desarrollar una cartera de productos y servicios adecuados a esos segmentos y, en el límite, personalizados o individualizados.

    Por supuesto, podríamos enlazar nuestros datos de Josefina Molina con datos de terceros, que podrían ser también de consumo (como por ejemplo los desplazamientos en avión, su frecuencia y destino, su consumo de teléfono, la naturaleza  y patrón de las llamadas, etc...) o de otro tipo (los artículos científicos, supongamos, que ha escrito Josefina Molina y que están recogidos en Elsevier o en Web of Knowledge). Eventualmente una web de datos podría identificar todo lo relacionado con Josefina Molina de manera indubitable. Un caso sencillo de descubrimiento de conocimiento, que por cierto es ya real o está muy cerca de serlo podría ser éste: Elsevier dispone en su vasta base de conocimiento de artículos científicos que contiene uno que describe el caso de un médico de urgencias de un hospital de provincias polaco que ha utilizado un determinado principio activo para paliar los síntomas más insidiosos de tal o cual enfermedad; Pfizer, por su parte, ha representado semánticamente el conjunto de su actividad investigadora y, por ende, sus ensayos clínicos y conoce por tanto qué principios activos experimentó y para qué, así como qué experimentos tuvieron éxito y cuáles no; en concreto el del principio activo al que nos estamos refiriendo no lo tuvo. Sin embargo, al enlazar los datos de su base de conocimiento con la de Elsevier puede descubrir, a partir de una experiencia empírica marginal realizada en un lugar periférico de la investigación clínica sobre un principio activo concreto que probablemente nadie ha citado y muy pocos han leido, una aplicación eventualmente muy prometedora para un principio activo cuya vida comercial estaba en vía muerta. Por cierto, la industria farmacéutica está haciendo un gran esfuerzo en este campo y también las grandes editoriales científicas. Elsevier, que es junto con World of Knowledge el principal contenedor de la producción científica mundial, tiene representada semánticamente toda su base de conocimiento; por su parte el conjunto de la industria farmaceútica utiliza Uniprot una base de conocimiento sobre proteínas y enzimas que contiene más de 20.000M de triples (el modo en el que se representa la información en Web Semángica) y los diferentes grandes actores del sector están trabajando activamente en su propias bases de conocimiento. Pero lo que merece la pena subrayar aquí se parece mucho a lo que expresaba Richard Feynman en 1959, el año que ganó el Premio Nobel durante la reunión anual de la Sociedad Física Americana celebrada en el Instituto de Tecnología de California (CALTECH), en una célebre conferencia cuyo título podríamos traducir como "Hay mucho espacio por debajo" (There´s Plenty of Room at the Bottom): "Yo imagino que los físicos experimentales deben mirar a menudo con envidia a hombres como Kamerlingh Onnes, quien descubrió un campo como la baja temperatura, la cual parece ser insondable y en el cual uno puede ir abajo y abajo. Un hombre tal es entonces un lider y tiene algún monopolio temporal en una aventura científica. Percy Bridgman, al diseñar una manera de obtener presiones mayores, abrió otro campo nuevo y fue capaz de moverse en él y guiarnos alrededor. El desarrollo de un vacío aún mayor fue un contínuo desarrollo de la misma especie..." (Traducción: Pablo Martín Agüero). Hay mucho espacio por debajo cuando comenzamos el desarrollo de una Web de Datos sea en el ámbito que sea, en un proceso industrial, un departamento de Marketing, una Universidad, un Museo...y muchas oportunidades de ganar nuevo espacio para los negocios, la gestión cultural o el impulso a la educación. De pronto mucho conocimiento marginal y aparentemente poco útil adquiere un nuevo vigor en el marco de un nuevo proceso de generación y descubrimiento de conocimiento.

    Dato, cuando se define desde este punto de vista técnico, debe entenderse en este contexto que hemos expuesto como la porción mínima de información interpretable correctamente por una máquina. Nuestro punto de vista sugiere que si los datos no están domesticados o interpretados mediante ontologías y vocabularios entonces resultarán poco útiles o difícilmente manejables, especialmente cuando se trate de datos muy masivos (Big Data). El disponer de datos representados del modo que hemos descrito, esto es, de "datos enriquecidos", permite desarrollar sistemas de interrogación basados en razonamiento natural especialmente útiles para las que personas conectan el conocimiento de tal manera que, como consecuencia, pueden explicitarse relaciones hasta ahora ignoradas u ocultas entre los datos que lo conforman. Este nuevo ámbito de conocimiento y aplicación que se ocupa de los modelos humanos de interrogación sobre grandes cantidades de información organizadas en un grafo se denomina Human Computer Interaction (HCI) y es una de las disciplinas emergente más interesantes en el ámbito de las IT, pues determina el modo en el que las personas terminarán por dar valor, utilizar e interrogar a los datos y, por ende, determina el conjunto de aplicaciones para usuario final que pueden desarrollarse sobre la base de la Web de los Datos. Por que, conviene subrayarlo, la Web de los Datos no es una Web para las Máquinas, sino la web que las máquinas devuelven a las personas cuando aquellas pueden razonablemente comprender los contenidos que producimos. Los modelos HCI que explotan las posibilidades de la representación semántica precisan, a su vez, de modelos de computación que posibiliten la realización de inferencias o de procesos iterados de interrogación sobre los datos. Y, finalmente, se precisa de una arquitectura de software que facilite una ejecución rápida o industrial de los proyectos. Nada más.

     

    ...

    Categorías: