Watermelon: la web de datos enlazados en un eterno grafo de conocimiento > Grafos de conocimiento: Web semántica

    sortFiltrar Ordenar
    39 resultados

    Artículo

    /

    Publicado el 30.11.2012 por Ricardo Alonso Maturana

    Linked (open) Data en la Open University. Investigación en tecnologías semánticas

    El Knowledge Media Institute (KMi) es el responsable de la estrategia de datos abiertos de la Open University (OU). El KMi es un centro de investigación de la OU que trabaja con intensidad en el terreno de las tecnologías semánticas. Su cometido se centra fundamentalmente en los campos de la ingeniería ontológica, la representación del conocimiento, la interoperabilidad y el data linking. Entre sus trabajos más reseñables destaca el citado proyecto de Linked Open Data de la OU, la primera plataforma de datos enlazados en el mundo universitario, que cuenta con más de 20.000 documentos reutilizables, entre los que se incluyen papers, grabaciones de clases, cursos completos…

    En la actualidad, el KMi cuenta con 80 personas en distintos grupos de investigación ubicados en las siguientes líneas de trabajo: Future Internet, Knowledge ManagementMultimedia & Information SystemsNarrative HypermediaNew Media SystemsSemantic Web & Knowledge Services y Social Software. En todos los casos, el KMi hace especial énfasis en el vínculo y las posibles aplicaciones de las tecnologías semánticas y la formación y educación. El trabajo de los investigadores se refleja en hasta 130 proyectos. El KMi tiene su propio ‘termómetro’ para valorar la relevancia (Hot, Active y Classics) de cada uno de los proyectos en función del momento de desarrollo de sus trabajos. Como introducción al panel de proyectos del KMi, destacamos los siguientes:
     

    • LUCERO Linking University Content for Education and Research Online.
    • LinkedUP Linking Web Data for Education Project – Open Challenge in Web-scale Data Integration.
    • DECIPHER Digital Environment for Cultural Interfaces; Promoting Heritage, Education and Research.
    • LUISA Learning Content Management System Using Innovative Semantic Web Services Architecture.
    • EUCLID Educational Curriculum for the usage of LInked Data.
    • SocialLearn Learning on the open, social web.
    • Multimedia Digital Libraries New Paradigms for Browsing & Search.
    • Living Human Digital Library Technical infrastructure for the Living Human Project.
    • mEducator  Multi-type Content Repurposing and Sharing in Medical Education.
    • ROLE Responsive Open Learning Environments.
    • LTfLL Language Technology for Lifelong Learning.
    • SILVER Semantic Interactive Learning Visualisation Environment Research. 

    Entre los proyectos destacados, consideramos de especial interés a LUCERO, la iniciativa a partir de la que la Open University construye su plataforma de Linked Open Data. El investigador Mathieu d’Aquin explica en la presentación Building the Open University Web of Linked Data las bases y posterior desarrollo del proyecto.

    ...

    Artículo

    /

    Publicado el 3.9.2012 por Ricardo Alonso Maturana

    El futuro próximo de las tecnologías semánticas en la educación, la universidad, los media y la empresa: análisis de la Semantic Technology and Business Conference 2012 (SF, Londres y NY)

    El nombre de estas conferencias es una declaración de intenciones: demostrar que la aplicación de tecnologías semánticas en servicios y empresas es un hecho, superando el estado de investigación académica que a menudo se le atribuye. No es extraño que sea el mercado anglosajón quien promocione este enfoque, centrando cada  presentación en casos prácticos y aplicaciones concretas. Esta es la descripción del tipo de presentaciones que buscan:

    "The Semantic Technology & Business Conference (SemTechBiz) is the foremost conference series on semantic technologies held each year, and covers a wide range of topics that are redefining the landscape. Please note that we are seeking compelling and thought provoking practitioner depictions of real-world experience.

     

     

    We strongly favor presentations that include:

    • In-depth case studies
    • Step-by-step how-to's
    • Real brands
    • Solid data and results

    Priority consideration is given to speakers with hands-on implementation experience and broad industry knowledge. Precedence is also given to presentations offering actionable ideas and substantive answers to specific, real-world questions (share the mistakes along with the successes!)".

    Durante este año se celebra esta conferencia en Berlín (febrero), San Francisco (junio), Londres (septiembre) y Nueva York (octubre). Aún sin conocer el programa final de la conferencia de Nueva York, a partir de los que se ha presentado en San Francisco y de lo previsto en Londres se pueden extraer interesantes conclusiones respecto al momento de aplicación de las tecnologías semánticas en negocios y servicios.

    En primer lugar, algunos gigantes tecnológicos están tomando posiciones explícitas en este mercado. Por una parte, IBM y Oracle, con enfoques diferentes, se presentan como proveedores de soluciones de explotación de datos e inteligencia empresarial, usando tecnologías semánticas. Oracle profundiza en la relación entre sus soluciones de bases de datos relacionales y su producto de almacenamiento y consulta de grafos (RDF), proporcionando soluciones de minería y descubrimiento de información. IBM presume de sus sistemas de inteligencia artificial, análisis del lenguaje natural y búsqueda semántica, cuyo mayor exponente ha sido el proyecto Watson y su triunfo en el programa de televisión Jeopardy. IBM, además, ha sido Gold Sponsor de la conferencia de San Francisco, enlazando hacia sus productos y servicios ECM: “Content in Motion, Delivering content in motion for better business value”. Las presentaciones y paneles en que han participado estos grandes jugadores han tratado sobre la explotación del conocimiento implícito en cantidades masivas de datos o, dicho de otro modo, en cómo responder a la pregunta por el sentido y la interpretación en un nuevo contexto caracterizado a la vez por la enorme capacidad de los sistemas instalados y los nuevos desarrollos basados en sensores para producir datos hasta el nivel de los terabytes, a la par que nuestra viejo modelo de computación profundamente administrada se muestra incapaz de afrontar el desafío. Como podéis ver en la enumeración de las presentaciones que os ofrezco a continuación, la capa semántica completará los sistemas de gestión e inteligencia de nuestras empresas y nuestras ciudades y, de hecho, se convertirá en el modo "inteligente" de hablar con ellos:

    • You have Terabytes Worth of Triples, Now What? -- Mining Insights from Your Semantic Data Store, con Xavier Lopez y Zhe Wu, de Oracle Corporation: “Representing data in graph (triples) format is indispensable but not the whole story; you need to make sense out of the millions or billions of triples you have gathered. The dearth of business intelligence (BI) and data mining (DM) tools for RDF data leaves an analyst little choice but to run SPARQL queries, and perform logical inferences as the only way to analyze semantic data
    • PANEL: Linked Enterprise Data Patterns, con David Wood, de 3 Round Stones Inc, Arnaud Le Hors, de IBM y Ashok Malhotra, de Oracle: “Linked Data is rapidly becoming an alternative mechanism for data integration within large enterprises and a means of connecting the disparate APIs of enterprise software products.
    • Future Directions in Social Search and Analytics at IBM, con Bob Foyle, de IBM: “Search applications can be greatly enhanced when they incorporate relationships between the query, the content and the people analyzing information and the content itself.”
    • SCRIBE, a Semantic Model that Help Cities Become Smart, con Rosario Uceda-Sosa, de IBM: “Despite the progress made in semantic technologies and standards, semantic industry-strength models in complex domains are few and hard to use. However, data semantics is at the core of complex, heterogeneous and siloed systems like smart cities.”
    • Deriving Social Insight from Existing Business Applications, con Marie Wallace, de IBM: “In this presentation we will examine how we can we apply social analytics to a existing business application which is not a “social application” per sei. We will demonstrate how these applications hide a rich set of social and semantic links within their underlying schemas, relationships that may be well hidden and distributed across a myriad of tables and cells, but they are there nonetheless and can be represented as a socio-semantic graph on which social analytics can be easily applied.”
    • Bringing Location Analysis to the Semantic Web with the OGC GeoSPARQL Standard, con Matthew Perry y Xavier Lopez, de Oracle: “The Open Geospatial Consortium has recently introduced the GeoSPARQL standard for spatial query on the Semantic Web. Spatial data is pervasive on the Web, and standards from the OGC play a critical role in location-based applications that we use every day. GeoSPARQL standardizes key features, such as spatial datatypes and SPARQL extension functions, that will bring the Geo Web into the Semantic Web.”
    • Benefits and Applications of W3C's Provenance Standards in Enterprise Semantic Web Applications, con Reza Bfar, de Oracle: “This session will give a brief-overview of the current work going on by W3C's Provenance group. Most of the session will focus on why enterprise applications should implement it, some of the architectural benefits the standard offers, and how enterprise customers will benefit from its implementation.”
    • Semantic Spend Classification: The Convergence of Unstructured Data Processing, Semantics and Data Mining, con Arivoli Tirouvingadame, de Oracle: “Spend Classification is the process of managing how to spend money effectively in order to build products and services. The term is intended to encompass such processes as outsourcing, procurement, e-procurement, and supply chain management. Spend Classification is a key component of spend management that classifies transactional spend data into standard spend taxonomies thus enabling rich Spend Analytics. This data is typically highly unstructured in its nature but has deep value. Unlocking the value buried in this data requires synergistic use of linguistic text processing techniques, data mining and business intelligence resulting in high value results to the organization.”
    • Watson Goes Back to School - And what it tells us about the evolving role of semantic technology, con Christopher Welty, de IBM Research: “However, over time, the failure of the AI community to achieve this end-to-end vision made many, especially those in NLP, question the endpoint. In other words, to doubt the value of semantic technology. In this talk, we show that it was the vision, not the technology, that deserved to be doubted. Semantic technology has significant value in accomplishing tasks that require understanding, but it is not the endpoint.

    En segundo lugar, empresas como Google, Yahoo, Microsoft y Yandex, promueven la semantización de la Web mediante la iniciativa de microdatos schema.org, incrustando metadatos en el código HTML de las páginas. Como resultado, son cada vez más capaces de aplicar y vender sus sistemas de búsqueda en mercados verticales, como viajes o productos, con resultados más ricos en facetas y contextos. Las presentaciones en las que han participado son:

    • Semantic Search, con Thanh Duc Tran de AIFB y Peter Mika de Yahoo. “In this tutorial, we aim to provide a comprehensive overview on the different types of semantic search systems, and discuss the differences in the techniques underlying them. Both the application of Semantic Web technologies to the IR problem and vice versa, the application of IR techniques to Semantic Web problem are covered by this tutorial. In particular, focus is given to four topics of semantic search which have attracted much interest recently
    • PANEL: Schema.org, con Ivan Herman, de World Wide Web Consortium, Alexander Shubin, de Yandex, Dan Brickley, de Google, Evan Sandhaus, de New York Times Company, Jeffrey W. Preston, de Disney Interactive Media Group, John Giannandrea, de Google, Peter Mika, de Yahoo, R.V. Guha, de Google y Steve Macbeth, de Microsoft: “Just prior to the 2011 SemTechBiz Conference in San Francisco, Google, Yahoo, and Bing announced the creation of schema.org. Since that time, the effort has enjoyed a lot of attention and activity.

    Además de estos grandes players tecnológicos, importantes empresas basadas en el conocimiento, en sectores como la educación, los medios de comunicación o las ciencias de la salud, están desarrollando productos y servicios basados en tecnologías semánticas. No se trata de proyectos marginales o de investigación, sino que más bien expresan el inmediato mainstream tecnológico, a la par que muestran una estrategia de fondo y una apuesta clara por el uso de tecnologías semánticas. Estas grandes empresas sectoriales se están apoyando, para el desarrollo de estos productos y servicios, en un conjunto de empresas tecnológicas que se ofrecen como proveedores de soluciones y servicios en el ámbito de la semántica, y que, en la actualidad, son mucho menores en tamaño que los grandes proveedores anteriores. Son este conjunto de empresas que ahora emergen las que, en los últimos años, han realizado la transición la investigación a las aplicaciones y las que han construido la paleta de soluciones que hará de las tecnologías semánticas las tecnologías estrella en IT en el futuro inmediato. 

    Grosso modo, entre este conjunto de empresas podemos distinguir tres grupos: aquellas que son proveedores de soluciones de computación y bases de datos, las que lo son de plataforma y, por último, aquellas que ofrecen servicios a la carta, fundamentalmente de representación del conocimiento. En el siguiente cuadro pueden verse el conjunto de empresas de servicios que patrocinan o participan de algún modo en estos eventos. No están todas las que son, pero son todas las que están. Probablemente esta lista aumentará antes del cierre de la convocatoria del evento de Nueva York, previsto para el 15 de octubre.

     

    Semantic Technology and Business Conference 2012

     

    San Francisco 2012

    Londres 2012

    New York 2012

    Epimorphics Ltd (Reino Unido)

     

    Silver

     

    Fluid Operations (Alemania)

    Silver

    Silver

     

    Ontoba (Reino Unido)

     

    Sponsor

     

    Poolparty (Austria)

    Silver

    Exhibitor

     

    Cambridge Semantics (R.U.)

    Silver

     

    Silver

    Franz Inc (EEUU)

    Exhibitor/Sponsor

     

    Silver

    Orbis Technologies (EEUU)

    Silver

     

    Silver

    REvelytix (EEUU)

    Gold

     

    Silver

    Stardog (EEUU)

    Exhibitor/Sponsor

     

    Silver

    Yarcdata (EEUU)

     

     

    Silver

    Bigdata by systap (EEUU)

    Exhibitor/Sponsor

     

    Sponsor

    Ontotext (Bulgaria)

    Platinum

     

     

    IBM (EEUU)

    Gold

     

     

    beInformed (Holanda)

    Silver

     

     

    Elsevier (Holanda)

    Silver

     

     

    Profium (Finlandia)

    Silver

     

     

    TopQuadrant (EEUU/RU)

    Silver

     

     

    Expert system (Italia)

    Exhibitor/Sponsor

     

     

    Fynydd (EEUU)

    Exhibitor/Sponsor

     

     

    iQSer (Chequia)

    Exhibitor/Sponsor

     

     

    Knowledge Based Systems

    (EEUU)

    Exhibitor/Sponsor

     

     

    Morgan & Claypool Publishers

    (EEUU)

    Exhibitor/Sponsor

     

     

    Pure Discovery (EEUU)

    Exhibitor/Sponsor

     

     

    SindiceTech (Ireland)

    Exhibitor/Sponsor

     

     

    SkyTech Solutions (EEUU)

    Exhibitor/Sponsor

     

     

    Tom Sawyer Software (EEUU)

    Exhibitor/Sponsor

     

     

     

    Como hemos señalado anteriormente, el impacto de estas tecnologías va a resultar particularmente importante en algunos sectores, como pueden ser los de la educación, la educación superior, las ciencias de la salud y los medios de comunicación. Entresacamos a continuación las participaciones y conferencias que nos han parecido de mayor interés y alcance en estos sectores mencionados:

     

    EDUCACIÓN Y UNIVERSIDAD

    • LONDRES: Building a Linked Data Graph for Education Tom Heath, Talis Education Ltd: "Just as a social and professional graph have emerged through Facebook and LinkedIn, so too is an education graph emerging describing connections between students, teachers and the learning resources they use. The Talis Aspire application allows university lecturers to create lists of learning resources for a particular course, which are then expressed according to the Linked Data paradigm"

    Paper relacionado: Talis Aspire: Assembling and Applying an Education Graph based on Learning Resources in Universities

    • LONDRES Y SAN FRANCISCO: Linked Data at Pearson: The Proof is in the Putting Madi Weland Solomon, Pearson Plc: "This presentation offers up a recent Pearson proof of concept to reveal the promise of Linked Data as a path to approach issues such as DAM, Enterprise Taxonomy Management, Enterprise Search, and even alignment of content to education standards".
    • NUEVA YORK: Watson Goes Back to School - And what it tells us about the evolving role of semantic technology Christopher Welty, IBM Research: "In the traditional vision of AI, understanding flowed from perception through language to knowledge. It had always been envisioned that this understanding would be in some precise and unambiguous knowledge representation, and that all meaning processing would happen in this representation. This is the root of all semantic technology today".
    • SAN FRANCISCO: Project schoolKID: Linked School Data Hans Constandt, ontoforceTom Vankemmel, schoolKID: "SchoolKID (school Knowledge and Information dashboards) helps principals & their administration to address bottlenecks associated with finding scattered information about students with powerful but simple, attractive dashboards".

     

    BIO-FARMA

    • CONFERENCIA DE LONDRES

    Semantic Drug Research: Discovery of New Biomarkers and Phenotypes by Text Analytics Carlo A. Trugenberger Co-founder and Chief Scientific Officer / InfoCodex Semantic Technologies AG: "The ultimate goal of semantic technologies and text analytics is to devise software that can "understand" the meaning of free text in the practical sense of providing new, actionable information condensed out of a body of documents".

    A Faceted Browser for Drug Discovery: Integrating & Querying Big Data Hans Constandt Senior Consultant Information Integration / Eli Lilly: "Our project that joins the capabilities of semantic information integration & faceted browsing visualization. Faceted visualization of linked data spanning internal, external public and subscribed sources can provide an effective and generally applicable mechanism for deriving knowledge from the wealth of available integrated information. Any data source semantically exposed and woven into an information graph becomes available for faceted browsing access. This includes sources ranging from drug discovery to clinical development and operational support functions".

    Using and Improving the D2RQ Open-source RDB to RDF Mapping Tool Didier E. Chalon Data architect, New Medicines Informatics / UCB Pharma s.a.James Snowden Senior Scientist, New Medicines Informatics / UCB Celltech: "D2RQ is an open-source, freely available, relational database to RDF mapping technology. Its features and performance in a corporate environment have led UCB to identify it as the preferred tool for several data integration scenarios - with however possibilities for improvement in different areas".

    • CONFERENCIAS DE SAN FRANCISCO Y NUEVA YORK

    Using Linked Semantic Data in Biomedical Research and Pharmaceuticals: "This presentation and discussion includes key pharmaceutical Information experts on the value and promise of linked semantic data. Areas to be discussed will include: Drug Development, Clinical Data, Genomics, Regulatory, and Personalized Medicine".

    Faceted Search and a Slick UX for Integrating and Querying Big Data Hans Constandt Co-founder - ontoforce: "This project specifically joins the capabilities of semantic information integration & faceted browsing with slick and easy to use interfaces for multiple pharma and biotech mining internal and external data".

    Semantic Web Technologies in Life Sciences: Prejudices, Limitations, Advantages and Use Cases Martin Romacker Senior Knowledge Engineering Consultant Novartis Pharma AG: "Large-scale initiatives like openphacts in chemistry or biomart in the biological domain witness the increasing importance of having data available in a semantically reusable way with open access".

     

    MEDIOS DE COMUNICACIÓN

    • CONFERENCIA DE LONDRES

    Dynamic Semantic Publishing Empowering the BBC Sports Site and the 2012 Olympics Jem Rayfield Lead Technical Architect / BBC Borislav Popov Head of semantic annotation and search - Ontotext Lab / Peter Haase Lead Architect R&D fluid Operations: "It describes the latest developments in the transformational technology strategy the BBC Future Media & Technology department is using to evolve from a relational content model and static publishing framework to a fully dynamic semantic publishing (DSP) architecture".

    En cuanto a la BBC, te recomiendo que veas la presentación relacionada BBC Dynamic Semantic Publishing, que hemos subido en la comunidad NextWeb de gnoss.com

    • CONFERENCIAS DE SAN FRANCISCO Y NUEVA YORK

    rNews: The most versatile way to mark up Publishing Metadata Andreas Gebhard Managing Editor Getty Images, Inc.Evan Sandhaus Semantic Technologist - New York Times Company: "The International Press Telecommunications Council (IPTC) released rNews 1.0 in October 2011 after one year of development and community outreach work. With the integration into schema.org, rNews has quickly become the most versatile way to mark up publishing metadata in a Semantic Web compliant way".

    Omnimedia: Keeping It Simple: A Case Study in Shifting Expectations Barbara E McGlamery Taxonomist Martha Stewart Living Omnimedia: "This case study will compare how two companies approached the challenges involved with defining realistic objectives for using the Semantic Web and what obstacles were encountered in the development process".

    Semantics at Tribune Company Keith P DeWeese Director, Information and Semantics Management -The Tribune Company: "The Tribune Company has been working with various semantic technologies for years, but a formal semantic program was not until 2007. This presentation will cover the foundation of that program, achieved, lessons learned, and the forward-looking view the Tribune Company regarding a suite of semantic technologies that it will deploy in the future".

    Using the Semantic Web for online Sports News Stories Daniel Schwabe Professor Dept. of Informatics, PUC-Rio / Rafael Pena Product Owner of the Sports Data System Globo.com: "We present the use of a Domain Model for Soccer, together with a Discourse Model, were used to identify story leads for the largest Brazilian sports news website".

    AP Metadata Amy Sweigert Vice President of Information Management The Associated Press: "With the introduction of AP Metadata Services, the Associated Press is offering a standardized AP News Taxonomy, which in combination with the AP Tagging Service enables the automated creation of rich, semantic metadata".

    Agence France-Presse brings businesses the next generation of personalized news delivery/services with semantic technology. Janne Saarela CEO ProfiumErick Briere, Agence-France Presse: "AFP selected a semantic technology solution for managing personalized customer subscriptions supporting both the scalability and the high-availability requirements needed for today's real-time global news distribution business".

     

    En conclusión: todo parece apuntar que las tecnologías semánticas han alcanzado el grado de madurez y de legitimación tecnológica suficiente como para ser bien aceptadas en el conservador mundo de los negocios, especialmente en algunos sectores y funciones, como creemos haber mostrado. Esta noticia irá llegando en oleadas en los próximos meses, modificando profundamente algunas costumbres y enfoques y, por ende, la cultura IT de muchas organizaciones y empresas.

    ...

    Artículo

    /

    Publicado el 22.6.2012 por Ricardo Alonso Maturana

    Emprendimiento y tecnología: la aventura de crear una compañia de Social Knowledge Business

    El pasado 21 de junio ofrecí una ponencia titulada 'Emprendimiento y Tecnología: la aventura de crear una compañía de Social Knowledge Business', en el marco del Tecnalia’s KBE Day. En este post, escrito en inglés para la propia conferencia, hago un resumen tanto de mi trayectoria como de la GNOSS.

    Entrepreneurship and Technology: The adventure of Creating a Social Knowledge Business Company (Ricardo A. Maturana's lecture in Tecnalia’s KBE Day)

    I offered a lecture during the Tecnalia’s KBE Day (Zamudio, Bizkaia; 21th June 2012), a seminar with Knowledge Based Entrepreneurship companies and professionals.  This is a transcript of the lecture ‘Entrepreneurship and Technology: The adventure of Creating a Social Knowledge Business Company’:

    INTRODUCTION

    I am the founder and the current CEO of www.gnoss.com. In October 2007, Luis Cacho, President and cofounder of arsys.es, joined the project. 

    I don’t know what expectations you have about this presentation. I’m not an academic person, so I don’t do research on this topic. I don’t have any general ideas about this and of course I have no recipes. I usually avoid giving some advice. So, what could I say with sense about undertaking new paths in technology or about creating new technological companies? I only have my own experience widened with some reading, some good conversations and, at last, I have walked this path with some friends and my family who wanted to share this adventure. To sum up, I feel capable to tell you my own story and think about it carefully, but no more.

    First of all, let me to tell you something about the knowledge company I’ve created: GNOSS.

    GNOSS works with semantic technology

    GNOSS is a social software platform which includes linkable and customizable social networks, which can be managed and in which it is possible to take part with a federate identity – a user can work simultaneously in several networks with personal or collective identity; organization, class or group, based on a structured web of data not on a web of documents. To put it briefly, www.gnoss.com is a space for social linkable networks that run on semantic web technology; a web 3.0 project offering solutions for knowledge management, collaborative work and informal learning.

    GNOSS can be used as:

    • a corporative tool
    • a learning tool


    GNOSS & Didactalia in Linking Open Data Cloud (September 2011)

    ​This story begins at the beginning, that is, just before I decided to launch GNOSS and, as a consequence, to create a technological start-up.

    1. IMAGINATION

    When I was sixteen, I was studying at High School in La Salle, in the Deusto neighbourhood. Until that moment, I really enjoyed reading comics and books. Of course, I had read the appropriate books for my age, like Salgari’s and Stevenson’s, or those of a very popular author named Martin Vigil. Related to comics, I liked almost anyone, from Mortadelo and Filemón to Flash Gordon. But when I was sixteen, something happened: as the reading material at the end of the literature textbook, I found the beginning of a Borges’ short story: “Las minas circulares”.  When I read that singular page, I noticed that I had never read anything like that before. That day after school, I went to a bookseller, now closed, named “Paradiso” (like the celebrated poem by Milton) and I bought “Ficciones”. That day, with those few words from the beginning of the Borges’ short story, I went into a new dimension made of metaphors, concepts, literature, formal languages… The bricks to build a vision of the world.

    Borges not only was an inspiration, but he also represented the possibilities of the mind and thought in the good stories, especially when they are mixed with the most important of all the high human faculties: the imagination. The following years, I became a persistent, interested and passionate reader. I found out that the world has other worlds inside and that words contain all things and all possible worlds. I was definitely fascinated by the power of words and language, and by their dominance over the things.

    After Borges, other writers came, such as Cortázar and Stendhal, Tolstoi and Flaubert, Carpentier, Conrad and Greene and many others.

    First big learning: From then to now, I’m deeply convinced that it’s impossible to have a solid vision of the future without a solid imagination full of good metaphors. And the vision of the future has inside the whole of opportunities. Imagination and metaphors represent the form of the future in our present and in our mind. The killer faculty to create anything (and it is the same if we talk about painting or tech enterprises) is the imagination and its contents, not the intelligence.

    2. ENJOY

    Enjoy every moment, specially the worst ones, and difficult ones.

    Finally, I had to choose what I wanted to be in the future. Between us, that means what kind of university studies I preferred. I chose Philosophy in the University of Deusto. There, I discovered the pleasures and suffering of thinking and I had the opportunity of reading some a few but fundamental books: Plato, Descartes, Wittgestein, Russel, The philosophy of language… I discussed, studied and had the opportunity, so to speak, of seeing and thinking about the lower surface of things, the other side of the moon, the reverse side of the world. Those days were full of happiness in the strange way that happiness becomes alive in the extreme youth, a germinal period in which everything is still possible. I lived with passion those warm days and I enjoyed doing what I wanted to do without any utilitarian restriction. At last, those golden days came to end. But something, something important, remains up to now: you have to follow your real interest, listen to your heart. We all have the duty to deploy our talents, all of them, without any other consideration. That means living with passion and connect your deepest being with your actions and with what you do at every moment.

    After this, I taught Philosophy, I wrote my thesis on models of innovation dissemination and social knowledge engineering. I also promoted an institute for adult education. I was consultant in advanced training and knowledge systems. I’ve always felt that all these activities were deeply connected. GNOSS, our technological project, contains elements of all these experiences, like a soft perfume.

    Second learning: your life is unique and you only live once. Everybody has the duty to try to be happy and useful. Nobody has the right to waste the time and life that has been given. Connect the deepest interests in your life; living with passion, that’s the formula of good life and good business too. Creating and undertaking are passions. 

    3. NOW OR NEVER

    When I was 38, I realized that it was the time of ‘now or never’.

    I wanted to work by myself and create and foster my own project. So, any time is always good.

    I remember worst times than the current ones. My father founded our enterprise group in 1977. They were bad times here, in the Basque Country, and also in Spain. While our economy was collapsed, the new political frame was under construction and we lived in the middle of a major political violence. We are not worst now. So, the present time is always the best one for doing what you want to do. If you feel inside the impulse for creating, for undertaking a project, you have to follow it up without any doubt. Tomorrow could be too late. “Don’t leave for tomorrow what you can do today”, we usually say.

    Third learning: Those who feel the urge to create and undertake, but against these deep impulse, put off or avoid this commitment, will end feeling melancholy and sad passions. 

    4. BE FREE: DON’T WORK FOR ANYBODY BUT YOURSELF

    Once, when I was very young, my father told me that he didn’t want to work for anybody but himself. This is a matter of principles. We are educated in the belief that the most important aspiration in our life is to reach security. All our educational and cultural programme, all the social energy of our mothers, fathers and teachers, collaborate in setting this kind of value up. Tones of creativity, talent and personal possibilities of development are sacrificed in the security alter. But the consequences are cruel: we have built up a culture of bitterness and doubt; most people have got unreliable secret dreams. “There is a time for everything, and a season for every activity under heavens: a time to be born and a time to die; a time to plant and a time to uproot” (the Bible says).

    But the time goes by and, what happens when we haven’t done what we’d like to do? The answer is quite simple: social bottom of bitterness and envy, which punishes those who try to undertake projects. In our society, the social penalties for failing are too hard and rigorous, frequently are the first cause to drop out in the race for creating new enterprises and economic value.

    Fourth learning: be yourself, don’t work for anybody but yourself and don’t listen to the discouraging background noise of our fearful society.

    5. BE SELF-CONFIDENT AND BUILD A SOLID CHARACTER

    Our education is focused on contents, but less in applications, personal development and character formation. And success, as Woody Allen says, is not a question of intelligence but courage, audacity and bravery. The character formation is the key cultural competence to make effective a knowledge and open creative society. A society based on the creativity that fosters everybody’s talent. But now, in spite of the superficial rhetoric about the importance of innovation and talent, to be an entrepreneur, to found and promote and enterprise or business, to have the ambition of developing technology, is something that implies a hard fight against the social elements. But the school doesn’t work for the formation of character. Undertaking demands a lot of energy and a solid character even in those societies that don’t punish the failure; imagine how hard and difficult it would be when the society turns its back on whom has express the preference of living like an entrepreneur. The society that wastes talents is doomed to repeat its history as a farce.  Don’t forget, at least in the case of Spain, that our modern history, with the exception of the last thirty years (and this with shadows) is a story of decline and fall. I think that we have the duty to do something like the Basque dream (or Spanish dream if you want), a path that allows everybody to rise and aspire to a better life got over their efforts, will, merits and talents. Even in this case, character will be the key.

    Fifth learning: undertaking needs a self-confidence and a solid character, even more if we consider our educational, cultural and social values and environment.

    6. HAVE DREAMS, BUILD A CLEAR VISION CONSIDER CAREFULLY ALL THE CIRCUMSTANCES, AND JUST DO IT

    To do anything in the long term, you need first a solid vision. Without it, it is impossible to aggregate resources and talented people for your project. It’s necessary to visualize the point of arrival because any entrepreneurs has to communicate the project clearly to many players, pointing out the process and benefits of making the journey together. But visions need dreams. Martin Luther King said: “I have a dream”. In that moment, the dominance of the WASP people in the USA began to decline. After the Luther’s dream, there is the end of the apartheid that the black people suffered for centuries, and the rise of a society based on civil rights for everybody. Dreams are not enough. After having a dream, you have to be sure that you are not reinventing the wheel. And if you are sure, then you have to consider carefully all the things and circumstances from going from here to there, the arrival point that lightens your dream. Be careful! The entrepreneur who is not in love with its idea is an odd species. There is no place for crazy ideas, so consider carefully your project almost twice. And after all, JUST DO IT.

    Action is always beneficial. To connect thought and action is a magical formula that leads to sure success because, in this case, success is not only the final result, but also the process itself, which expresses the will to live the way you want.

    Sixth learning: Just do it.

    7. THE CREATION OF A TECHNOLOGY COMPANY. MONEY, RESOURCES AND TIME

    The will to do things is a necessary condition, like hard work and character, but again it’s not enough. All the projects need the adequate resources and… money, especially technology projects. In fact, money is used to get excellent resources; without them, will, character, vision and good ideas are almost nothing. To develop technology is expensive and requires to add several resources. Regrettable, this country doesn’t see itself as a technology creator, but as technological services designer. And here, when I say technology, I mean IT technologies, more precisely Internet technologies. This underlying belief makes it very difficult to get financial resources for undertaking in the field of technology. The people who could invest in this sort of projects don’t have faith in them. Here it is important to distinguish between a technological project and a business based on Internet technology. These last one are easy to finance because the investors have the expectation of a quick failure or a quick return on investment. Probably, we don’t have the financial culture and institutions to produce high-tech with global ambitious and, as a consequence, our bets are not enough aggressive, so we lose once and again generating in this way a vicious loop. Perhaps we don’t have nor the cultural conditions, nor the financial structures to aspire to have critical influence in the global Internet, but I think we should be brave for being a major player in the Spanish speaking Internet. This is the second agglutination and market, just after the English speaking Internet of the whole West Internet. Our project, GNOSS, has requested several financial resources. We have sixteen people working in our company; four of them are PhD, many engineers, etc. It’s not cheap. We have been fortunate, because we’ve been able of supporting this project with the solid commitment of our partners (Maturana Group and Luis Cacho, President of arsys.es) and with the collaboration of the public sector (CDTI).

    Of course, nobody reasonable should expect to get a loan from a bank, not now, but neither in the past when our financial system was extremely occupied laying and laying bricks. There are also public funds for innovation, but… it’s not the best way to do the things quickly enough. Bureaucracy is always too slow and demands too administrative task for an entrepreneur.

    Seventh learning: Be careful with the money. It’s never enough.

    8. MAKE A TALENTED TEAM

    Make a team is a critical subject for a technological entrepreneur. The reason tells us that we have bet for talent. Nevertheless, it’s convenient to take care when you want to hire someone. Some rules:

    • Avoid sad people; that is, people who see the bottle half empty, people who say: “I already said…”, and similar sentences. This kind of people resolves bored and discourages the rest of the team. There is no vaccine against this kind of people: only one of them can break down the moral of the best team.
    • Keep away from proud people and those who think that know everything. These people are always a brake. They usually aren’t able to ask for help and therefore, the way of solving problems is inefficient and slow.
    • Prevent against people who have communication problems and are cold from an emotional point of view.
    • Choose warm, smiling and optimistic people.
    • And last, spend money from the beginning in a very good human resources consultant, specialized in recruitment: it will be the best-spent money, for sure.

    Eighth learning: Always talent, avoid sad and proud people, choose the optimistic once and spend money in a very good human resources consultant, specialized in recruitment.

    9. PARTNERS?

    Ask yourself: Actually, do I need a partner?

    Frequently the conflicts between partners come from the different point of view about who of them are creating more value. This kind of discussion is not easy to solve. There are usually two points of view: the one of the investor and the one of the entrepreneur. Money trends to believe that it is the key factor, in spite of the fact that many brilliant projects fail because the entrepreneur and promoter loses the power of making decision. Be careful with partners and try to maintain always the power of decision. Technological start-up projects depend critically on the mood and moral of the promoter. Money can do almost nothing without an enthusiastic entrepreneur.

    Ninth learning: Partners only if needed and remember: money is always coward.

    10. (AND LAST): WORK AND WORK, WORK HARD, EVERYDAY

    Success is a very antiheroic task. Creating technology is not brilliant at every moment. Most days we spend time breaking stones. Talent and money are not enough without work, work and hard work.

    SUMMARY OF MY OWN LEARNINGS

    • ​IMAGINATION is the key human faculty for visualize future, opportunities, projects and business.
    • ENJOY. Your life is unique and you only live once. Everybody has the duty to try to be happy and useful. Nobody has the right to waste the time and life that has been given. Connect the deepest interests in your life; living with passion, that’s the formula of good life and good business too. Creating and undertaking are passions.
    • NOW OR NEVER. Those who feel the urge to create and undertake, but against these deep impulse, put off or avoid this commitment, will end feeling melancholy and sad passions.
    • BE YOURSELF AND BE FREE, don’t work for anybody but yourself and don’t listen to the discouraging background noise of our fearful society.
    • BE SELF-CONFIDENT AND BUILD A SOLID CHARACTER. Undertaking needs a self-confidence and a solid character, even more if we consider our educational, cultural and social values and environment.
    • HAVE DREAMS AND JUST DO IT. (Have dreams, build a clear vision, consider carefully all the circumstances, and just do it.)
    • MONEY!! Be careful with the money. It’s never enough.
    • MAKE A TALENTED TEAM. Always talent, avoid sad and proud people, choose the optimistic once and spend money in a very good human resources consultant, specialized in recruitment.
    • PARTNERS? Partners only if needed and remember: money is always coward.
    • WORK A LOT!! Talent and money are not enough without everyday work, work and hard work.

    Now, you can compare this with Fernando Trias de Bes says about the key reasons for failure when you start a new company ¿Are the more or less the same? I think basically yes. However, Trias de Bes considers some interesting causes in addition.

    KEY REASONS TO FAIL

    Fernando Trias de Bes, MBA professor at ESADE and writer of books as “The good luck” or “Lateral Marketing”, surprised everyone with his new book: “The black book for the entrepreneur” (El libro negro del emprendedor) were he explains his theory about the main factors for failure when starting a new company. This is based in his own experience, his work at the MBA school (ESADE) and many “chats” with different experienced entrepreneurs. He got to compile 14 key reasons to fail. Those factors are the following:

    • About the person:

    1 entrepreneur with a reason but without motivation
    2 not to have an entrepreneur mentality
    3 not to have a strong character to fight when is needed

    • About the business partners:

    4 count with them when in reality you don’t need partners at all
    5 choose partners without an election criteria
    6 share the same percent of capital when everyone is not giving the same value
    7 lack of communication and understanding between partners

    • About the business idea:

    to think that success only depends on that "great idea"
    9 start within fields you don’t like or lack knowledge
    10 start within non attractive fields (saturated, little growth)

    • About the impact in your family live:

    11 make the business dependant on your family economy and material needs
    12 not knowing the impact that starting a business will have in the quality of your personal live (time for your family, hobbies, …)

    • About management of the new company:

    13 create business models in which you don’t get benefits quickly and neither in the long term
    14 to be an entrepreneur (want to create something all the time) instead of a business man (like to manage growth) and not know the right moment to retire

    ...

    Artículo

    /

    Publicado el 16.12.2011 por Ricardo Alonso Maturana

    ¿Hay alguna iniciativa que relacione la gestión de la identidad con los datos enlazados?

    Recientemente se ha presentado la versión 1.0 de WebID (Web Identification and Discovery: http://www.webidsupport.com/). Es una especificación de autenticación con linked data en su núcleo, producida por un grupo de trabajo del W3C: http://webid.info/spec.

    Existe una aparente contradicción entre un sistema de autorización y un sistema basado en datos enlazados abiertos: "Si pedimos a la gente que se autentique es porque hay algo que proteger, algo que cerrar." Esto no es necesariamente así, ya que se puede usar la autenticación para ser aún más abierto.Por ejemplo, la mayoría de los sitios web son de solo lectura, porque no se puede confiar en todos los usuarios de la web. Pero se podrían usar relaciones de tipo "amigos de amigos" para autorizar la escritura de audencias más amplias que las actuales.

    Una red social global, que además fuera distribuida, requiere que cada persona sea capaz de controlar su identidad, que esa identidad sea enlazable entre sitios, y que sea posible autenticarse globalmente. Con una autenticación distribuida es más sencillo que cada persona proteja sus recursos y defina su privacidad.

    Además, WebID se puede usar, usando un protocolo sencillo como HTTPS, para automatizar la autenticación de robots, que pueden ser agentes trabajando en representación del usuario, ayudándole en sus tareas diarias. 

    La autenticación WebID se basa en la existencia de certificados de usuario. Al igual que ya sucede en GNOSS, se asume que el usuario puede tener varias identidades (personal, trabajo, asociativo, etc.), cada una con su propio certificado.

    ...

    Artículo

    /

    Publicado el 14.12.2011 por Ricardo Alonso Maturana

    Explotación de metadatos embebidos: posicionamiento, recuperación de la información y generación de contextos

    En artículos anteriores de Watermelon he ido escribiendo algunas entradas sobre la web de los datos y su relación con nuevos sistemas de búsqueda. Estas entradas son:

    Además de las técnicas de posicionamiento tradicionalmente aplicadas al HTML (lo que podemos denominar SEO orgánica), Google, Bing y otros motores de búsqueda recomiendan el uso de metadatos embebidos en el HTML. El uso que dan a estos datos es doble. 

    • Primero, consiguen información más detallada del significado del documento, es decir, más semántica. Los metadatos embebidos definen expresamente que un texto es el nombre de una película, o las calorías de una receta, o el autor de un libro. Esto les permite presentar unos resultados de búsqueda más ajustados, e incluso que cada resultado tenga una presentación enriquecida con precios, valoraciones de los usuarios, autores, etc.
    • Segundo, los más importantes motores de búsqueda están promoviendo verticales de sus servicios, de manera que la búsqueda de recetas, viajes o libros pueda hacerse en páginas específicas. En dichas páginas se presentan facetas de búsqueda (por ejemplo, para filtrar recetas por ingrediente), que solo pueden ser obtenidas desde metadatos semánticos incrustados en el HTML.

    Ninguno de estos motores ha especificado aún el peso que confieren a la existencia de metadatos respecto a los otros parámetros conocidos de posicionamiento, ni siquiera al nivel cualitativo que suelen hacerlo. Sin embargo, la recomendación de uso está ahí y es clara.

    Pasemos ahora al asunto de los formatos. Google declara leer RDFa y microformatos, además de microdatos, el reciente estándar que promueve junto a Bing y Yahoo. Por otra parte, nos consta que indexa y posiciona el contenido RDF asociado al HTML.

    En nuestra opinión, una solución completa en este ámbito, que aporte el máximo valor de posicionamiento, además de las técnicas HTML habituales debería componerse de:

    • RDFa embebido, con vocabularios estándar para expresar las entidades reconocidas por los motores de búsqueda.
    • Microformatos, si la información se refiere a alguna de las entidades de las especificaciones aprobadas (como hCard para personas, o hCalendar para eventos), o a alguno de los más prometedores o exitosos borradores (como hProduct o hRecipe).
    • Microdatos, aún cuando la especificación, por su inmadurez, no llegue a cubrir el total de los datos expresados en los otros formatos.
    • RDF vinculado al HTML, que permita el enlace de datos y la construcción de contextos que enriquezcan la información.

    Esta es la solución que hemos puesto en marcha en www.mismuseos.net, por ejemplo y en otros lugares de GNOSS.

    Reconociendo la importancia del posicionamiento en buscadores de los recursos, el problema de la representación del conocimiento implícito en un recurso quedaría muy incompleta si no consideráramos a la vez otras explotaciones del mismo. Este es el asunto del que se ocupa la Web Semántica.

    La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

    La Web Semántica resultará tanto más útil en la medida en la que las máquinas comprendan de un modo más preciso y profundo el significado de los recursos, lo que depende críticamente de la expresividad de los formatos de representación del conocimiento que utilicemos y, en este sentido, OWL-RDF no tienen competencia. Si lo que queremos es desarrollar un sistema de recuperación de la información eficiente e intuitivo, un sistema de generación de contextos pertinentes y poco ambiguos, o un sistema de recomendación inteligente, los microformatos y microdatos resultarán claramente insuficientes para muchísimas explotaciones verticales. Esto refuerza lo que hemos denominado un poco más arriba “solución completa en este ámbito”, pero en cierto modo invierte el orden de las prioridades: convendrá utilizar un estándar ontológico o vocabulario en primer lugar, para reforzarlo con microdatos y microformatos cuando de comunicarse con los buscadores se trate.

    Imagen vía: https://promocionmusical.es/

    ...

    Artículo

    /

    Publicado el 18.10.2011 por Ricardo Alonso Maturana

    Web semántica, web de los datos y estándares de representación del conocimiento

    La comunidad tecnológica de la Web semántica ha sufrido últimamente 2 polémicas respecto a las tecnologías de soporte. Por un problema de comunicación intrínseco a la profesión de ingeniero, a veces parece que la web semántica sea sólo un conjunto de estándares, y las herramientas generadas en torno a ellos. Desde luego, esto no es así: igual que la Web no es el HTMLXHTMLCSSXML (estándares del W3C) oJavascript (estándar ECMA, mantenido por Mozilla Foundation) que componen sus páginas, la Web semántica no es RDFOWLSPARQL, o Turtle (también estándares del W3C), o cualquier otro acrónimo más o menos conocido.

    La Web semántica incide en el problema de falta de significado comprensible por las máquinas en los documentos Web, que, como consecuencia, dificulta una mejor explotación de los datos, y la construcción de una Web de los datos y Web de los datos enlazados. Esta mejora debería verse en aplicaciones o sistemas conocidos, como las búsquedas, asistentes personales o sistemas de recomendación; y en sistemas incipientes o por llegar, como  descubrimiento de datos, análisis de tendencias, estudios emocionales, identidad digital, etc.

    La primera de las polémicas se plantea en el uso de los estándares y tecnologías para la recuperación y explotación de datos. Según Glen Macdonald, diseñador y product manager de Needlebase (una base de datos de grafos y plataforma de explotación de datos, propiedad de ITA Software, a su vez adquirida por Google en abril de 2011), lo importante no son los estándares, sino proporcionar a los usuarios un interfaz comprensible, y un lenguaje de consulta más sencillo. Siguiendo con su razonamiento, criticaba RDF y SPARQL por poco expresivos para la gente. Es fácil estar de acuerdo con esta opinión, igual que si se refiriera a XHTML, SQL, CSS o Javascript: no son muy expresivos para la gente, aunque han servido para construir la web. En mi opinión, Macdonald confunde, interesadamente, los estándares y tecnologías con la Web semántica, aunque también es cierto que muchos de los desarrollos sobre la Web semántica se han centrado en la tecnología y poco en la gente. Además, Macdonald olvida que la búsqueda y exploración de información son sólo una parte de la Web de los datos: ¿cómo enlazar datos con datos sin estándares? O, echando la vista atrás, ¿cómo se enlazarían documentos con documentos sin un lenguaje de marcas estándar para todos ellos, es decir, sin el estándar HTML?

    La segunda de las polémicas se centra en el modo de expresión de los datos en bruto, origen de la mayoría de las páginas Web dinámicas. Como ya explicamos en un post anterior, una de las opciones pasa por la incrustación de marcas dentro del HTML de las páginas, con 3 posibilidades: microformatos, RDFa y microdatos. La iniciativa Schema.org, apoyada por Bing, Google y Yahoo, propone, desde Junio de 2011, el uso de microdatos, porque “…los microdatos ofrecen el equilibrio entre la posibilidad de ampliación de RDF y la sencillez de los microformatos…”. . En primer luhar, hay que señalar que, desde la comunidad de datos enlazados, se ha recibido Schema.org como algo positivo, ya que es un paso importante hacia la creación de la Web de los datos. Como contribución y esfuerzo complementario, esta comunidad ha creado el sitio Web schema.rdfs.org, para dar soporte al uso y puesta en marcha de Schema.org, especialmente enfocado a los datos enlazados.

    Volviendo a las características enunciadas en los microdatos,  es cierto que la extensibilidad es algo mayor que en los microformatos, pero también que el nivel de sencillez (o dificultad) respecto al RDF o RDFa no es muy diferente.

    Si se compara la extensibilidad con el RDF, llegamos a un problema de estandarización, y de quien controla los estándares. Supongamos que un usuario quiere extender la clase Product de Schema.org, para incluir datos de automóviles: peso, medidas, cilindrada, potencia, etc. Si lo extiende por su cuenta, tiene 2 problemas. Primero, aunque Schema.org podría adoptar su extensión, si ha tenido éxito, pudiera ser que produjeran una propia, para el mismo ámbito. Segundo, y más importante, nadie, ni los robots de búsqueda, entienden a priori la nueva extensión. Podría hacerse una comunicación ad hoc del nuevo formato, externa a Schema.org, y proporcionar la documentación que explique el funcionamiento y la naturaleza de los datos extendidos. La verdad, esto suena a antiguo y, desde el punto de vista técnico y de imagen, sorprende que alguna de las empresas promotoras, tan habitualmente puristas en el uso de estándares abiertos, hayan propuesto esta solución.

    Esto no sucede con RDF, donde, para empezar, los estándares son abiertos, y no propiedad de empresas. Por supuesto que es posible que alguien reinvente la rueda. Sin embargo, la posibilidad de conseguir enlazar datos con datos, si se siguen las recomendaciones de reutilización de vocabularios y ontologías en su publicación, es suficiente premio al esfuerzo, que en realidad no es tal. Además, el vínculo obligatorio entre los datos RDF y una ontología accesible y pública que los defina, consigue una auto-expresión de los datos, y posibilita su comprensión mecanizada.

    La decisión técnica de Schema.org podría tener una explicación de otro tipo, si se piensa en la iniciativa adoptada recientemente por Facebook. Como es sabido, Facebook mantiene una apuesta fortísima de construcción de plataforma, que permita a otras empresas generar más y más desarrollos que complementen la funcionalidad. Pues bien, dando un paso más, Facebook ha implementado la obtención y enlazado de datos en formato RDF, desde las funciones de su API. Esto, además de convertirles de facto en el más importante nodo de datos enlazados, supone un respaldo de primer orden a los estándares de W3C.

    ...

    Artículo

    /

    Publicado el 18.10.2011 por Ricardo Alonso Maturana

    Datos enlazados / Linked data: Formatos de presentación y posicionamiento en buscadores

    El enlazado de datos (linked data) es una de las aplicaciones derivadas de los conceptos que componen la Web Semántica. Como es bien sabido, la web es un conjunto de documentos enlazados. Una de las promesas conceptuales de la web semántica, que podemos considerar una realidad incipiente (ver linkeddata.org), es la construcción de una web de datos enlazados, enlaces que pueden construirse y/o seguirse de manera automática por máquinas que comprenden los datos.

     

    Muchas páginas web (HTML) se componen dinámicamente desde datos estructurados, habitualmente almacenados en bases de datos. Para que estos datos estén disponibles, respondiendo al exhorto “Raw data now!” de Tim Berners-Lee (algo así como ¡datos en bruto ya!), tenemos 2 posibilidades, ya que puede ser muy difícil su recuperación desde el HTML.  

    La primera opción pasa por la incrustación de datos estructurados dentro del código HTMLde las páginas. Aunque es posible construir islas de datos dentro del HTML, lo más habitual es la inserción en el código HTML de microformatosRDFa o microdatos. En particular, los microdatos son la opción de la iniciativa Schema.org, que comparten Google, Microsoft y Yahoo. Como se indica en las páginas de schema.org“…muchas aplicaciones, especialmente buscadores, pueden beneficiarse enormemente del acceso directo a los datos estructurados…”. En otro post comentaremos los posibles motivos de la elecciónde lo que llaman microdatos; aquí nos limitaremos a indicar que se trata más de una creación que de una elección, y que la apuesta de Facebook por la expresión RDF de todos los datos de su plataforma puede tener que ver.

    Sean los datos incrustados microdatos, microformatos o RDFa, su propia naturaleza es una ventaja y una desventaja. Como ventaja, incorporan datos que proporcionan información de valor para robots de búsqueda. Si bien no está claro el nivel de importancia de la presencia de dichos datos en los resultados presentados actualmente por los buscadores, parece claro que esperan un beneficio a la hora de indexar y presentar la información.

    Como desventaja, la presencia de los datos dentro del HTML obliga a la descarga completa de la página, cuando menos, para obtener unos bytes de datos estructurados. De hecho, esto hace difícil pensar en aplicaciones distintas a los robots de búsqueda, que ya están obligados a leer e interpretar el HTML completo.

    Por el contrario, la segunda opción pasa por servir, exclusivamente, los datos estructurados origen del HTML de la página. Esto puede hacerse por medio de URLs específicas, o solicitando a la misma URL de la página Web un tipo de datos diferente del HTML. El consorcio W3C propuso RDF (Resource Description Framework) como marco estándar de representación de información/datos en la Web, enfocado desde su creación al consumo y enlazado de datos: el uso de URIs (identificadores uniformes de recursos) para identificar objetos o entidades en la Web, la semántica de cada dato expresada desde su definición ontológica, la extensibilidad, etc.

    Un práctica recomendada por el W3C (casi obligatoria, diríamos nosotros) es la reutilización de ontologías y vocabularios estándares (comúnmente aceptados) siempre que existan, de modo que la interpretación y enlazado de los datos se facilite.

    Sea cual sea la elección, lo que no parece una opción recomendable, ni presente ni futura, es la presentación, para su consumo como datos abiertos, de datos estructurados en formatos propietarios o poco expresivos (XML, XLS, CSV, PDF, JSON), usando además una definición de datos propia. No posibilita el enlace de los datos, y su consumo no es mucho más fácil que si se extrajeran desde un HTML.
     

    ...

    Etiquetas:

    Artículo

    /

    Publicado el 5.10.2011 por Ricardo Alonso Maturana

    Human-Computer Information Retrieval: Buscadores Facetados, la siguiente generación de buscadores basados en razonamiento

    La experiencia de búsqueda habitual funciona… a menudo. Basada en un cuadro de texto para buscar, consigue una lista de resultados, ordenados por una teórica relevancia, que satisfacen, en general, las expectativas del usuario. Sin embargo, hay casos, a menudo en búsquedas de mucho valor en entornos específicos (catálogos, entornos empresariales), en que este funcionamiento es insuficiente: ¿Qué ocurre si el usuario no sabe exactamente lo que busca? ¿Con qué herramientas cuenta el usuario para refinar su búsqueda?

    Los buscadores de Internet (Google, Bing y otros) obtienen un conjunto de resultados con un recall (fracción de documentos relevantes recuperados) próximo a 1, ya que todo el conjunto de documentos relevantes estará, seguramente, entre los documentos recuperados. Sin embargo, la precisión (fracción de documentos recuperados que son relevantes) puede llegar a ser baja o muy baja, ya que los documentos relevantes pueden estar acompañados por cientos o miles de resultados irrelevantes.

    Estos buscadores solucionan su falta de precisión ordenando el conjunto de resultados por una relevancia precalculada y definida por sus algoritmos, adivinando las intenciones de la persona que busca. Desde luego, son muy buenos en esa adivinación, pero tal vez no les interese tanto mejorar la precisión de los resultados: sus ingresos en publicidad pueden depender de ello.

    En cuanto al refinado de la búsqueda, estos buscadores ofrecen en el cuadro de texto un autocompletado con sugerencias, y cuentan con la habilidad e interés del usuario a la hora de añadir palabras en el cuadro de texto.

    Durante los últimos años, la confluencia de estudios en las áreas de IR (Information Retrieval) y HCI (Human Computer Interaction) ha generado un área de estudio específica, HCIR (Human–Computer Information Retrieval *), que se ocupa de las técnicas de recuperación de información que introducen la inteligencia humana en el proceso de búsqueda. Algunas de las ideas generadas, que ya se están aplicando en los buscadores más avanzados, son:

    • Dar la responsabilidad y el control de la búsqueda a la persona. Le requiere esfuerzo, pero se le recompensa.
    • No adivinar las intenciones, sino mejorar la comunicación.
    • Soportar refinamiento y exploración.
    • Responder con un conjunto de resultados ordenado y adecuado, lo que incluye ofrecer diferentes formas de presentación según el tipo de resultados: listas, mosaicos, mapas, timeline, etc.
    • Extender los resultados y la información con contextos, que son, a su vez, resultados de otras búsquedas.

    Una de las propuestas concretas es el uso, como interfaz, de buscadores facetados. Han sido pioneros, en el uso de este tipo de interfaz, sitios web como Amazon o Ebay. Por su parte, Google ha presentado, durante los últimos meses, buscadores facetados en áreas específicas, como recetas o viajes, aunque sin sumarización.

    Los buscadores facetados se caracterizan por:

    1. Ofrecer una sumarización basada en propiedades que caracterizan específicamente a los resultados mostrados. Por ejemplo, si se trata de mostrar obras de arte, podrían ser autor, museo, época, estilo, escuela, técnica, etc.
    2. Cada posible valor de la propiedad es una opción de refinamiento de la búsqueda. Por ejemplo, una vez buscadas obras de arte sobre caballos, se dispone de una lista con estilos. Eligiendo uno de ellos, Barroco, se obtendrían 33 cuadros. De ellos, observamos que uno de los autores es Velázquez, con lo que llegamos a 3 cuadros: recall y precisión.
    3. Las opciones de refinamiento ofrecen resultados posibles. En el ejemplo anterior, no es posible elegir como autor a Goya, ya que ninguna de sus obras correspondería al estilo barroco. Es un defecto frecuente de algunos sistemas de búsqueda la posibilidad de combinar opciones de búsqueda que no devuelven resultados.

    Este tipo de interfaz requiere de una correcta identificación de las propiedades de los datos a mostrar como facetas. En GNOSS, las facetas no están predefinidas en el desarrollo o definición del sistema, sino que los administradores de las comunidades GNOSS pueden:

    • Añadir campos nuevos a un conjunto de datos. Por ejemplo, en la ficha de la obra de arte, el precio (si se usara en una galería comercial).
    • Crear un nuevo tipo de conjunto de datos. Por ejemplo, una ficha biográfica de autores de obras de arte.
    • Decidir sobre que propiedades de la información son facetas para los usuarios. Por ejemplo, el precio, como un rango, podría ser una nueva faceta de búsqueda, en el caso de una galería de arte. En el caso de la ficha biográfica de autores, el nombre no es una faceta, aunque se pueda buscar por él, pero sí lo son país, estilo, época, escuela, etc.

    Si bien no es necesario el uso de estándares de la web semántica para la realización de un buscador facetado, la expresividad y extensibilidad de los datos, que dichos estándares proporcionan, facilitan la construcción de sistemas de búsqueda para humanos.

    En definitiva, estos sistemas de búsqueda ofrecen el siguiente paso en la búsqueda (web) documental, ofreciendo capacidad de exploración y descubrimiento aplicable en colaboración, creatividad, innovación, toma de decisiones y mejoras sociales. Algunas de las áreas de aplicación son: búsquedas móviles, sistemas de colaboración en salud y bienestar, registro sanitario electrónico, ciencia de la ciencia, búsqueda en redes sociales para mejorar la seguridad, análisis de logs en el área Energética, biodiversidad, patrones de modelos climáticos, búsqueda en mapas, búsqueda narrativa, búsquedas temporales,…

     

    * Marchionini, G. (2006). Toward Human-Computer Information Retrieval Bulletin, Junio/Julio 2006. Bulletin of the American Society for Information Science.

    ...

    Artículo

    /

    Publicado el 20.9.2011 por Ricardo Alonso Maturana

    GNOSS forma parte del Linking Open (LOD) Data Project: nuevos modelos de negocio con nuestros clientes

    El inicio del curso económico, educativo y político coincide con el segundo aniversario de gnoss.com. El proyecto comenzó a gestarse años atrás, pero no fue hasta septiembre de 2009 cuando decidimos que esta red social de conocimiento desarrollada con tecnología semántica fuera pública. En este tiempo hemos superado los 13.000 usuarios y ya alojamos más de 1.200 comunidades públicas y privadas. Ahora, en un momento en el que no abundan las informaciones positivas, tenemos buenas noticias: acabamos de recibir la confirmación pública y gráfica por parte de Linking Open (LOD) Data Project de que pertenecemos formalmente al reducido grupo de webs que componen la ‘nube’de los datos estructuradosSomos la primera empresa española que lo ha conseguido –enlazamos nuestros datos con Freebase en septiembre de 2010-. Además, por partida doble: Didactalia, la gran colección de recursos educativos de GNOSS, también está en la ‘nube’.

    El hecho de pertenecer a la nube de los datos estructurados nos permite pensar en nuevos modelos de negocio y conectar nuestros datos con un grupo selecto de organizaciones que forman parte de la vanguardia en Internet –Gobiernos de Estados Unidos y Reino Unido, la BBC, The New York Times…-. Al abrir, estructurar y compartir los datos se generan nuevos contextos informativos y publicitarios basados en la identificación del contenido, que posibilitan nuevas vías para el comercio electrónico, el negocio publicitario y la reutilización y aprovechamiento de la información en instituciones y empresas. Esto supone un gran beneficio para todas aquellas personas y organizaciones que trabajen con GNOSS.

    Todo esto no hubiera sido posible sin el apoyo de los usuarios y, por supuesto, de los trabajadores, socios y clientes. También quiero agradecer el apoyo de bloggers y medios de comunicación, que recogen todas nuestras novedades y noticias. Pero, todavía queda mucho trabajo por hacer. En la actualidad, estamos implantando la tecnología de GNOSS, de la que ya disfrutas en gnoss.com, en proyectos de Catálogos Semánticos y Comercio Electrónico; Empresa 2.0 (redes sociales corporativas); Gobierno Abierto; y Educación (redes sociales educativas), entre otros sectores.

    Seguimos trabajado. Gracias por tu apoyo.

    GNOSS & Didactalia in Linking Open Data Cloud (September 2011):

    ...

    Artículo

    /

    Publicado el 14.6.2010 por Ricardo Alonso Maturana

    Social data; web semántica; y datos abiertos y enlazados: ¡knowledge internet! / Social data, semantic web, opend and linked data: knowledge internet!

    ENGLISH VERSION/ TEXTO EN ESPAÑOL

    El proceso general de digitalización de la realidad está generando una capa de representación de la totalidad de las cosas y personas, pero también, y esto resulta especialmente relevante, de sus relaciones. A, por ejemplo, ‘Juan Rulfo’ y, pongamos, ‘El llano en llamas’ les une el hecho de que el primero es el AUTOR del segundo, lo que queda expresado mediante la proposición: ‘Juan Rulfo es el autor de ‘El llano en llamas’ Como veremos, la web semántica posibilita computar (deducir, razonar, buscar...) con proposiciones de ese tipo, lo que ofrece grandes posibilidades. Cuando disponemos de los datos y de sus relaciones organizados de acuerdo con los lenguajes de la web semántica (de los que he hablado en ¿Mis datos en manos de terceros? Ventajas de expresar contenidos con estándares de la web semántica), decimos que “los datos están estructurados". Por desgracia, la mayor parte de los datos de la web no están expresados de ese modo. Sin embargo también están estructurados, aunque no del modo en el que lo entienden las máquinas. Buena parte del trabajo consiste, precisamente, en convertir nuestros documentos HTML, .doc, etc...en datos estructurados. En cualquier caso y en buena medida, todos nuestros datos los estamos organizando de forma útil para las personas gracias a las redes sociales. De hecho, construir una web más inteligente parece la condición necesaria para manejar y utilizar de manera eficiente esa enorme y creciente cantidad de datos que está produciendo la actividad humana en las redes. A esta clase de datos categorizados y organizados gracias al trabajo social de las redes les llamaremos Social Data.

     

    Social Data

    Habitualmente los Social Data incorporan el punto de vista de las personas que los editan, o bien, dependiendo de su naturaleza, el de un grupo. Esta información que añade información a una información original suele conocerse con el nombre de metadatos. Los Social Data son, por tanto, metadatos construidos gracias al trabajo social en la red de las personas. Las colecciones de metadatos más habituales en las redes sociales son conocidas por el nombre de folksonomías, que expresan el punto de vista personal o la perspectiva personal con relación a una información o documento determinado. En ocasiones, las redes sociales, en especial cuando se trata de redes profesionales, incluyen puntos de vista más normativos para calificar la información: las taxonomías o los tesauros. La acción de asignar un determinado metadato a una información o documento se conoce con el nombre de etiquetar. El etiquetado social es la fuente primaria de producción de Social Data.

     

    Google es demasiado idiota para entender lo que la gente necesita

    Dado que la racionalidad humana tiene un carácter intencional o finalista, los Social Data aportan una información muy relevante a la hora de recuperar la información con una determinada finalidad o intención. Este es el modo general en el que los humanos desean recuperar información, pero no el modo en el que resuelven este problema los sistemas y buscadores. Pensemos por ejemplo en nuestra experiencia de búsqueda y recuperación de información con Google, el buscador más extendido. Google nos ofrece como resultado de una búsqueda una, habitualmente larga, lista de resultados o posibilidades ordenados en función de la relevancia que atribuye a cada uno de ellos. Eso no estaría mal en primera instancia, pero lamentablemente es todo lo que podemos hacer con Google: no podemos hacer una segunda pregunta relacionada con la primera. Imaginemos que me gustaría conocer qué hay sobre ‘buscadores semánticos que utilicen procesamiento del lenguaje natural y, además, lógica borrosa, escrito por mujeres en 2008, en alguna universidad de California o en San Francisco y alrededores’. Podemos intentarlo introduciendo en la barra del buscador "buscador+semántico+procesamiento+del+lenguaje+natural+lógica+borrosa+san+francisco+2008", pero como puede imaginar casi cualquiera el resultado puede resultar sorprendente. En todo caso, a nadie se nos ocurriría utilizar ‘mujer’ o ‘alrededores’ o ‘alguna universidad de california’ como criterio de recuperación de información, porque conociendo a Google no resulta una expectativa razonable.

     

    Google padece el síndrome del savant o del sabio. Es un idiota con algunas capacidades muy desarrolladas, un idiota inteligente capaz de comparar todos los caracteres de un texto con la secuencia que le proponemos, pero incapaz de entender lo que le solicitamos. En nuestro ejemplo, las categorías ‘documentos escritos por mujeres’ o ‘producidos en una universidad de california’ son difícilmente traducibles a una secuencia de caracteres que ofrezca la perspectiva de un conjunto de resultados aceptable. ¿Por qué no podemos interrogar a nuestro buscador sucesivamente, tal y como hacemos en nuestra vida ordinaria, para resolver problemas que requieren manejar grandes cantidades de información? Nuestro cerebro no está diseñado para manejar enormes cantidades de información, sino relativamente poca pero significativa; por eso nuestra razón produce como resultado de nuestras indagaciones largas listas ordenadas por relevancia, sino que opera estableciendo sucesivas condiciones o restricciones crecientes que nos conducen a un resultado o a unos pocos cuyo valor relativo pueda establecerse de un sólo golpe de vista. En una partida de ajedrez, nadie en su sano juicio consideraría una estrategia razonable el ordenar en una lista en función de sus posibilidades de conducir a la victoria, todas las posibles jugadas vinculadas con una posición dada de las fichas. Obviamente lo puede hacer Deep Blue, pero los humanos carecen de esa capacidad para computar. A cambio ‘saben lo que quieren’, lo que les permite considerar sólo la información útil para ese fin. 

     

    Contextos de interpretación de la información que pueden ser entendidos por las máquinas

    Los Social Data añaden un contexto explícito de interpretación a cualquier información o documento, por lo que constituyen el elemento social de la dimensión semántica de la web. La semántica de la web se construye según vemos social o colectivamente y esa información es útil porque las personas no son demasiado diferentes. 

    Una ontología concreta expresa un modo de categorizar, modelar o representar nuestro conocimiento con relación a un campo, entidad u objeto determinado. Lo normal es que las ontologías representen las entidades, que en nuestro lenguaje natural son denotadas mediante los nombres propios y comunes, y sus relaciones. Como lo hacemos en un lenguaje que puede ser ‘comprendido’ por las máquinas, éstas pueden entenderse entre sí (interoperar o intercambiar datos con independencia de los formatos de almacenamiento y de las aplicaciones de gestión), pero también ‘entendernos’ e interactuar con nosotros de manera inteligente; también podemos verlo al revés, gracias a las convenciones de la web semántica nosotros podemos conversar con ellas utilizando nuestras capacidades de un modo natural, esto es, podemos razonar con ellas. ¡Esto representa una gran oportunidad para todos, que se añade a las que ofrecía el etiquetado social!

    En la práctica, hay muchas cosas que necesitan conocer los sistemas, especialmente en el contexto de una red social, para poder comunicarse con sentido con las personas y para que interoperen con otros sistemas. Para que esto sea realmente posible,  precisamos que todos ellos hablen con las mismas palabras, esto es, que utilicen las mismas ontologías. A estas ontologías sobre las que existe un acuerdo (que puede ser universal, muy amplio o...menos amplio) las denominamos vocabularios. Algunos vocabularios de carácter muy general resultan especialmente importantes. Dado que los sistemas funcionan sobre la base de documentos digitalizados y descripciones de personas, las ontologías que representan nuestra idea general de lo que es un recurso o documento digital, las que modelan la descripción de una persona y aquellas que describen un sistema de categorías o tesauro resultan especialmente importantes porque permiten conectar a la mayor parte de las entidades que existen en la webEllas representan del modo más inclusivo a casi cualquier contenido que puede encontrarse en internet y por ello hacen que las máquinas y los sistemas puedan interoperar entre sí con pocas restricciones.

    La web semántica puede definirse como el conjunto de convenciones que hace posible estructurar los datos contenidos en los distintos formatos de documentos (que generalmente están desestructurados, lo que en realidad significa que no pueden interpretarlos las máquinas), con el fin de que tanto las máquinas como las personas puedan interactuar (interoperar) entre sí de un modo más humanizado, intuitivo, eficiente y satisfactorio que lo que sucedía con la web basada en la computación. Es la base para el desarrollo de una web más inteligente y...autoconsciente.

     

    Open Data y Linked Data

    Open Data designa una filosofía y práctica que persigue que determinados datos estén disponibles de forma libre a todo el mundo, sin restricciones de copyright, patentes u otros mecanismos de control. Los datos pueden estar abiertos y, cuando no se utilizan los estándares de la web semántica, no resultar aprovechables por terceros.

    Aún cuando los datos de una determinada aplicación web se expresen de acuerdo con los estándares de la web semántica caben diversas posibilidades:

    • Los datos pueden ser abiertos, pero no estar enlazados
    • Los datos pueden ser enlazados, pero no estar abiertos

    La posibilidad de datos que sean tanto abiertos como enlazados es cada vez más viable, tanto desde el punto de vista tecnológico, como de negocio. La Web Semántica sólo puede funcionar con datos que sean tanto abiertos como enlazados. Nos referimos a esto en un post anterior. En esta entrada, la figura representa el grafo del conjunto de iniciativas y aplicaciones enlazadas que constituyen la Linked Data Web o de la Web de los datos abiertos y enlazados

    Linked Data Web implica una manera de publicar contenidos en la Web que:

    •  favorece la reutilización
    •  reduce la redundancia
    •  maximiza la conectividad (real y potencial)
    •  hace posible el “efecto red” a la hora de añadir valor a los datos

     

    En definitiva:                                                    Linked Data = Open Data + Open Standars

     

    La web semántica tiene ya un tamaño considerable, que irá aumentando a medida en la que se vayan estructurando los datos de más espacios de la web (a la par que se crean espacios con los datos ya estructurados). Los datos estructurados permiten estrategias de búsqueda que en lugar de ordenar una lista de posibles soluciones en función de la relevancia (en lugar de obligar a los humanos a entender la lógica de las máquinas), permite ir razonando hasta localizar el resultado o pequeño número de resultados que responde a las restricciones o condiciones del razonamiento. En definitiva, permiten las búsquedas basadas en el razonamiento o búsquedas facetadas.

    Por otro lado, la web semántica posibilita ofrecer como resultado de una determinada búsqueda el conjunto de contextos relacionados con ella, como por ejemplo personas relacionadas, documentos relacionados, imágenes relacionas, etiquetas o metadatos relacionados, etc…Esto posibilita el poder desarrollar y evolucionar las búsquedas desde la perspectiva humana de la exploración.

    En resumen, Linked Data Web sería:

    •          Base de datos global
    •          Diseñada para que las máquinas ‘hablen’ y ‘piensen’ al modo humano·        
    •          Los objetos que maneja y conecta representan cosas (como personas, películas, imágenes, libros, plantas, etc…, esto es, cualquier cosa que podamos representar mediante una ontología) y no, como ocurre en la web HTML, documentos (páginas web)
    •          Los enlaces representan relaciones entre entidades o 'cosas'
    •          Para ello se precisa de un alto grado de estructuración en las descripciones de esas entidades
    •          Es preciso, por tanto, que la semántica de las cosas sea explícita

    Las tecnologías o estándares asociados con su desarrollo serían: URIs, HTTP, RDF, RDFS/OWL

     

    El siguiente grafo muestra el conjunto de iniciativas que forman parte de la web semántica y sus diferentes grados de interacción

     

     

     

    Imagen: linkeddata.org

     

    www.gnoss.com es un sistema de redes sociales enlazadas cuya ontología se expresa de acuerdo con los estándares de la web semántica. gnoss.com, además de ser un espacio Open Data, es un espacio de Linked Data, esto es, sus datos son enlazables, interpretables y expresables desde cualquier web que trabaje dentro de los estándares de la web semántica. Pero la web semántica son, en el fondo, social data pues la semántica expresa siempre un acuerdo formal o informal entre personas: no hay posibilidades de entendernos sin una idea común acerca del significado de las palabras. Esta semántica se va construyendo, es un ‘work in progress’ que se puede expresar de diferentes modo, pero que finalmente, dentro de la lógica evolutiva de la web semántica, tiende a concretarse en vocabularios estándar. Estos estándares son los que en el corto y medio plazo se irán imponiendo para resolver los profundos problemas de aislamiento a los que nos somete el no hacerlo así. Los sistemas de salud, las administraciones públicas y las grandes corporaciones están asumiendo la necesidad de trabajar con ellos si quieren aprovechar el potencial de sus sistemas y de la relación entre ellos y las personas. Poco a poco lo irán haciendo el resto de las empresas y personas. 

     

    ENGLISH VERSION/ TEXTO EN ESPAÑOL 

     

    The general process of reality digitalization of is creating a layer of representation of all things and people, but also of their relationships, and this is particularly important. For example, ‘Juan Rulfo’ and, let’s say, ‘The Burning Plain and Other Stories’ are linked by the fact that the first one is the author of the second one. This is expressed by the proposition: “Juan Rulfo is the author of The Burning Plain”. As we shall see, the semantic Web enables compute (deduce, reason, search...) with proposals of this kind, which offers great possibilities. When you have the data and their relationships organized according to semantic web languages (I have spoken about them in My data in the hands of others? Advantages of expressing content with semantic web standards), we say that “data are structured”. Unfortunately, most web data are not expressed in that way. However, they are structured too, but not in the way that the machines understand. Much of the work involves specifically converting our HTML, doc, etc. documents into structured data. In any case and to a large extend, we are organizing all our data in a useful way for people thanks to social networks. In fact, building a smarter web seems the necessary condition to efficiently manage and use the huge and growing amount of data that human activity is generating on the networks. This kind of data which are categorized and organized through the social work on social networks will be called Social Data.

     

    Social Data

    Social Data usually incorporate the perspective of people who edit them, or, depending on their nature, that of a group. This information that adds information to original information is generally known as metadata. Therefore, Social Data are metadata built thanks to social work in the people network. The most common metadata collections on social networks are known by the name of folksonomies, which express a personal view or personal perspective in relation to a particular information or document. Social networks, especially when it comes to professional networks, sometimes include regulatory viewpoints to describe the information: taxonomies or thesauri. The action of assigning a particular metadata to some information or to a document is known as tagging. Social tagging is the primary source of Social Data production.


    Google is too stupid to understand what people need

    Given that human rationality has an intentional or finalist nature, the Social Data provide very important information when retrieving information with a specific purpose or intent. This is the general way in which humans want to retrieve information, but not the way in which systems and search engines solve this problem. For instance, let’s consider our experience of information search and retrieval with Google, the most widespread search engine. As a result of a search, Google shows us a typically long list of potential results sorted according to the relevance it gives to each of them. At first, that would not be a bad option, but unfortunately that’s all we can do with Google: we cannot ask a second question related to the first one. Imagine that  you would like to know what’s on ‘semantic search engine using natural language processing, and also fuzzy logic, written by women in 2008 in any university in California or in San Francisco and surroundings’. We can try entering into the search bar: "search+engine+semantic+processing+of+natural+language+fuzzy+logic+san+Francisco+2008". But almost anyone can imagine that the result might be rather surprising. In any case, no one would use ‘woman’ or ‘surroundings’ or ‘any university of california’ as a criterion for information retrieval, because it is not a reasonable expectation when you know Google.

    Google has the savant syndrome. It’s an idiot with some highly developed skills, an intelligent fool that can compare all the characters in a text with the sequence that we are proposing, but unable to understand what we are asking. In our example, the categories ‘documents written by women’ or ‘produced in any university of california’ are difficult to translate into a sequence of characters that offers the prospect of an acceptable result set. Why can’t we query our search engine successively, as we do in our ordinary life, to solve problems that require handling large amounts of information?

    Our brain is not designed to handle huge amounts of information, but relatively small, but significant. That’s why our reason doesn’t produce long lists sorted by relevance as a result from our inquiries, but it operates establishing successive conditions or restrictions that lead to one result or to a few ones of which relative value can be established at a glance. In a game of chess, nobody in his right mind would consider as a reasonable strategy ordering in a list, according to their ability to lead to victory, all the possible moves associated with a given position of the chess pieces. Obviously, Deep Blue can do it, but humans lack the ability to compute. In turn, they ‘know what they want’, what allows them to consider only the relevant information for their purpose.

     

    Contexts of information interpretation that can be understood by machines

    Social Data add an explicit context of interpretation to any information or document, so they are the social element of the semantic dimension of the web. The Semantic Web is built according to social or collectively perspective and that information is useful because people are not too different.

    A specific ontology expresses a way of categorizing, modeling or representing our knowledge in relation to a determined field, entity or object. Ontologies normally represent the entities, which in our natural language are denoted by proper and common names, and their relationships. As we do it in language which can be ‘understood’ by the machines, these ones can understand each other (interoperate or interchange data regardless of storage formats and management applications), but also ‘understand’ us and interact with us intelligently. We can also see the opposite: thanks to the conventions of the Semantic Web, we can talk with them using our skills in a natural way, that is, we can reason with them. This represents a great opportunity for all, in addition to those offered by the social tagging!

    In practice, there are many things systems need to know, especially in the context of a social network, to communicate meaningfully with people and to interoperate with other systems. For this to be really possible, they all must speak the same words, that is, using the same ontologies. These ontologies for which there is an agreement (which may be universal, broad or… narrower) are called vocabularies. Some very general vocabularies are particularly important. As the systems operate on the basis of digital documents and descriptions of people, the following ontologies related to them are specially important because they allow you to connect most of the entities that exist on the web: a) ontologies that represent our general idea about a resource or a digital document, b) the ones that shape the description of a person and c) those that describe a system of categories or thesaurus. They represent the most inclusive way to almost any content that can be found on the Internet. Thus, they make the machines and systems to interoperate with each other with few restrictions.

    The Semantic Web can be defined as the set of conventions that makes it possible to structure the data in different document formats (which are usually unstructured, what actually means that machines can’t interpret them), so that both machines and people can interact (interoperate) with each other in a more humane, intuitive, efficient and satisfying way than what happened with the computer-based web. This is the basis for the development of a more intelligent and… self-aware web.

     

    Open Data and Linked Data

    Open Data means a philosophy and practice that pursues that certain data are freely available to everyone without restrictions of copyright, patents or other control mechanisms. Data can be open but not usable by others, when semantic web standards aren’t used.

    Even when data from a particular web application are expressed in accordance with the standards of the Semantic Web, there are several possibilities:

    • Data can be open, but not be linked
    • Data can be linked, but not be open

     The possibility of data being both open and linked is increasingly viable, both from a technological and business standpoint. The Semantic Web can only work with data that are both open and linked. I referred to this in a previous post. The below figure represents the graph of all the linked initiatives and applications which form the Linked Data Web.

    Linked Data Web involves a way to publish content on the Web that:

    • promotes reuse
    • reduces redundancy
    • maximizes connectivity (real and potential)
    • makes possible the ‘network effect’ when it comes to adding value to data

    In short:  Linked Data = Open Data + Open Standars

    The Semantic Web has already a considerable size, which will increase as data from more web sites get structured (at the same time that spaces with already structured data are being created). Structured data allow search strategies to reason until they reach the result or small number of results according to restrictions or conditions of reasoning, instead of ordering a list of possible solutions depending on the relevance (rather than forcing humans to understand the logic of the machines). In short, they allow searches based on the reasoning or faceted search.

    On the other hand, the semantic web enables to offer as a result of a particular search a context set associated with it, such as related people, documents, images, tags or metadata, etc... This makes it possible to develop and evolve search from the human exploration perspective.

    To sum up, Linked Data Web would be:

    • Global database
    • Disigned for machines to ‘talk’ and ‘think’ the human way.
    • Objects that it manages and connects represent things (like people, movies, images, books, plants, etc…, that is, anything that can be represented by an ontology), but not documents (web pages) as it occurred in the HTML web
    • Links represent relations between entities or ‘things’.
    • This requires a high degree of structure in the descriptions of these entities.
    • Therefore, it is necessary that the semantics of things is explicit.

    Technologies or standards associated with its development would be: URIs, HTTP, RDF, RDFS/OWL

    The following graph shows the set of initiatives that are part of the semantic web and their different degrees of interaction

     

    Image: linkeddata.org
     

     www.gnoss.com is a system of linked social networks whose ontology is expressed in accordance with the standards of the semantic web. gnoss.com, besides being an Open Data space, is a Linked Data space, that is, its data can be linked, interpreted and expressed by any site that works within the standards of the semantic web. But the semantic web is in the background, social data, since the semantics expresses always a formal or informal agreement between people: there is no chance of understanding without a common idea of the meaning of words. This semantics is being built, is a work in progress which can be expressed in different ways, but finally tends to be translated into standard vocabularies, within the evolutionary logic of the Semantic Web. Those standards are the ones that will go imposing in the short and medium term to solve the deep problems of isolation generated when not doing it so. Health systems, public administrations and large corporations are taking the need to work with them if they want to exploit the potential of their systems and the relationship between them and people. The rest of the companies and individuals will be doing it little by little.

     

     

     

    ...