Sobrecarga de Información

Javier Martín (Loogic), publicaba hoy un interesante post que titulaba como “Intoxicación Informativa“, en el que trata, desde una perspectiva distinta, un tema muy manido en la Recuperación de Información y campos aledaños durante años: la Sobrecarga de Información. En el post (más que recomendable), trata temas como el exceso de información, la relevancia, buscadores especializados, recomendaciones, etc.

La Sobrecarga de Información es un concepto que popularizó Alvin Toffler, y cuyas referencias se remontan a los años 60, donde apareció en libros como el “The Managing of Organizations” de Bertram Gross. Según el propio Toffler, el exceso de información sobre un tema, genera dificultades para comprenderlo, así como para tomar decisiones a partir de los datos obtenidos, por lo que el exceso de información puede ser tan dañino como la escasez de información sobre un tema. Si bien en los años 60, este exceso de información se refería más bien a información gestionada dentro de las empresas (de aquella, “papeles”), con el desarrollo de todas las tecnologías dentro de las TIC, este exceso de información ha ido creciendo de forma exponencial a lo largo del tiempo y ha motivado una gran cantidad de líneas de investigación en torno a la recuperación de información, sistemas de recomendación, personalización y adaptación, o gestión del conocimiento, aplicadas a un diversísimo campo de aplicación: Web, bibliotecas digitales, sistemas de gestión de información empresarial, biomedicina, etc.

Si bien el caso de la Web es un caso donde todos nosotros tenemos claro el exceso de información disponible, esta sobrecarga de información es incluso más dañina en algunos dominios concretos. Por poner datos de un dominio concreto, allá por el 2008 estábamos trabajando en un buscador semántico para el dominio biomédico, capaz de ofrecer documentos científicos relacionados con el historial de un paciente. Para ello, contábamos con una gran base de datos de historiales de pacientes anonimizados ofrecidos por el Hospital de Fuenlabrada (entidad con la que colaborábamos en el proyecto, ISSE: Interoperabilidad Sanitaria basada en la SEmántica), y utilizábamos Medline como base de datos de documentos científicos (más información en las referencias [1], [2] y [3]). Medline es la base de datos bibliográfica más grande dentro del dominio biomédico, que ya en el 2007 incluía más de 16 millones de referencias, con un incremento diario entre 2.000 y 4.000 referencias y más de 670.000 referencias nuevas añadidas únicamente en el 2007. Si bien la cantidad de información gestionada por Medline no parece nada comparada con los miles de millones de páginas webs indexadas por buscadores como Google, los efectos de no saber gestionar de forma adecuada la información son muy distintos. Cuando buscamos en la Web, lo normal es que la respuesta a nuestras necesidades de información se encuentre en muchas páginas distintas, y muchas de ellas nos puedan servir (en mayor o menor medida), sin embargo, cuando un médico busca un artículo científico relacionado con el historial de un paciente, puede que la información que necesita para salvar la vida de un paciente solo se encuentre en uno o en pocos artículos, y el tiempo juega un papel vital para poder salvar al paciente, por lo que no se le puede ofrecer al médico demasiados artículos, sobre todo teniendo en cuenta que el tiempo necesario para comprender un artículo científico es mucho mayor que el tiempo necesario para revisar una página web.  En este tipo de dominios es donde temas como la Sobrecarga de Información se muestran en su estado más puro, y sus consecuencias son bastante más dolorosas.

La Sobrecarga de Información nos afecta de distintas maneras

La sobrecarga de información no deja de tener un punto psicológico, ya que parece afectar más a algunos usuarios que a otros. En [4] se analiza el por qué la sobrecarga de información afecta más a unos que a otros, remontándose a aspectos competenciales (aptitud, capacidad de selección, capacidad de decisión, etc.), así como a causas típicas de esta sobrecarga (e-mails ambiguos, avalanchas de e-mails, etc.), y una serie de buenas prácticas para ayudarnos a lidiar con la sobrecarga de información.Algunas de las buenas prácticas mencionadas en el artículo tienen mucha relación con algunas técnicas de gestión del tiempo, como GTD, por lo que seguir alguna metodología de trabajo, o buenas prácticas para la gestión del tiempo. Sin embargo, el problema sigue estando ahí, podemos gestionar mejor nuestro tiempo y recursos, pero existen demandas de información que no podemos resolver con una mejor auto-gestión. El caso que comentaba anteriormente del campo biomédico es un ejemplo claro, donde la sobrecarga de información viene dada por una necesidad de información básica que hay que cubrir.

¿Qué podemos utilizar contra la Sobrecarga de Información?

Javier Martín comentaba algunas de las tecnologías relacionadas con la Sobrecarga de Información, como son mejoras en los sistemas de búsqueda, recomendación de contenidos y personalización. La cantidad de trabajos e investigaciones realizadas en estas áreas con respecto a la sobrecarga de información en los últimos años es realmente abrumadora, pero mi idea es ofrecer un resumen de cómo se pueden aplicar estas tecnologías, así como un par de referencias básicas para cada caso. Voy a centrarme en 2 tipos de tecnologías, las basadas en recuperación de información, que son tecnologías más “activas” por parte del usuario (el usuario pide explícitamente una necesidad de información), y las tecnologías de recomendación y personalización, que son tecnologías más “pasivas” ya que no necesitan de una necesidad concreta de información y son útiles para personalizar la experiencia de usuario o la información que le mostramos en función de su perfil de usuario (intereses).

  • Recuperación de Información. Los motores de búsqueda como Google han sido un elemento crítico para ser capaces de lidiar con la sobrecarga de información, especialmente en el entorno de la Web. Sin embargo, y a pesar de las modificaciones que han ido sufriendo a lo largo del tiempo, su tecnología se remonta a hace más de una década, y desde entonces no han sido capaces de adaptarse de forma efectiva y eficiente a los cambios que hemos sufrido en cuanto a la generación de información, y ahora mismo estamos viviendo un periodo de transición del cuál surgirán nuevas tecnologías que sean capaces de adaptar los motores de búsqueda al contexto actual. En el último año ya hemos vivido el comienzo de una de las posibles adaptaciones de los buscadores, con la denominada “lucha por la búsqueda en tiempo real“, pero este no es el único elemento que puede transformar la búsqueda en la web. Por un lado, es evidente que uno de los fallos de los buscadores es que ante las mismas consultas tienden a responder con los mismos resultados, sin importarles ni el perfil del usuario ni el contexto. Si bien en Google ya han aparecido algunos elementos de personalización, en los próximos años es probable que veamos una mayor personalización que no esté unicamente basada en reforzar el peso de las páginas que ya ha visitado el usuario; de hecho algunos trabajos como [5] ya han introducido la integración de la modelización de los usuarios con la recuperación de información. Por otro lado, estoy seguro que el futuro de los motores de búsqueda pasa en mayor o menor medida por la búsqueda social, que presenta dos formas muy distintas, una con el enfoque de Aardvark (consultas a expertos) y otra más centrada en el grafo social de los usuarios [6].
  • Recomendación y Personalización. Las tecnologías de recomendación y personalización son tecnologías más “pasivas”, porque a priori no necesitan de una necesidad de información dada por el usuario, aunque pueden integrarse con las tecnologías de recuperación de información para personalizar los resultados de una búsqueda. Una excelente lectura introductoria para el campo de la personalización y la recomendación es el libro “The Adaptive Web: Methods and Strategies of Web Personalization” [7]. Si bien este tipo de tecnologías han demostrado ser de gran utilidad en entornos como el comercio electrónico (basta con ver el uso extensivo que hace Amazon de su motor de recomendaciones), todavía no están presentes en gran parte de la Web. En una web totalmente personalizada, cuando entráramos en nuestro periódico online preferido, veríamos solo las noticias que nos interesaran, cuando fuéramos a nuestro agregador de feeds, ya habría seleccionado por nosotros las noticias más interesantes, y cuando entráramos en cualquier tienda de comercio electrónico, veríamos los artículos que más nos interesaran sin necesidad de haber visto ningún artículo en esa tienda. En la recomendación y personalización, también juega un papel muy importante el tema de lo “social”, ya que por un lado las redes sociales existentes ya contienen tus intereses y estos podrían ser utilizados para ayudar a otros sitios a personalizar los contenidos (algo parecido hicieron el New York Times junto con LinkedIn, y con el anuncio de Facebook de “revender” datos de sus usuarios, seguramente algunos sitios puedan aprovechar esa información para personalizar la experiencia de los usuarios), y también pueden ayudar a ofrecer explicaciones de las recomendaciones a los usuarios basandose en sus propios intereses y los de su círculo de amigos. Frankie hace poco comentaba en más profundidad los atributos de un sistema de recomendación, por lo que si estáis interesados os recomiendo la lectura de su post.

Hay un elemento que también va a ser un elemento muy importante y resulta transversal a los dos tipos de tecnologías que he comentado, y es el tema del contexto. Quizás no es algo para ser explotado a corto plazo, pero seguramente a medio plazo ya veamos sistemas capaces de determinar el contexto en el que se encuentra el usuario, y adaptar los resultados a sus necesidades de ese momento. El contexto determina ya no los intereses globales del usuario, si no elementos más “del momento”, como si está buscando información en la oficina o en casa, si está solo o acompañado, si busca un regalo para él o para un amigo, y permitirá mejorar la experiencia de los usuarios. Esto tiene que ver con un elemento que resulta algo molesto en un sistema que de por si es muy bueno, como Amazon. Cuando buscas a fondo un regalo para un amigo, acabas “ensuciando” tu perfil de usuario y durante un tiempo Amazon seguirá recomendándote cosas que deberían ser para tu amigo, y no para ti. Hasta el momento ya se han obtenido algunos resultados utilizando distintos contextos, pero todavía queda mucho trabajo para ser capaces de determinar con exactitud el contexto del usuario y adaptar los procesos de búsqueda, recomendación y personalización al contexto actual.

En conclusión, estamos en un momento en el que la tecnología ya ofrece soluciones para no estar viviendo una sobrecarga de información tan aplastante, pero esta tecnología todavía no está siendo explotada. Teniendo en cuenta el estado de la tecnología, y el crecimiento de las redes sociales, seguramente en los próximos 3 años, veremos como, al menos algunas de las redes sociales más importantes, se posicionan ya no solo como grandes gestionadores de información de los usuarios, si no también como proveedores de experiencias personalizadas. Esto podría convertirse en un excelente modelo de negocio para empresas como Twitter, que tienen información de sobra para conocer a la perfección a sus usuarios, pero que están faltos de idea para monetizar su plataforma.

[1] F. M. Carrero, J. C. Cortizo Pérez, J. M. Gómez Hidalgo, “Testing Concept Indexing in Crosslingual Medical Text Classification“. Third IEEE International Conference on Digital Information Management (ICDIM), November 13-16, 2008, London, UK, ISBN 978-1-4244-2917-2, pp. 512-519. [DOI] [preprint]

[2] F. M. Carrero, J. C. Cortizo Pérez, J. M. Gómez Hidalgo, “Building a Spanish MMTx by using Automatic Translation and Biomedical Ontologies“. Intelligent Data Engineering and Automated Learning – IDEAL 2008, 9th International Conference, Daejeon, South Korea, November 2-5, 2008, Proceedings. Lecture Notes in Computer Science 5326 Springer 2008, ISBN 978-3-540-88905-2, pp. 346-353 [DOI] [preprint]

[3] F. M. Carrero, J. C. Cortizo Pérez, J. M. Gómez Hidalgo, M. de Buenaga, “In the Development of a Spanish Metamap“. Proceedings of the 17th ACM Conference on Information and Knowledge Management, CIKM 2008, Napa Valley, California, USA, October 26-30, 2008. ACM 2008, ISBN 978-1-59593-991-3, pp. 1465-1466 [DOI] [preprint]

[4] R. Jansen, H. de Poot, “Information Overload: Why some People Seem to Suffer More than Others“. Proceedings of the 4th Nordic conference on Human-Computer Interaction: Changing Roles, pp. 397-400, 2006 [DOI]

[5] X. Shen, B. Tan, C. Zhai, “Implicit User Modelling for Personalized Search“, Proceedings of the 14th ACM International Conference on Information and Knowledge Management, CIKM 2005, pp. 824-831, 2005 [DOI]

[6] D. Carmel, et al., “Personalized Social Search based on the User’s Social Network“, Proceedings of the 18th ACM Conference on Information and Knowledge Management, CIKM 2009, pp. 1227-1236 [DOI]

[7] P. Brusilovsky, Alfred Kobsa, W. Nejdls (Eds.), “The Adaptive Web“, LNCS 4321, Springer Verlag, 2007 [Google Books]

[Imagen CC por verbeeldingskr8]