Buscador + Clusterizador

El otro día recordé que hace ya mucho tiempo utilicé (aunque ya no recuerdo su nombre) durante un dilatado periodo de tiempo un meta buscador que extraía la información de Google y otros buscadores y la mostraba en forma de un árbol de clusters, agrupando los resultados por similitud. La interfaz era algo rústica y la clusterización no era nada del otro mundo, pero era una forma diferente y más estructurada de navegar por la información.

Buscado este buscador, he encontrado unos cuantos que proporcionan funcionalidades parecidas pero “remasterizados”.

El primero que he probado es Clusty. Clusty muestra la misma funcionalidad del buscador que en su día utilicé, pero con un mejor algoritmo para la clusterización y una interfaz bastante más actual. Realmente es intuitivo, fácil de utilizar y permite buscar en noticias, imágenes, etc.


Buscando algunos más, he encontrado uno que me parece una auténtica gozada. Su nombre es Grokker y realmente han sabido crear algo diferente, tanto en diseño como en funcionalidad. En principio hace lo mismo que Clusty, pero además de representar los clusters en forma de árbol, permite mostrarlos en forma gráfica, como un conjunto de bolas de distinto tamaño:


Dándole vueltas al tema, creo que sería muy interesante integrar algo como esto con técnicas de generación de resúmenes multidocumento, como las presentes en [Maña 2004]. Así, al ponernos encima de un cluster nos podrían salir a la derecha un resumen del cluster basado en similitudes, y al seleccionarlo, saldría una bolita por cada documento, estando más cerca unas de otras aquellas bolitas que representen a documentos más similares. Asimismo, al ponernos encima de un documento, a la derecha saldría un resumen basado en diferencias.

Algo muy chulo para un PFC o, incluso, para un proyecto de I+D. A ver si un día de estos tenemos tiempo para abordarlo.

Referencias:

[Maña 2004] M. J. Maña Lopez, M. de Buenaga, J. M. Gómez Hidalgo, “Multidocument Summarization: An added value to clustering in interactive retrieval“, ACM Transactions on Information Systems (TOIS), Vol. 22, Nº 2, pp. 215-241, 2004.