

Desde 1969, Rijsbergen lleva investigando la base teórica de los sistemas de recuperación de información, dotándola de sólidos principios. Definió la diferencia entre Recuperación de datos y Recuperación de información distinguiendo la primera como un proceso de obtención de datos exactos y concretos, y la segunda como un proceso basado en una inferencia inductiva; es decir, buscar fechas o nombres es recuperación de datos, mientras que buscar temas sería recuperación de información.
Durante la década de los 70 y principio de los 80, ideó las técnicas de cluster, también llamadas clasificicacion automática. Son técnicas estadísticas multivariantes que se utilizan para hacer agrupaciones de objetos similares en un espacio multidimensional. Las similaridades pueden ser calculadas entre pares de documentos, basándose en el número de descriptores que tienen en común. La aplicacion en una BD documental dará como resultado el agrupamiento de documentos que tengan un gran número de términos en común.
Estás técnicas también son aplicadas a descriptores, cuyas similitudes nos permiten identificar relaciones semánticas entre términos. Este método resulta muy útil para construir tesauros Las técnicas de cluster se apoyan en los algoritmos de indizacion ponderada que ya diseñó Karen. Esta indización automatizada considera mediante conclusiones estadísticas, qué términos representan mejor los contenidos de un documento. Esto daría fin al dilema conocido como conflicto de Rijsbergen: cuanto más términos del documento estén disponibles para la equiparación, más fácil el documentos será equipado en una búsqueda, pero más difícil distinguirlo de otros documentos.
Rijsbergen planteó además dos hipótesis:
Hipótesis de cluster: donde definía qué documentos similares tienden a ser relevantes para las mismas preguntas, y por tanto, ser útil para agrupar documentos relevantes para un petición concreta. Esta aplicación permitiría realizar búsquedas de alta precisión en una base de datos documental previamente clasificada.
Hipótesis de asociación: donde dice que un término de indización es bueno para discriminar documentos relevantes de aquellos que no lo son, cualquier término de indización estrechamente relacionado con ese es, probablamente, tan bueno como ese.
El uso de estas técnias fue empleado dentro del modelo probabilistico formación, en redes de inferencia y en técnicas de retroalimentacion por relevancia.
A mediados de los 80, comenzó a abordar la investigación a través de los modelos cognitivos de recuperación de información. Esto modelos otorgan al usuario una importancia mayor al tener en cuenta tanto la formación del usuario como a la naturaleza y propiedades de sus búsquedas. Rijsbergen utilizó el principio de incertidumbre lógica al considerar que una colección documental no es, en su conjunto, ni completa y coherente para los usuarios, llegando incluso a haber elementos contradictorios entre sí. Propuso un paradigma nuevo donde el proceso de recuperación sea considerado como un proceso de inferencia incierta, y las consultas y los documentos puedan ser representados como declaraciones lógica-probabilísticas.