Recuperación de información: 2009-11-01

Keith van Rijsbergen... Base teórica de los sistemas de recuperación de información.

Desde 1969, Rijsbergen lleva investigando la base teórica de los sistemas de recuperación de información, dotándola de sólidos principios. Definió la diferencia entre Recuperación de datos y Recuperación de información distinguiendo la primera como un proceso de obtención de datos exactos y concretos, y la segunda como un proceso basado en una inferencia inductiva; es decir, buscar fechas o nombres es recuperación de datos, mientras que buscar temas sería recuperación de información.
Durante la década de los 70 y principio de los 80, ideó las técnicas de cluster, también llamadas clasificicacion automática. Son técnicas estadísticas multivariantes que se utilizan para hacer agrupaciones de objetos similares en un espacio multidimensional. Las similaridades pueden ser calculadas entre pares de documentos, basándose en el número de descriptores que tienen en común. La aplicacion en una BD documental dará como resultado el agrupamiento de documentos que tengan un gran número de términos en común.
Estás técnicas también son aplicadas a descriptores, cuyas similitudes nos permiten identificar relaciones semánticas entre términos. Este método resulta muy útil para construir tesauros Las técnicas de cluster se apoyan en los algoritmos de indizacion ponderada que ya diseñó Karen. Esta indización automatizada considera mediante conclusiones estadísticas, qué términos representan mejor los contenidos de un documento. Esto daría fin al dilema conocido como conflicto de Rijsbergen: cuanto más términos del documento estén disponibles para la equiparación, más fácil el documentos será equipado en una búsqueda, pero más difícil distinguirlo de otros documentos.

Rijsbergen planteó además dos hipótesis:
Hipótesis de cluster: donde definía qué documentos similares tienden a ser relevantes para las mismas preguntas, y por tanto, ser útil para agrupar documentos relevantes para un petición concreta. Esta aplicación permitiría realizar búsquedas de alta precisión en una base de datos documental previamente clasificada.

Hipótesis de asociación: donde dice que un término de indización es bueno para discriminar documentos relevantes de aquellos que no lo son, cualquier término de indización estrechamente relacionado con ese es, probablamente, tan bueno como ese.
El uso de estas técnias fue empleado dentro del modelo probabilistico formación, en redes de inferencia y en técnicas de retroalimentacion por relevancia.

A mediados de los 80, comenzó a abordar la investigación a través de los modelos cognitivos de recuperación de información. Esto modelos otorgan al usuario una importancia mayor al tener en cuenta tanto la formación del usuario como a la naturaleza y propiedades de sus búsquedas. Rijsbergen utilizó el principio de incertidumbre lógica al considerar que una colección documental no es, en su conjunto, ni completa y coherente para los usuarios, llegando incluso a haber elementos contradictorios entre sí. Propuso un paradigma nuevo donde el proceso de recuperación sea considerado como un proceso de inferencia incierta, y las consultas y los documentos puedan ser representados como declaraciones lógica-probabilísticas.

Tomado de [http://es.wikipedia.org/wiki/Keith_van_Rijsbergen; 12/10/09 ]

DESARROLLO DE UN ESTÁNDAR FORMAL

Dublin Core

El modelo de metadatos Dublin Core (DC) o DCMI, es un esfuerzo internacional e interdisciplinar abocado a definir el conjunto de elementos básicos para describir los recursos electrónicos y facilitar su recuperación. El DC, surgido en 1995 en el seno de OCLC, es hoy un esquema maduro de metainformación cuyo conjunto de elementos se ha formalizado como norma ANSI/NISO Z39.85-2001.

La Iniciativa de Metadatos Dublin Core, simplemente Dublin Core o DC, es actualmente el modelo de metadatos más aceptado para describir, recuperar e intercambiar información electrónica, independientemente del dominio científico o disciplinar.

En sus orígenes surge como un modelo de metadatos dirigido a la descripción embebida en el código HTML por parte de los autores de los recursos, para una recuperación más eficaz y cualificada en motores y otras herramientas de búsqueda Web, liderando el desarrollo de metadatos estructurales para la recuperación de información en Internet.

Con el tiempo, el Dublin Core ha ido evolucionando hacia un formato de registro para el intercambio de información y a un estándar básico para la interoperabilidad entre repositorios de información científica, sobre todo gracias a la integración del DC con el protocolo OAI-PMH, pero también la versatilidad del esquema y al nivel de estandarización formal que ha adquirido.

ÓPERADORES BOOLEANOS PARA BUSCADORES

Usar los operadores de búsqueda :

Un operador de búsqueda es una instrucción que combina varias palabras clave para formar una cadena de búsqueda más precisa. Esto te permite buscar varias palabras a la vez indicando a Orange Desktop Search cómo deseas combinarlas. Los operadores más comunes son los tres operadores booleanos (Y/+, O y NO/-), que permiten la inclusión o exclusión de documentos de los resultados de la búsqueda.
Para crear cadenas de búsqueda también se pueden utilizar las comillas (para frases exactas) y los paréntesis. Se puede personalizar el programa para que siempre busque palabras enteras. Para ello, activa la casilla Buscar sólo palabras enteras en la pestaña Avanzadas de la ventana Opciones.

describimos los prinicipales booleanos:

& : El operador Y se utiliza para buscar los documentos que contengan todos los términos ligados por este operador. Es decir, si hay 4 palabras claves unidas por Y en una búsqueda, sólo aparecerán los documentos que contengan cada una de estas palabras. En cambio, se omitirán los documentos que contengan 3 ó menos de estas palabras. El operador Y permite refinar las búsquedas. Wanadoo Desktop Search utiliza por defecto dicho operador.
Conviene no utilizar más de lo debido el operador Y, ya que una búsqueda demasiado restringida puede omitir resultados válidos.

o: El operador O se utiliza para buscar los documentos que contengan al menos uno de los términos ligados por este operador. Este operador permite ampliar la búsqueda incluyendo sinónimos o términos relacionados

NO: Este operador se usa para omitir los documentos que contengan determinadas palabras. El operador NO permite refinar las búsquedas. Conviene evitar abusar del operador NO, ya que si se restringe demasiado la búsqueda se pueden omitir documentos válidos.

Comillas: Encuentra los documentos que contengan la palabra o frase exacta que se especifique.
Si la palabra que buscas debe considerarse una palabra entera, escríbela entre comillas (p. ej. "lago"). Este operador se utiliza para excluir palabras similares o derivadas. Los documentos deberán contener la palabra entera que se indique. Las comillas también se pueden usar para buscar una expresión exacta (p.ej. "Marie Curie", "El Señor de los Anillos").

HTTrack

HTTrack es una aplicacion informatica libre con licencia GPL multilenguaje y multiplataforma cuyo fin es la captura web, es decir la descarga a una PC, de todo o parte de un sitiop web, para posteriormente poder navegar por él fuera de linea. Su versión para GNU/LINUX se llama WebHTTrack, y su versión para winwos HTTack
METODOLOGIA DE INTALACION

El programa es sencillo de utilizar. En la ventana de HTTrack, pulsa el botón "Siguiente". La pantalla siguiente te permite poner un nombre al proyecto (la descarga) y decidir dónde se guardará la copia. A continuación, pulsa el botón "Siguiente".
Pulsa el botón "Añadir" para indicar la URL desde la que quieres empezar la descarga.
Pulsa el botón "Definir las opciones" para definir la descarga. Lo más importante es que limites la profundidad de exploración en la pestaña "Límites". La imagen siguiente muestra como se ha limitado la profundidad a dos niveles internos y a 0 externos.
El paso siguiente te pide confirmar la descarga. Pulsa el botón "Finaliza

El resultado obtenido no es el mismo con todos los programas. Algunos programas son capaces de reproducir mejor la estructura del sitio web deseado, o son capaces de descargar un mayor número de tipos de archivos, o son capaces de interpretar mejor todos los tipos de enlaces.

Tomado de [http://www.mclibre.org/consultar/internet/otros/httrack_guardarsitios.html] el dia 27/10/09

Recuperación de información

lunes, 2 de noviembre de 2009

Keith van Rijsbergen... Base teórica de los sistemas de recuperación de información.

DESARROLLO DE UN ESTÁNDAR FORMAL

ÓPERADORES BOOLEANOS PARA BUSCADORES

HTTrack

Mi lista de blogs