Recuperación de información: 2009

martes, 17 de noviembre de 2009

Es una aplicación que permite describir y organizar de manera estructurada los datos pertenecientes a un objeto. Por sus características estos sistemas pueden acumular una gran cantidad de información, que posteriormente podrá ser recuperada por cualquier usuario. En este sentido una base de datos se convierte en la base principal de cualquier sistema de recuperación de información. Por otra parte éstas pueden ser dispuestas de tal forma que un investigador que tenga una demanda documental no requiera conocimientos avanzados en programación para poder acceder a lo que puede suplir su necesidad.

Demanda documental

Se considera demanda documental a todas las necesidades de información establecidas por los usuarios, lo que lleva a una solicitud masiva de documentos que permitan satisfacer dicha necesidad.

SGBD

(Sistema de gestión de base de datos) o en inglés Database management system (DBMS), es una agrupación de programas que sirven para definir, construir y manipular una base de datos.

* Definir una base de datos: consiste en especificar los tipos de datos, estructuras y restricciones para los datos que se almacenarán.

* Contruir una base de datos: es el proceso de almacenar los datos sobre algún medio de almacenamiento.

* Manipular una base de datos: incluye funciones como consulta, actualización, etc. de bases de datos.

Si el sistema soporta bases de datos relacionales se llama RDBMS en inglés o SGBDR en español.

TERMINO ESPECIFICO

"Término subordinado a otro más genérico, y que por ello, conlleva un nivel mayor de especificidad. En los tesauros, el término específico se identifica a través de la abreviatura TE en español, o de la abreviatura NT en inglés."

TERMINO DE INDIZACION

"En Indización, cada una de las conceptualizaciones simples, compuestas o complejas que son seleccionadas para representar el contenido de los documentos indizados. El término de indización puede pertenecer al lenguaje natural (o sea, proceder del título, el resumen o el texto de un documento) o de un lenguaje documental (tesauro, lista de autoridades, lista de descriptores, etc.)"

TERMINO DE BUSQUEDA

"En Recuperación de Información, término que expresa una consulta en el lenguaje y formato adecuados para un sistema específico. Estos términos suelen combinarse para formar una ecuación de búsqueda"

TERMINO CANDIDATO

"Noción que aspira a ingresar en forma definitiva a un corpus (tesauro, banco de datos terminológico, lista de autoridades, etc.). El término candidato es aquel que ingresa transitoriamente en una base, a efectos de verificar si por su relevancia y pertinencia puede pasar a la categoría de término."

TERMINO AUTORIZADO

TERMINO

"En Terminología, noción que se compone de un rótulo o etiqueta (la palabra o la expresión que lo representan), y un contenido conceptual, construído mediante la enumeración de enunciados esenciales y propios de ese concepto."

TAXONOMIA

"Rama de la Clasificación de las Ciencias que se ocupa de establecer los principios y el desarrollo de las clasificaciones en distintas disciplinas vinculadas a las ciencias naturales, como ser la biología, la botánica y la zoología."

para más información: http://www.eubca.edu.uy/diccionario/letra_t.htm

documento digital

TESAURO

"Tipo de lenguaje documental que se integra con términos analizados y normalizados que guardan entre sí relaciones semánticas y funcionales. El tesauro se organiza bajo fuerte control terminológico, con objeto de proporcionar un instrumento idóneo para el almacenamiento y la recuperación de la información en áreas especializadas. Puede ser monolingüe, monolingüe con equivalencias o multilingüe, conforme a la cobertura idiomática que proponga. En ciertos casos, agrega una notación."

WilsonWEB

WilsonWEB

Es un proveedor con una amplia gama de bases de datos que cubren una gran cantidad de temas. Esta base de datos maneja registros de documentos y entrega en la mayoría de sus resultados el texto completo de los documentos en ellos descritos. Pero no solamente muestra documentos en texto completo, de la misma forma presenta índices temáticos.

Entonces se tienen bases de datos de texto completo en los siguientes áreas del conocimiento:
 Ciencia Aplicada y Tecnología
 Ensayo y Literatura
 Ciencias
 Humanidades
 Ciencias Sociales
 Biblioteca de Literatura y Ciencias de la Información

E índices para los siguientes temas:
 Biológica y Agrícola
 Educación
 Revistas y Libros Jurídicos
 Cuentos, entre otros

Así mismo brinda a los usuarios la posibilidad de hacer búsquedas básicas, por medio de las cuales se pueden usar términos simples; búsquedas avanzadas, para aquellos usuarios que quieren puntualizar los términos que desea encontrar; Thesauro, sirve para apoyar la búsqueda mediante la presentación de aquellos términos similares (sinónimos), relacionados o prerreferidos, del tema de investigación; Historial de búsquedas donde el usuario puede hacer un registro histórico de sus consultas; impresión en Email de los resultados, y exporting / citing sirve para exportar las citas de los documentos consultados o guardados en el historial, ya sea a un archivo, correo o impresora.

Esta base de datos permite hacer búsquedas tanto por palabras claves o por ecuaciones de consulta, por ejemplo:

Una consulta que en el título tenga las siguientes palabras:

 Serching o search
 Retrieval o retrievals
 Information o informations
 Document o documents
 Record o records
 System o systems

Pero no solo es que contenga estas palabras por que en ese caso nos entregaría un resultado muy amplio, lo importante es que todas se encuentren dentro del campo título, por consiguiente se podrá hacer una búsqueda como la siguiente:

TI and TI and TI

Y en caso de que no se conozcan bien los términos de búsqueda se puede utilizar el asterisco (*)

Esta base de datos de texto completo hace uso de formatos como el PDF y HTML para entregar a los usuarios los textos que describe.

EBSCO LISTA

Library, Information Science & Technology Abstracts with Full Text, es una base de datos que ofrece un índice de más de 500 publicaciones centrales, más de 50 publicaciones de prioridad y 125 publicaciones selectivas, además de libros, informes de investigación y actas. También contiene textos completos de más de 240 publicaciones. El contenido de esta base de datos se remonta a mediados de la década de 1960, dicho contenido se encuentra en varios idiomas, sin embargo la mayoría está en idioma inglés y otra parte en español.

EBSCO LISTA, es una de las bases de datos de gran soporte para la formación de Profesionales de información (bibliotecólogos y archivistas), ya que abarca una gran variedad de temas de interés.

Los formatos de archivo que utiliza para sus documentos son: PDF, HTML y JPEG, permite la generar copias del contenido y descargar los archivos PDF y JPEG. Además permite crear carpetas de búsqueda personalizada, en donde se seleccionan y adicionan los documentos que se consideren relevantes.

Para formular búsquedas, la interfaz de esta base de datos es muy grafica y muy intuitiva para el usuario, le permite formular búsquedas por palabras claves, búsquedas avanzadas utilizando ya sea los operadores booleanos o la opción búsqueda avanzada, además contiene una opción llamada “búsqueda Visual”, en donde orienta al usuario, con un video, como ubicar los resultados por Clústeres.

También contiene un historial de búsquedas, en donde lista las búsquedas que se formularon por sesión, permite ubicar las publicaciones por orden alfabético, y, contiene un modulo de tesauro en donde se pueden consultar las categorías generales de los temas del contenido.

Interacción hombre-máquina

“A partir de la explosión tecnológica ocurrida durante los años 70, se hizo necesaria la comunicación directa entre el hombre y las computadoras. Del estudio de este fenómeno, surgió una nueva área estudio: la interacción hombre-máquina (Machine Men Interaction) o más específicamente HCI (Human Computer Interaction)”.20

La Association for Computer Machinery (ACM), una organización internacional de investigadores y profesionales interesados en todos los aspectos de la computación, junto a su grupo especial en temas de la IHM denominado SIGHI (Special Interest Group in Computer Human Interaction), propusieron la siguiente definición para esta nueva área del conocimiento: “Es la disciplina relacionada con el diseño, evaluación e implementación de sistemas informáticos interactivos para el uso de seres humanos y con el estudio de los fenómenos más importantes con los que se relaciona”.21

Sobre esta base, puede afirmarse que el tema principal de esta disciplina está en la interacción y más específicamente en la interacción entre uno a más usuarios y una o más computadoras. Pero, entre el usuario y una computadora existen un conjunto de factores que actúan como mediadores a lo largo del proceso de interacción:

Las computadoras pueden formar parte de monitores de autos, teléfonos móviles, libros electrónicos, sistemas de realidad virtual, etcétera.
El usuario puede tener su visión o movilidad disminuida y utilizar software de lectura de pantalla o de reconocimiento de voz para el manejo de la pantalla.
Los usuarios pueden formar parte de grupos u organizaciones, y necesitan, por tanto, interfaz para sistemas distribuidos o de trabajo cooperativo.
La IHM puede abordar todas estas situaciones, ella se ocupa, en síntesis, del análisis y diseño de interfaz para la relación hombre-máquina, conocidas como interfaz de usuario. "La IHM puede analizarse en función de su estilo, estructura y contenido:

Estilo: Se refiere a la forma en que el usuario introduce y recibe información-distribución de los comandos, menús de selección.
Estructura: Se relaciona con la forma de organizar los componentes-distribución de los comandos en pantalla o de los campos en un formulario.
Contenido: Aborda los significados semánticos y pragmáticos que se producen mediante el diálogo."20

RODRÍGUEZ PEROJO, Keilyn y RONDA LEÓN, Rodrigo. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización [en linea]. http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm [citado en 26 de mayo de 2009]

Indización automática o asistida por computadora

Uno de los autores más importantes en el campo de la indización, Jacques Chaumier, definió la indización desde dos puntos de vista: como proceso y finalidad. Desde la primera posición, la indización es la descripción y la caracterización del contenido de un documento, con la ayuda de las representaciones de los conceptos; sin embargo, su fin último es posibilitar la recuperación de la información almacenada en el sistema.2 Es decir, Chaumier, junto con muchos otros autores, considera a la indización como el paso previo para una adecuada recuperación de la información. La definición de automatización de la indización se debe acometer desde una triple perspectiva:2

Programas informáticos que asisten en el almacenamiento de los términos de indización, una vez obtenidos de modo intelectual -indización asistida por computadora durante la fase de almacenamiento.
Sistemas que analizan los documentos de modo automático, donde los términos de indización propuestos se validan y editan -si es necesario- por un profesional -indización semiautomática).
Programas sin ningún tipo de validación, es decir, los términos propuestos se almacenan directamente como descriptores de dicho documento -indización automática.
A mediados de la década de los años 60, Stevens, definió la indización automática: “como el uso de máquinas para extraer o asignar términos de indización sin intervención humana, una vez que se han establecido programas o normas relativas al procedimiento”.3 En estos momentos, comienzan a distinguirse distintas concepciones, en ocasiones complementarias. Por una parte, se encuentra la aplicación de los métodos no lingüísticos que agrupan esencialmente: a los estadísticos, la atribución de pesos a la información, los probabilísticos y los basados en técnicas de agrupamiento-clustering, álgebra booleana, escalamiento multidimensional) y por otra, los que ejecutan ciertos análisis lingüísticos de los textos, que se enmarcan dentro del estudio del procesamiento del lenguaje natural, una disciplina surgida a finales de los años 50.

RODRÍGUEZ PEROJO, Keilyn y RONDA LEÓN, Rodrigo. Organización y recuperación de la información: un enfoque desde la perspectiva de la automatización [en linea]. http://bvs.sld.cu/revistas/aci/vol14_1_06/aci04106.htm [citado en 26 de mayo de 2009]

sábado 23 de mayo de 2009

SQL (Structured Query Languajes)

Su sigla significa Structured Query Languajes que en español significa Lenguaje Estructurado de Consulta. Hacia los años 70 hace aparición en el ámbito de los sistemas de gestores de bases de datos, en 1986 es normalizado por la ANSI y en 1987 es aceptado como lenguaje por la ISO.

Éste lenguaje permite sustraer información de una base de datos relacional, así mismo sirve para modificar las tablas que conforman dichas bases de datos. Para lograr el objetivo, se utilizan declaraciones que indican a la máquina que debe recuperar de la colección de datos. Su funcionamiento se caracteriza por utilizar como guía las matemáticas, lo cual le permite llevar a cabo operaciones con los comandos para recuperar información3.

Como el fuerte de este lenguaje es la recuperación de información, en su conjunto de sentencias existe una llamada SELECT. Esta es la encargada de buscar y presentar la información solicitada a la base de datos. El SELECT, indica que columnas se van usar para mostrar la información.

Sin embargo ésta sentencia no funciona sola, pues para que produzca los resultados mínimos debe acompañarse de la sentencia FROM. El FROM, sirve para indicarle al sistema de donde debe tomar los datos, es decir que tabla o tablas de la base de datos contienen la información.

Las anteriores sentencias son básicas para la recuperación de información, y se aplican a consultas en una sola tabla. Ahora bien, si se requiere consultar más de una tabla o especificar la presentación de los datos, se utilizan 4 sentencias más: WHERE, GROUP BY, HAVING y ORDER BY.

WHERE que la ayuda a limitar los resultados de la consulta. Por ejemplo, si se requiere encontrar en una base de datos de empleados aquellos que viven en Bogotá, se recurre a ésta sentencia.

GROUP BY ésta sentencia permite agrupar los resultados de acuerdo con un termino común y ofrece los resultados en forma de conteo de ocurrencias o en valores numéricos.

HAVING se encarga de especificar los grupos que se han de mostrar, y que cumplen con una características específica.

ORDER BY hacer ordenar los resultados de la consulta ya sea de menor a mayor o viceversa.

3 Wikipedia. SQL [en línea]. [citado en 31 de marzo de 2009]

CQL (Contextual Query Language)

“Es un lenguaje formal para representar consultas a sistemas de recuperación de información, tales como Web índices, catálogos bibliográficos y de información de la colección en un museo.

El objetivo es diseñar las preguntas que el ser humano lectura y escritura, y que el lenguaje sea intuitiva, manteniendo la expresividad de los idiomas más complejos.

Tradicionalmente, los lenguajes de consulta se han reducido en dos campos: Potente, expresiva idiomas, no de fácil lectura ni de escritura para los no expertos (por ejemplo, SQL, PQF, y XQuery), o simple e intuitiva las lenguas no es lo suficientemente poderosa como para expresar conceptos complejos (por ejemplo, la CCL y google). CQL intenta combinar la sencillez y la intuitiveness de expresión de los simples, todos los días de consultas, con la riqueza de los idiomas más expresivos para dar cabida a conceptos complejos, cuando sea necesario.”2

2 The Library of Congress. CQL: contextual Query Language (SRU, versión 1.2 Especificaciones) [en línea]. [citado en 4 de abril de 2009]

CCL (Common Command Language o lenguaje común de comandos)

Este lenguaje de búsqueda es muy utilizado especialmente en las bases de datos, permite restringir las búsquedas mediante comandos en campos específicos como autor, titulo, fecha, etc.

Además permite combinar las búsquedas con los operadores lógicos. Ha sido diseñado como respuesta a la variedad de lenguajes de búsqueda que existen, pues su objetivo es el de normalizar los comandos de búsqueda. Este proyecto fue liderado por la ISO y se encuentra representado en la norma ISO 8777.

Operadores Posicionales

Estos operadores localizan los resultados en los que las palabras claves estén en proximidad dentro del documento. Los operadores posicionales se pueden utilizar para conectar palabras o frases dentro de un campo de búsqueda pero no entre campos de búsqueda. Por lo general son utilizados en catálogos bibliográficos.

Google

Es probablemente el motor de búsqueda más reconocido y mas grande del mundo. Aparte de eso tiene muchos programas útiles, aplicaciones web y herramientas. Las más importantes para propósitos de posicionamiento web son el Google Sitemap, y los programas de publicidad Adsense y Adwords.

Los resultados de Google se obtienen por medio de complejos algoritmos que toman en cuenta una infinidad de factores en el momento de asignarle un ranking a una página web. Los factores más importantes para Google son la popularidad de enlaces (otros sitios web similares que apunten hacia el suyo) y la cantidad de texto original que tenga una página web. Claro que existen muchos otros factores; algunos abiertamente conocidos y otros secretos que Google no revela para que la gente no manipule los resultados. Y estos cambian con mucha frecuencia.

Las páginas web son clasificadas por el robot de búsqueda de Google llamado Googlebot. Cuando Googlebot recorre una página web toma una especie de foto de cada página que visita y la guarda en su gigantesca base de datos. Esta "foto" virtual es conocida como una página en cache. Las páginas en cache le permiten al ordenador de Google acceder al contenido de esas páginas de una forma muy rápida y así suministrarle cualquier tipo de información al público de una manera casi instantánea.

http://www.posicionamientosuperior.com/terminologia/g.htm tomado el [12 oct 2009]

viernes, 13 de noviembre de 2009

LENGUAJE PLQL

Es un lenguaje que define procedimientos de búsqueda de recuperación de información, donde el conjunto encadenado de comandos tiene un fin especifico para realizar la búsqueda cada comando tiene una función diferente para rescatar información.
Este lenguaje de programación persistente, esto es, trabaja directamente con datos que son persistentes perviven después de terminada la ejecución del programa, al contrario que los lenguajes tradicionales, que trabajan directamente con archivos.
El acceso a los datos se hace mediante cursores un objeto que representa a un conjunto de datos extraídos mediante una instrucción SELECT y el sistema de tipos del lenguaje permite trabajar directamente con los datos persistentes. No obstante, PL/SQL también se puede usar como un lenguaje con SQL incorporado. Es posible ejecutar sentencias SQL directamente en un bloque PL/SQL.
Las tablas externas en PLQL permiten hacer consultas desde una base de datos Oracle sobre datos almacenados en un fichero de texto como si dicho fichero fuera una tabla de la base de datos. En Oracle, sólo se pueden realizar operaciones de lectura con las tablas externas; en cambio, en Oracle 10g, se puede también escribir datos en una tabla externa que será creada en ese momento, es decir, no se puede utilizar una tabla externa que ya existe para realizar esta operación:
CREATE [OR REPLACE] PROCEDURE nombre procedimiento
[nombre_parametro modo tipodatos_parametro]
IS | AS
bloque de código

Donde “modo” contiene valores como IN, OUT, IN OUT; si no se pone nada tiene por defecto valor IN es de parámetro es de salida, tipodatos_parametro indica el tipo de datos que tendrá el parámetro según lo indicado.
Los siguientes son ejemplos de uso de cursores en las expresiones de búsqueda:
• StudentID students.id%TYPE
• First Name students.first_name%TYPE
• LastName students.last_name%TYPE
• Major students.major%TYPE := 'Computer Science'
• CURSOR c_Students IS
• SELECT id, first_name, last_name
• OPEN c_Students
• FETCH c_Students INTO v_StudentID, v_FirstName, v_LastName
• CLOSE c_Students

Opreadores historicos

Son los que nos facilitan las búsquedas generadas anteriormente, definiendo las expresiones de búsqueda para realizarlas, se pulsa el botón "más (+)" y aparecerá una ventana que le permitirá seleccionar los términos que formarán parte de la búsqueda mediante una consulta en cualquier buscador, utiliza ortografía para que se especifique la búsqueda.

OPERADORES DE TRUNCAMIENTO

En cuanto al uso de los operadores de truncamiento, podemos decir que sirven para ampliar y hacer mas simple la búsqueda y mas la aplicaciones (*,?,!) de plurales al termino que vamos a consultar,
1. Muse*
2. Muse?
3. Muse!
4. dc.title gat*
5. dc.title gat!
6. dc.title maripos?

OPERADORES BOOLEANOS:

El uso de los operadores booleanos en el lenguaje de consulta CCL, permitirán combinar los resultados de las consultadas efectuadas mediante la utilización de los operadores “OR”, “NOT”, “AND” y en lenguaje de consulta limitara la búsqueda positivamente a nuestra propuesta de investigación con mayor exactitud.

TTL=Amor en los tiempos AND AUT= Márquez
TTL=Amar OR (COR= Andes)
WRD=Libro AND WTI= Biblioteca.
MAP=Colombia OR MAP=Venezuela
dc.titler Biblioteca AND dc.Creator Andes
dc.creator javeriana
dc title comida AND dc.creator virtual pro

LENGUAJE DE CONSULTA CQL

Con la aplicación de este lenguaje podemos consultar y obtener resultados información como en catalogos, colección y museos; además de realizar las consultas normales podemos aplicar para aplicarlos en los buscadores que existen actualmente en Internet; también es importante resaltar que con la aplicación del z3950 y la combinación con los operadores boléanos y obtendremos mayores resultados que los normalmente esperados.

Se deben cumplir 3 cláusulas:
1. Sobre conectores boléanos
Ej. dc.title= el agua verde
2.. Relacion con termino de busqueda.

Ej. dc.title el agua verde cualquier dc.jose maria
3.Trabajar con prefijos con nombres cortos e indentificadores

Lenguajes de consulta

QUE SON LENGUAJES DE CONSULTA:

Son estructuras que contienen unos parámetros establecidos para realizar consultadas ya sea en un buscador o base de datos, donde debemos conocer el manejo de todos los operadores para lograr nuestro objetivo de investigación, cada usuario limitara su búsqueda a su antojo pero si se tiene el conocimiento de cómo se puede filtrar información podría alcanzar la satisfacción de información con aplicación de estrategias para la consulta de estas fuentes como Internet y otras herramientas.

lunes, 2 de noviembre de 2009

Keith van Rijsbergen... Base teórica de los sistemas de recuperación de información.

Desde 1969, Rijsbergen lleva investigando la base teórica de los sistemas de recuperación de información, dotándola de sólidos principios. Definió la diferencia entre Recuperación de datos y Recuperación de información distinguiendo la primera como un proceso de obtención de datos exactos y concretos, y la segunda como un proceso basado en una inferencia inductiva; es decir, buscar fechas o nombres es recuperación de datos, mientras que buscar temas sería recuperación de información.
Durante la década de los 70 y principio de los 80, ideó las técnicas de cluster, también llamadas clasificicacion automática. Son técnicas estadísticas multivariantes que se utilizan para hacer agrupaciones de objetos similares en un espacio multidimensional. Las similaridades pueden ser calculadas entre pares de documentos, basándose en el número de descriptores que tienen en común. La aplicacion en una BD documental dará como resultado el agrupamiento de documentos que tengan un gran número de términos en común.
Estás técnicas también son aplicadas a descriptores, cuyas similitudes nos permiten identificar relaciones semánticas entre términos. Este método resulta muy útil para construir tesauros Las técnicas de cluster se apoyan en los algoritmos de indizacion ponderada que ya diseñó Karen. Esta indización automatizada considera mediante conclusiones estadísticas, qué términos representan mejor los contenidos de un documento. Esto daría fin al dilema conocido como conflicto de Rijsbergen: cuanto más términos del documento estén disponibles para la equiparación, más fácil el documentos será equipado en una búsqueda, pero más difícil distinguirlo de otros documentos.

Rijsbergen planteó además dos hipótesis:
Hipótesis de cluster: donde definía qué documentos similares tienden a ser relevantes para las mismas preguntas, y por tanto, ser útil para agrupar documentos relevantes para un petición concreta. Esta aplicación permitiría realizar búsquedas de alta precisión en una base de datos documental previamente clasificada.

Hipótesis de asociación: donde dice que un término de indización es bueno para discriminar documentos relevantes de aquellos que no lo son, cualquier término de indización estrechamente relacionado con ese es, probablamente, tan bueno como ese.
El uso de estas técnias fue empleado dentro del modelo probabilistico formación, en redes de inferencia y en técnicas de retroalimentacion por relevancia.

A mediados de los 80, comenzó a abordar la investigación a través de los modelos cognitivos de recuperación de información. Esto modelos otorgan al usuario una importancia mayor al tener en cuenta tanto la formación del usuario como a la naturaleza y propiedades de sus búsquedas. Rijsbergen utilizó el principio de incertidumbre lógica al considerar que una colección documental no es, en su conjunto, ni completa y coherente para los usuarios, llegando incluso a haber elementos contradictorios entre sí. Propuso un paradigma nuevo donde el proceso de recuperación sea considerado como un proceso de inferencia incierta, y las consultas y los documentos puedan ser representados como declaraciones lógica-probabilísticas.

Tomado de [http://es.wikipedia.org/wiki/Keith_van_Rijsbergen; 12/10/09 ]

DESARROLLO DE UN ESTÁNDAR FORMAL

Dublin Core

El modelo de metadatos Dublin Core (DC) o DCMI, es un esfuerzo internacional e interdisciplinar abocado a definir el conjunto de elementos básicos para describir los recursos electrónicos y facilitar su recuperación. El DC, surgido en 1995 en el seno de OCLC, es hoy un esquema maduro de metainformación cuyo conjunto de elementos se ha formalizado como norma ANSI/NISO Z39.85-2001.

La Iniciativa de Metadatos Dublin Core, simplemente Dublin Core o DC, es actualmente el modelo de metadatos más aceptado para describir, recuperar e intercambiar información electrónica, independientemente del dominio científico o disciplinar.

En sus orígenes surge como un modelo de metadatos dirigido a la descripción embebida en el código HTML por parte de los autores de los recursos, para una recuperación más eficaz y cualificada en motores y otras herramientas de búsqueda Web, liderando el desarrollo de metadatos estructurales para la recuperación de información en Internet.

Con el tiempo, el Dublin Core ha ido evolucionando hacia un formato de registro para el intercambio de información y a un estándar básico para la interoperabilidad entre repositorios de información científica, sobre todo gracias a la integración del DC con el protocolo OAI-PMH, pero también la versatilidad del esquema y al nivel de estandarización formal que ha adquirido.

ÓPERADORES BOOLEANOS PARA BUSCADORES

Usar los operadores de búsqueda :

Un operador de búsqueda es una instrucción que combina varias palabras clave para formar una cadena de búsqueda más precisa. Esto te permite buscar varias palabras a la vez indicando a Orange Desktop Search cómo deseas combinarlas. Los operadores más comunes son los tres operadores booleanos (Y/+, O y NO/-), que permiten la inclusión o exclusión de documentos de los resultados de la búsqueda.
Para crear cadenas de búsqueda también se pueden utilizar las comillas (para frases exactas) y los paréntesis. Se puede personalizar el programa para que siempre busque palabras enteras. Para ello, activa la casilla Buscar sólo palabras enteras en la pestaña Avanzadas de la ventana Opciones.

describimos los prinicipales booleanos:

& : El operador Y se utiliza para buscar los documentos que contengan todos los términos ligados por este operador. Es decir, si hay 4 palabras claves unidas por Y en una búsqueda, sólo aparecerán los documentos que contengan cada una de estas palabras. En cambio, se omitirán los documentos que contengan 3 ó menos de estas palabras. El operador Y permite refinar las búsquedas. Wanadoo Desktop Search utiliza por defecto dicho operador.
Conviene no utilizar más de lo debido el operador Y, ya que una búsqueda demasiado restringida puede omitir resultados válidos.

o: El operador O se utiliza para buscar los documentos que contengan al menos uno de los términos ligados por este operador. Este operador permite ampliar la búsqueda incluyendo sinónimos o términos relacionados

NO: Este operador se usa para omitir los documentos que contengan determinadas palabras. El operador NO permite refinar las búsquedas. Conviene evitar abusar del operador NO, ya que si se restringe demasiado la búsqueda se pueden omitir documentos válidos.

Comillas: Encuentra los documentos que contengan la palabra o frase exacta que se especifique.
Si la palabra que buscas debe considerarse una palabra entera, escríbela entre comillas (p. ej. "lago"). Este operador se utiliza para excluir palabras similares o derivadas. Los documentos deberán contener la palabra entera que se indique. Las comillas también se pueden usar para buscar una expresión exacta (p.ej. "Marie Curie", "El Señor de los Anillos").

HTTrack

HTTrack es una aplicacion informatica libre con licencia GPL multilenguaje y multiplataforma cuyo fin es la captura web, es decir la descarga a una PC, de todo o parte de un sitiop web, para posteriormente poder navegar por él fuera de linea. Su versión para GNU/LINUX se llama WebHTTrack, y su versión para winwos HTTack
METODOLOGIA DE INTALACION

El programa es sencillo de utilizar. En la ventana de HTTrack, pulsa el botón "Siguiente". La pantalla siguiente te permite poner un nombre al proyecto (la descarga) y decidir dónde se guardará la copia. A continuación, pulsa el botón "Siguiente".
Pulsa el botón "Añadir" para indicar la URL desde la que quieres empezar la descarga.
Pulsa el botón "Definir las opciones" para definir la descarga. Lo más importante es que limites la profundidad de exploración en la pestaña "Límites". La imagen siguiente muestra como se ha limitado la profundidad a dos niveles internos y a 0 externos.
El paso siguiente te pide confirmar la descarga. Pulsa el botón "Finaliza

El resultado obtenido no es el mismo con todos los programas. Algunos programas son capaces de reproducir mejor la estructura del sitio web deseado, o son capaces de descargar un mayor número de tipos de archivos, o son capaces de interpretar mejor todos los tipos de enlaces.

Tomado de [http://www.mclibre.org/consultar/internet/otros/httrack_guardarsitios.html] el dia 27/10/09

lunes, 21 de septiembre de 2009

METADATOS

Siempre cuando realizamos una búsqueda, encontramos que el metadato es un dato sobre dato; y para salir de este concepto podemos avanzar mas, explicando que cada datos que encontramos codificado a veces en sistemas por archivos HTML, es básicamente la forma en que podemos encontrar la información gestionando conocimiento, gracias a la tecnología.

La normatividad, que es importante ya que para los datos geográficos encontramos la ISO- TC 211 , y la participación de un comité que toma decisiones acerca del tema de la localización de un punto o toda la información geográfica es muy importante, para toda la comunidad en general ya que fortalece nuestros conocimientos e investigaciones.

Realmente el tema de los metadatos es muy amplio y podemos aplicarlo a proyectos biblometricos para diferentes temas de investigación.

Por

Andrea Mesa Hurtado

ULS

GOOGLE AMIGO O ENEMIGO

Como podemos evidenciar, en la Web y en el buscador de Google, encontramos casi toda la información que deseamos; lo importante es darle un buen manejo a todo este conocimiento. Gracias a esta herramienta hacemos posibles nuestras investigaciones que en décadas atrás eran casi inimaginables.

El recurso de de búsqueda y con todos los componentes que trae, en diferentes fuentes y con orígenes de todo el mundo. Para realizar una búsqueda no importa si son mayúsculas o minúsculas y en que lenguaje utilizamos si es técnico o natural. Las utilización de las comillas realizan búsquedas mas precisa y si a estas búsquedas les agregas comandos comenzaras a recibir información más precisa. Por ejemplo: OR, ( ), +, *, ALLINURL, INURL, etc., con los anteriores operadores y junto con tu “malicia” podrás localizar lo que necesitas, hasta el robot de google llamado Cache, deja huella antes de borrar archivos; esto es fabuloso. Es muy inteligente ahora podemos encontrar manuscritos digitalizados, pero aquí es importante reconocer que el hombre cuando posee información cada vez quiere mas es imparable este hecho y lo mas consecuente es que en Google se maneja toda la información que poseemos en nuestros correos o en las redes sociales de las cuales hacemos parte es ahí cuando entramos en la paradoja si google es nuestro amigo o enemigo y si toda la información que guardamos con claves es respetada?. Bueno desde nuestra perspectiva y como usuarios estamos a diario ingresando a google bajamos información y que tan veraz es esta?. Y si de acuerdo con los derechos de autor es legal, para los gestores de información, la propiedad intelectual tiene un valor muy importante y dentro de nuestra cultura quisiéramos ser parte de cómo se maneja esta integridad y el uso que le dan a toda esta gama de información.

La Biblioteca de Alejandría e HIPATIA EN COSMOS

Un homenaje personal a Carl Sagan
“Lo que sigue es mi particular homenaje a Carl Sagan, con quien comparto su visión del cosmos, de la vida y del hombre, sus respuestas a las preguntas básicas que se formula el ser humano y también sus dudas sobre nuestras posibilidades de futuro como especie. Sirvan como homenaje a esta persona excepcional, desaparecida a finales del 96, los extractos que siguen, tomados de su obra Cosmos, sólo algunos de los varios pasajes (de los que ahora extraigo algunas frases) en los que alude a las bibliotecas,

"...somos la única especie del planeta que ha inventado una memoria comunal que no está almacenada ni en nuestros genes ni en nuestros cerebros. El almacén de esta memoria se llama biblioteca", "...la salud de nuestra civilización, nuestro reconocimiento real de la base que sostiene nuestra cultura y nuestra preocupación por el futuro, se pueden poner a prueba por el apoyo que prestemos a nuestras bibliotecas"

a la Biblioteca de Alejandría en particular,

"...el lugar donde los hombres reunieron por primera vez de modo serio y sistemático el conocimiento del mundo", "...el cerebro y el corazón del mundo antiguo"

y a la figura de Hipatia,

"...un símbolo de cultura y de ciencia", "...cuyo martirio estuvo ligado a la destrucción de la biblioteca"

Las páginas citadas se corresponden con la edición de Planeta de 1982 (ISBN 84-320-3626-9).

Gracias, Carl, por tus libros. Seguirás hablando y enseñando desde ellos a las futuras generaciones, sea cual sea el espacio y el tiempo, el planeta y el siglo, que les toque vivir.”[1]

[1] http://images.google.com.co/imgres?imgurl=http://www.bib.uc3m.es/~nogales/img/csagan2.jpg&imgrefurl=http://www.bib.uc3m.es/~nogales/csagan.html&usg=__8KBBo9JHJX9QoyjZv0aMPeoEDH8=&h.

Buscadores de informacion

Es una de las primeras y más avanzadas herramientas de recuperación, indexación y búsqueda de gran cantidad de activos de conocimiento. Soporta unos 200 tipos de documentos guardados en servidores de archivos, en sistemas de groupware, en bases de datos relacionales, sistemas de gestión de documentos, intranets y la Internet. Desde Marzo del 2002, incluye la posibilidad de realizar búsquedas de imágenes de video, además de búsquedas en múltiples idiomas. Otra novedad de la última versión del producto son las herramientas para la categorización con múltiples niveles de taxonomía y utilizar lógica “fuzzy” (útil para ignorar errores tipográficos en el comando de búsqueda), además de sistemas de alerta sobre nuevo contenido en la intranet o la web basado en el perfil previamente introducido en el sistema del usuario. Excalibur RetrievalWare WebExpress es la versión de Excalibur RetrievalWare para sitios web. Permite realizar búsquedas usando lenguaje natural en sustitución a keywords y sintaxi Booleana, de forma que utiliza búsquedas conceptuales que permiten a los visitantes de la web encontrar con más facilidad el contenido que están buscando... utilizala!!

INFORMACION PRIVADA!!

El Papa Nicolás V fundó la biblioteca en 1448 reuniendo unos 350 códices griegos, latinos y hebreos heredados de sus antecesores con sus propias adquisiciones, entre las que estaban varios manuscritos de la biblioteca imperial de Constantinopla. La fundación propiamente dicha tuvo lugar cuando Sixto IV, con la bula Ad decorem militantis Ecclesiae (15 de junio de 1475), le asignó un presupuesto y nombró bibliotecario a Bartolomeo Platina, quien elaboró un primer catálogo en 1481. La biblioteca poseía entonces más de 3.500 manuscritos, lo que la convertía de lejos en la mayor del mundo occidental. Hacia 1587, el Papa Sixto V encargó al arquitecto Domenico Fontana que construyera un nuevo edificio para albergar la biblioteca, el que se utiliza todavía, pero mucha informacación no es de facil acceso.

Recuperacion de informacion en la Web

Los avances experimentados en los últimos años en la tecnología para la gestión de contenidos, así como en la gestión del conocimiento, han tenido un impacto determinante en los hábitos y prácticas del mundo empresarial. Los modos de crear, estructurar y acceder a la información corporativa han cambiado radicalmente.
Sin embargo, estas tecnologías siguen tratando la información textual (ya la consideremos contenido o conocimiento) de forma mecánica, de la misma forma que tradicionalmente se ha tratado, por ejemplo, la información numérica.
Esta situación se ha sustentado, en gran medida, en el hecho de que en la interacción hombre-máquina ha sido el hombre quien se ha adaptado al lenguaje de la máquina (como sucede, por ejemplo, en aplicaciones como la gestión de clientes o de almacenes).
Sin embargo, esto está cambiando. Las cantidades masivas de información textual a las que tenemos acceso en la actualidad (jurisprudencia, legislación, informes de bolsa, revistas especializadas, etc.), y su valor para la gestión de la empresa, han dado lugar al uso generalizado de indexadores y buscadores en los que la interacción hombre-máquina empieza a inclinarse hacia el lado del hombre. Por ejemplo, existe una tendencia desde hace algún tiempo a desarrollar, con éxito desigual, aplicaciones que permitan consultar a bases de datos (textuales o no) en lenguaje natural