La minería de datos
La tecnología informática constituye la infraestructura fundamental de las grandes organizaciones y permite, hoy, registrar múltiples detalles de la vida de las empresas. Las bases de datos posibilitan almacenar cada transacción, así como otros muchos elementos que reflejan la interacción de la organización con otras organizaciones, clientes, o internamente, entre sus divisiones y empleados, etcétera. Es imprescindible convertir los grandes volúmenes de datos existentes en experiencia, conocimiento y sabiduría, formas que atesora la humanidad para que sea útil a la toma de decisiones, especialmente en las grandes organizaciones y proyectos científicos. La búsqueda de información relevante siempre es útil a la administración empresarial: el control de la producción, el análisis de los mercados, el diseño en ingeniería y la exploración científica, porque pueden ofrecer las respuestas más apropiadas a las necesidades de información. Varias preguntas se relacionan frecuentemente con los datos, la información y el conocimiento. Su respuesta, demanda la participación de varios especialistas. ¿Cómo puede entenderse un fenómeno sobre la base de la interpretación de grandes volúmenes de datos? ¿De qué manera puede utilizarse la información para la toma de decisiones?, son algunos ejemplos de interrogantes comunes. La respuesta a estas preguntas es el objetivo de la minería de datos, un conjunto de técnicas agrupadas con el fin de crear mecanismos adecuados de dirección, entre ellas puede citarse la estadística, el reconocimiento de patrones, la clasificación y la predicción. Para descubrir patrones de relaciones útiles en un conjunto de datos se empezaron a utilizar métodos que fueron denominados de diferente forma. El término data mining, en inglés, no era, al principio, del agrado de muchos estadísticos, porque sus investigaciones estaban dirigidas a procesar y reprocesar suficientemente los datos, hasta que confirmasen o refutasen las hipótesis planteadas. Desde este ángulo, la minería de datos aplica una dinámica que se mueve en sentido contrario al método científico tradicional. Con frecuencia, el investigador formula una hipótesis; luego, diseña un experimento para captar los datos necesarios y realizar los experimentos que confirmen o refuten la hipótesis planteada. Este es un proceso, que realizado de forma rigurosa, debe generar nuevos conocimientos. En la minería de datos, por el contrario, se captan y procesan los datos con la esperanza de que de ellos surja una hipótesis apropiada. Se desea que los datos nos describan o indiquen el porqué presentan determinada configuración y comportamiento. Como afirma Eduardo Morales: “La más inocente mirada a los datos puede inspirar una hipótesis. Recuérdese que los humanos tienen un gran poder para generalizar e identificar patrones. Luego entonces, validar una hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida.” 2 No es ocioso insistir, en que las técnicas de minería de datos no pueden utilizarse para confirmar o rechazar hipótesis, porque puede conducir a errores fatales. Su función es otra, como antes se expresó, se trata de explorar datos, darles sentido, convertir un volumen de datos, que poco o nada aportan a la descripción, en información para interpretar un fenómeno, para adoptar decisiones de acuerdo con las necesidades.
Bioinformática
La bioinformática se encuentra en la intersección entre las ciencias de la vida y de la información, proporciona las herramientas y recursos necesarios para favorecer la investigación biomédica. Como campo interdisciplinario, comprende la investigación y el desarrollo de sistemas útiles para entender el flujo de información desde los genes a las estructuras moleculares, su función bioquímica, su conducta biológica y, finalmente, su influencia en las enfermedades y en la salud.5 Los estímulos principales para el desarrollo de la bioinformática son: lEl enorme volumen de datos generados por los distintos proyectos denominados genoma (humano y de otros organismos). lLos nuevos enfoques experimentales, basados en biochips, que permiten obtener datos genéticos a gran velocidad, bien de genomas individuales (mutaciones, polimorfismos) de enfoques celulares (expresión génica). lEl desarrollo de Internet, que permite el acceso universal a las bases de datos de información biológica. La magnitud de la información que genera las investigaciones realizadas sobre el genoma humano es tal que, probablemente, supera la generada por otras investigaciones en otras disciplinas científicas. Como se sabe, la vida es la forma más compleja de organización de la materia que se conoce. En estos momentos, los ordenadores no clasificados para uso civil más potentes del mundo (en Celera y en Oak Ridge National Laboratory, por ejemplo, con una capacidad de cálculo cercana a los 2 Teraflops, billones de operaciones por segundo) están dedicados a la investigación biológica, concretamente a la obtención y al análisis de las secuencias de nucleótidos de los genomas conocidos.
Aplicación de la minería de datos en la bioinformática
Aplicación de la minería de datos en la bioinformática
Resumen En los próximos años ocurrirá un avance espectacular de las ciencias biomédicas como resultado del proyecto Genoma Humano. Las nuevas tecnologías, basadas en la genética molecular y la informática, son claves para este desarrollo, pues ellas suministran potentes instrumentos para la obtención y el análisis de la información genética. La aparición de nuevas tecnologías ha posibilitado el desarrollo de la genómica, al facilitar el estudio de las interacciones de los genes y su influencia en el desarrollo de enfermedades, todo lo cual influye en el diagnóstico clínico, la investigación de nuevos fármacos, la epidemiología y la informática médica. En los últimos años, la minería de datos (data mining) ha experimentado un auge como soporte para las filosofías de la gestión de la información y el conocimiento, así como para el descubrimiento del significado que poseen los datos almacenados en grandes bancos. Esta permite explorar y analizar las bases de datos disponibles para ayudar a la toma de decisiones; además de facilitar la extracción de la información existente en los textos, así como crear sistemas inteligentes capaces de entenderlos, a esto se denomina comúnmente como minería de textos (text mining). Se describen sintéticamente los componentes básicos de la minería de datos y su aplicación en una emergente y trascendental actividad científica: la bioinformática.
El conocimiento es un recurso estratégico para el desarrollo económico y social contemporáneo. La información es el elemento básico principal en el proceso de adquisición, generación, gestión y trasmisión del conocimiento. Las tecnologías, métodos y herramientas asociadas con estos procesos se han desarrollado notablemente en los últimos años. La aparición de Internet ha facilitado compartir, en puntos distantes, los resultados científicos. Los análisis en línea (en inglés, On-Line Analytical Processing, o OALP), un enfoque novedoso, ha tomado gran fuerza en los últimos tiempos. El aumento continuo de la disponibilidad de datos, en particular, a partir de las redes de comunicaciones y la aplicación de la computación de alto desempeño, con proezas como la descripción del genoma humano, convierten en imprescindible el empleo de técnicas y herramientas que le den sentido y utilidad a la información existente. En los últimos años del presente siglo, ha alcanzado un auge la minería de datos, soporte de filosofías como la gestión de las relaciones de una organización con sus clientes. Su fin es explorar y analizar las bases de datos disponibles para ayudar a la toma de decisiones en las organizaciones, permite, a su vez, la extracción de la información existente en textos, así como crear sistemas inteligentes capaces de entenderlos, a lo que se le conoce, comúnmente, como minería de textos. El surgimiento de técnicas como la minería de datos está asociado con la necesidad de procesar y analizar grandes volúmenes de datos, a fin de obtener información –mediante la consolidación de los datos- y conocimientos, útiles a la toma de decisiones, y construir una experiencia, a partir de los millones de transacciones que registra una corporación en sus sistemas informáticos.1 El presente trabajo pretende sólo realizar una somera descripción de los componentes básicos de la minería de datos y su aplicación en una emergente y trascendental actividad científica: la bioinformática.
El conocimiento es un recurso estratégico para el desarrollo económico y social contemporáneo. La información es el elemento básico principal en el proceso de adquisición, generación, gestión y trasmisión del conocimiento. Las tecnologías, métodos y herramientas asociadas con estos procesos se han desarrollado notablemente en los últimos años. La aparición de Internet ha facilitado compartir, en puntos distantes, los resultados científicos. Los análisis en línea (en inglés, On-Line Analytical Processing, o OALP), un enfoque novedoso, ha tomado gran fuerza en los últimos tiempos. El aumento continuo de la disponibilidad de datos, en particular, a partir de las redes de comunicaciones y la aplicación de la computación de alto desempeño, con proezas como la descripción del genoma humano, convierten en imprescindible el empleo de técnicas y herramientas que le den sentido y utilidad a la información existente. En los últimos años del presente siglo, ha alcanzado un auge la minería de datos, soporte de filosofías como la gestión de las relaciones de una organización con sus clientes. Su fin es explorar y analizar las bases de datos disponibles para ayudar a la toma de decisiones en las organizaciones, permite, a su vez, la extracción de la información existente en textos, así como crear sistemas inteligentes capaces de entenderlos, a lo que se le conoce, comúnmente, como minería de textos. El surgimiento de técnicas como la minería de datos está asociado con la necesidad de procesar y analizar grandes volúmenes de datos, a fin de obtener información –mediante la consolidación de los datos- y conocimientos, útiles a la toma de decisiones, y construir una experiencia, a partir de los millones de transacciones que registra una corporación en sus sistemas informáticos.1 El presente trabajo pretende sólo realizar una somera descripción de los componentes básicos de la minería de datos y su aplicación en una emergente y trascendental actividad científica: la bioinformática.
No hay comentarios:
Publicar un comentario