Aprendizaje automático y tecnologías de la computación: Nuevas estrategias para la predicción de las condiciones de cristalización de macromolécula

Pérez Priede, Mónica

Repositorio

Cómo publicar

Recursos

FAQs

Mostrar el registro sencillo del ítem

Aprendizaje automático y tecnologías de la computación: Nuevas estrategias para la predicción de las condiciones de cristalización de macromolécula

dc.contributor.advisor	García-Granda, Santiago
dc.contributor.author	Pérez Priede, Mónica
dc.contributor.other	Química Física y Analítica, Departamento de	spa
dc.date.accessioned	2017-02-14T13:55:10Z
dc.date.available	2017-02-14T13:55:10Z
dc.date.issued	2016-07-21
dc.identifier.uri	http://hdl.handle.net/10651/40148
dc.description.abstract	Se diseñaron e implementaron dos bases de datos locales (MyBMCD y MyPDB) que recopilan datos de cristalización de macromoléculas procedentes de sendas bases de datos de acceso público (BMCD "Biological Macromolecule Crystallization Database" y PDB "Protein Data Bank"). MyBMCD es una base de datos deductiva desarrollada en PROLOG con la que se pueden construir, a través de una interfaz gráfica, conjuntos de datos con el formato adecuado para ser utilizados en entornos de aprendizaje automático. Por otra parte, MyPDB es una base de datos relacional que incluye entre sus registros la entropía de Shannon de las secuencias de aminoácidos y de las secuencias de nucleótidos de las macromoléculas que alberga. La entropía de Shannon permite medir la información producida por una fuente de información discreta. En esta investigación, las secuencias de aminoácidos y las secuencias de nucleótidos se han equiparado a mensajes emitidos por una fuente de información discreta, donde cada aminoácido o nucleótido tiene una probabilidad independiente de ser elegido. Para poblar MyPDB fue necesario implementar, en lenguaje C y con listas enlazadas, un parser (PDBMLParser) que extrajera y modelara de forma adecuada la información procedente de la base de datos de acceso público, calculando a su vez la entropía de Shannon antes mencionada. El análisis de la información registrada tanto en MyBMCD como en MyPDB, utilizando diversas técnicas de análisis estadístico y de aprendizaje automático, y también del campo de la bioinformática (alineamiento de secuencias), permitió obtener conclusiones interesantes. Entre ellas las siguientes: 1. Existe una fuerte correlación entre los valores mínimo y máximo del pH de cristalización, tanto para la familia de las enzimas como para la familia de las metaloproteínas registradas en MyBMCD. 2. Existe una fuerte correlación entre los valores mínimo y máximo de la concentración de macromolécula utilizada en el experimento de cristalización, tanto para la familia de la enzimas como para la familia de las metaloproteínas registradas en MyBMCD. 3. Existe una fuerte correlación entre las temperaturas de cristalización mínima y máxima en el caso de las enzimas registradas en MyBMCD. 4. El diagrama de dispersión de la entropía de Shannon frente al peso molecular de las secuencias poliméricas registradas en MyPDB muestra dos zonas claramente diferenciadas. La primera representa a las secuencias de aminoácidos y denota la existencia de una relación entre la entropía y el peso molecular. La segunda se corresponde con las secuencias de nucleótidos. 5. Los diagramas de cajas de las distribuciones de la entropía de Shannon frente al peso molecular de las secuencias de aminoácidos cuyos cristales fueron obtenidos con al menos uno de los precipitantes más utilizados, muestran rangos intercuartílicos que no se solapan. 6. El par (peso molecular, entropía de Shannon) se configura como un predictor con el que se consiguen altas tasas de acierto cuando se trata de escoger entre ciertos precipitantes o aditivos. Por ejemplo: a) 81.57% +/- 6.39% al escoger entre sulfato amónico y cloruro potásico, b) 79.80% +/- 4.79% al escoger entre sulfato amónico y MPD (2-metil-2,4-pentanodiol). 7. El alineamiento de secuencias puede ser utilizado para estimar un pH de cristalización, llegando a ser la diferencia en valor absoluto entre el pH estimado y el pH real menor o igual a una unidad para al menos el 50% de la distribución (pH estimado - pH real) en los conjuntos de test obtenidos de MyPDB. 8. El alineamiento de secuencias también puede ser utilizado para estimar una temperatura de cristalización. También durante el desarrollo de esta investigación, se detectaron y corrigieron diversos errores en uno de los entornos de aprendizaje automático utilizados. El contenido de la tesis doctoral se distribuye en dos tomos. En el primero se describen el acceso y modelado de la información y los resultados. En el segundo, se incluyen los códigos PROLOG (MyBMCD), C (PDBMLParser) y SQL (MyPDB).	spa
dc.format.extent	650 p.	spa
dc.language.iso	spa	spa
dc.subject	Proteínas	spa
dc.subject	Procesos de cristalización	spa
dc.subject	Bases de datos	spa
dc.subject	Inteligencia artificial	spa
dc.title	Aprendizaje automático y tecnologías de la computación: Nuevas estrategias para la predicción de las condiciones de cristalización de macromolécula	spa
dc.type	doctoral thesis	spa
dc.local.notes	DT(SE) 2016-243	spa

Ficheros en el ítem

Nombre:: TD_MonicaPerezPriede.pdfEmbargado hasta: 2028-01-01
Tamaño:: 36.50Mb
Formato:: PDF
Descripción:: Archivo protegido

Nombre:: PreprintPublicacionEnviada.pdfEmbargado hasta: 2028-01-01
Tamaño:: 23.76Mb
Formato:: PDF
Descripción:: Archivo portegido

Este ítem aparece en la(s) siguiente(s) colección(ones)

Tesis [7411]
Tesis doctorales leídas en la Universidad de Oviedo

Mostrar el registro sencillo del ítem