Otimização Jaya e variantes aplicada ao problema de predição de estruturas de proteínas
Visualizar/ Abrir
Data
2021Autor
Silva, Luiza Scapinello Aquino da
Metadata
Mostrar registro completoResumo
Resumo: O problema de predição de estruturas de proteínas (do inglês Protein Structure Prediction, PSP) refere-se ao processo de determinar a sequência de aminoácidos que compõe uma proteína, sendo essa uma área essencial da medicina e biotecnologia. O PSP pode ser abordado como um problema de otimização que visa a determinação da estrutura estável ou nativa de proteínas com mínimo de energia livre possível, sendo o caso de estrutura nativa o foco nessa dissertação. O PSP ainda continua sendo um desafio na bioinformática, devido à falta de acurácia das funções de energia proteicas existentes, além do fato de que o número de sequências de proteínas cresceu exponencialmente, assim como o número de estruturas de proteínas conhecidas. Os bancos de dados atuais, tais como UniProtKB, contêm 93.000.000 de sequências de proteínas computadas, enquanto o Protein Data Bank (PDB) contém aproximadamente 135.000 estruturas conhecidas. Esta desproporcionalidade dos dados torna essa uma área de intensa exploração de abordagens computacionais. Uma das modelagens desse problema, a ab-initio, baseada na hipótese de Anfisen que tenta encontrar a estrutura da proteína a partir da minimização de sua energia livre, tem sido pouco cultivada no desenvolvimento de algoritmos de otimização e aprendizado de máquina, quando comparada a outras modelagens. Leva-se em consideração que mesmo que essa modelagem possua porcentagem de acurácia equivalente às demais, nota-se mais seu uso na literatura apenas para proteínas consideradas de tamanhos reduzidos. Este documento de dissertação de mestrado apresenta uma revisão da literatura em termos de trabalhos relacionados às técnicas utilizadas para resolver este problema, propõe o desenvolvimento de algoritmos que melhor realize o processo de PSP utilizando a modelagem ab-initio em proteínas de mais de 100 aminoácidos de comprimento. Nesse documento de dissertação, a metaheurística de otimização Jaya, inédita nessa aplicação, assim como duas variantes desta, são testadas e avaliadas para o problema de PSP ab-initio na modelagem AB off-lattice, a qual abstrai a conformação da proteína baseando-se na hidro afinidade de seus aminoácidos. Foram utilizadas sequencias de proteínas tanto reais quando artificiais de diferentes tamanhos retiradas do PDB. Dez sequências de aminoácidos de comprimentos variando de 13 a 143 resíduos foram conformadas pelo algoritmo. Além do mais, experimentos foram realizados com o propósito de avaliar a influência dos hiper parâmetros do algoritmo nos resultados. As conformações finais obtidas mostraram-se como dobramentos bons e coerentes em termos das métricas de análise utilizadas, como o desvio médio quadrático entre os átomos da conformação encontrada e os da proteína original. Abstract: The Protein Structure Prediction Problem (PSP) refers to the process of determining the sequence of amino acids that make up a protein, which is an essential area of medicine and biotechnology. PSP can be approached as an optimization problem that aims to determine the stable or native structure of proteins with as little free energy as possible, and the case of native structure is the focus of this dissertation. PSP still remains a challenge in bioinformatics due to the lack of accuracy of existing protein energy functions, in addition to the fact that the number of protein sequences has grown exponentially, as has the number of known protein structures. Current databases, such as UniProtKB, contain 93,000,000 computed protein sequences, while the Protein Data Bank (PDB) contains approximately 135,000 known structures. This disproportionality of data makes this an area of intense exploration of computational approaches. One of the models of this problem, ab-initio, based on the Anfisen hypothesis that tries to find the protein structure by minimizing its free energy, has been little cultivated in the development of optimization and machine learning algorithms, when compared to other modeling. It is taken into account that even if this modeling has a percentage of accuracy equivalent to the others, its use is more noticeable in the literature only for proteins considered to be of reduced sizes. This master's dissertation document presents a literature review in terms of works related to the techniques used to solve this problem, proposes the development of algorithms that better perform the PSP process using ab-initio modeling in proteins with more than 100 amino acids of length. In this dissertation paper, the Jaya optimization metaheuristic, unprecedented in this application, as well as two variants of it, are tested and evaluated for the PSP ab-initio problem in AB off-lattice modeling, which abstracts the protein conformation based on in the hydro affinity of its amino acids. Both real and artificial protein sequences of different sizes taken from the PDB were used. Ten amino acid sequences of lengths ranging from 13 to 143 residues were conformed by the algorithm. Furthermore, experiments were carried out with the purpose of evaluating the influence of the algorithm's hyper parameters on the results. The final conformations obtained proved to be good and coherent folds in terms of the analysis metrics used, such as the root mean square deviation between the atoms of the found conformation and those of the original protein.
Collections
- Dissertações [239]