Identificação in silico de sítios de ligação à proteína regulatória NTRC em sequências genômicas
Resumo
Resumo: O nitrogênio é um elemento essencial para a manutenção da vida na Terra. Apesar disso sua maior concentração está presente na atmosfera. Algumas proteobactérias possuem o sistema Ntr, que é responsável pelo processo de regulação do metabolismo do nitrogênio. Dentro do Ntr, encontra-se o sistema NtrBC, que regula a expressão de genes envolvidos com a utilização de fontes alternativas de nitrogênio. Nele encontramos a proteína NtrC, que atua como um ativador de transcrição se ligando a sítios específicos no DNA e ativando promotores dependentes do fator sigma 54 ([sigma]54), tipicamente relacionados à transcrição de genes ligados ao metabolismo de nitrogênio. Os métodos mais comuns para detectar regiões de ligação da proteína NtrC ao DNA consiste em análises experimentais em laboratório, o que pode ser um processo caro e demorado. Para auxiliar nessa tarefa propomos uma ferramenta preditora de regiões relacionadas ao sitio de ligação da proteína NtrC a partir de um arquivo de genoma completo. A ferramenta contém uma rede neuronal artificial que passou pelo processo de treinamento supervisionado. Referente aos dados para o treinamento, utilizamos conjuntos de regiões promotoras de NtrC já confirmadas anteriormente e disponibilizadas em bancos de dados abertos para compor o conjunto de dados verdadeiros. Para compor o conjunto de regiões falsas utilizamos regiões geradas aleatoriamente, regiões retiradas de organismos modelo, e regiões provenientes de outros fatores de transcrição. A fim de selecionar qual é o melhor processo de extração de características e o modelo de rede neuronal mais adequado para solucionar o problema utilizamos janelas móvel e bases ortonormais de tamanhos variados. Esses conjuntos previamente classificados foram agrupados e embaralhados e passaram pelos modelos de classificadores MLP, SVM, RBF, DT, KNN, NB, RF (sendo os 3 primeiros utilizados no software MATLAB e o restante utilizando a biblioteca sklearn em Python 3), e por um modelo baseado em FAN com o software EasyFan. Após efetuar testes com arquivos de genoma da base de dados do NCBI e comparar com dados disponíveis em bancos de dados voltados à fatores de transcrição, a rede foi disponibilizada em uma ferramenta web para que possa ser utilizada pelo público. Abstract: Nitrogen is an essential element for the maintenance of life on Earth. However its greater concentration is present in the atmosphere. Some proteobacteria have the Ntr system, which is responsible for the regulation process of nitrogen metabolism. Within the Ntr, is the NtrBC system, which regulates the expression of genes involved with the use of alternative sources of nitrogen. In it we find the NtrC protein, which acts as a transcriptional activator binding to specific sites in the DNA and activating promoters dependent on the sigma factor 54 ([sigma]54), typically related to the transcription of genes linked to nitrogen metabolism. The most common methods for detecting binding regions of NtrC protein to DNA are experimental laboratory analyzes, which can be an expensive and time-consuming process. To assist in this task, we propose a predictor tool for regions related to the NtrC protein binding site from whole-genome. The tool contains an artificial neural network that has gone through the supervised training process. About the training data, we used sets of NtrC promoter regions previously confirmed and available in open databases to compose the true data set. To compose the set of false regions we use randomly generated regions, regions taken from model organisms, and regions from other transcription factors. In order to select which is the best feature extraction process and the most appropriate neural network model to solve the problem we use different and sliding windows and orthonormal bases. These previously classified sets were grouped and shuffled and went through the classification models MLP, SVM, RBF, DT, KNN, NB, and RF using the sklearn package (Python 3) and software MATLAB, and a FAN based model with EasyFan software. After testing NCBI database genomes and comparing it with data available in transcription factor databases, the network is available in a web tool so it could be used by the public
Collections
- Dissertações [67]