Dissertações/Teses

Clique aqui para acessar os arquivos diretamente da Biblioteca Digital de Teses e Dissertações da UFRN

2022
Dissertações
1
  • MARIA JULIA PEREIRA DAVI
  • DESENHO E VALIDAÇÃO IN SILICO DE INICIADORES PARA DETECÇÃO DO CORONAVÍRUS 2 CAUSADOR DA SÍNDROME RESPIRATÓRIA AGUDA GRAVE (SARS-COV-2)

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • TAFFAREL MELO TORRES
  • Data: 06/04/2022

  • Mostrar Resumo
  • O desenho de iniciadores para reação em cadeia da polimerase (PCR) que tenham como alvo segmentos conservados de genomas virais é importante para prevenir resultados falso- negativos e diminuir a necessidade de padronização de diferentes protocolos de PCR para o mesmo alvo. Neste trabalho, foi projetado e descrito um conjunto de iniciadores e sondas que têm como alvo regiões conservadas identificadas a partir de alinhamento múltiplo de 2.341 genomas de SARS-CoV-2 disponíveis no banco de dados GISAID (Global Initiative on Sharing All Influenza Data). Subsequentemente os iniciadores foram validados juntamente com as sondas em 211.833 sequências de genomas completos de SARS-CoV-2. Foram obtidos nove sistemas (primer direto+reverso+sondas) que potencialmente se anelam às regiões altamente conservadas do genoma do vírus identificadas nessa análise. Predições in silico também demonstraram que os iniciadores não interagem com alvos não-específicos em sequências de humanos, bactérias, fungos, Apicomplexa e outros betacoronavirus e linhagens menos patogênicas do coronavírus. A publicação das sequências destes iniciadores e sondas tornará possível validar protocolos mais eficientes para identificação do SARS-CoV-2.


  • Mostrar Abstract
  • The design of polymerase chain reaction (PCR) primers that target conserved segments of viral genomes is important to prevent false-negative results and reduce the need to standardize different PCR protocols for the same target. In this work, we designed and described a set of primers and probes that target conserved regions identified from multiple alignment of 2,341 SARS-CoV-2 genomes available in the GISAID (Global Initiative on Sharing All Influenza Data) database. Subsequently, the primers were validated together with the probes on 211,833 sequences from the entire genomes of SARS-CoV-2. Nine systems were obtained (primer forward+reverse+probes) that potentially anneal to the highly conserved regions of the virus genome identified in this analysis. In silico predictions also demonstrated that the primers do not interact with non-specific targets in sequences from humans, bacteria, fungi, Apicomplexa and other betacoronaviruses and less pathogenic coronavirus strains. The publication of these primer and probes sequences will make it possible to validate more efficient protocols for identifying SARS-CoV-2.

2
  • MATHEUS GIBEKE SIQUEIRA DALMOLIN
  • Análise baseada em biologia de sistemas destaca processos alterados que afetam a sobrevida geral de pacientes com sarcoma de Ewing

  • Orientador : MARIALVA SINIGAGLIA
  • MEMBROS DA BANCA :
  • MARIALVA SINIGAGLIA
  • RITA MARIA CUNHA DE ALMEIDA
  • LAURO JOSÉ GREGIANIN
  • Data: 06/04/2022

  • Mostrar Resumo
  • O Sarcoma de Ewing (SE) é uma doença altamente agressiva, sendo a segunda neoplasia óssea pediátrica mais frequente. A marca registrada do SE é a presença do fator de transcrição aberrante EWSR1-FLI que impulsiona a reprogramação metabólica no SE. A taxa de sobrevida dos pacientes de SE aumentou à custa da alta toxicidade que limita as taxas de sobrevida e causa morbidade significativa. Portanto, é crucial identificar e obter uma compreensão completa das vias que afetam a sobrevivência dos pacientes para o desenvolvimento de novos diagnósticos e estratégias terapêuticas. Aqui, identificamos diferenças no nível de expressão entre os sobreviventes de curto prazo e os de longo prazo com base em dados transcricionais disponíveis em três conjuntos de dados públicos, aplicando a análise do transcriptograma. Três grupos de genes diferencialmente expressos comuns às três coortes analisadas foram identificados. Processos relacionados à resposta e reparo ao dano do DNA, resposta imune, apoptose e autofagia foram desregulados entre os grupos com sobrevida curta e sobrevida longa. Além disso, o enriquecimento funcional dos genes comuns entre cada um dos três clusters e pelo menos um regulon de reguladores mestres específicos de SE, destacam a alta expressão da via Hippo em pacientes com sobrevida curta. Nossa análise sugere que diferentes processos podem estar orientando o desfecho de pacientes com SE de forma integrada e podem contribuir para a diversidade de fenótipos impulsionados pela flutuação da expressão de EWSR1- FLI1.


  • Mostrar Abstract
  • Ewing’s Sarcoma (ES) is a highly aggressive disease and the second most frequent pediatric bone neoplasm. The ES hallmark is the presence of the aberrant transcription fator EWSR1-FLI that drives metabolic reprogramming in ES. The ES survival rate has increased at the cost of high toxicity that limits survival rates and causes significant morbidity. Therefore it is crucial to identify and obtain a complete understanding of the pathways that impact ES survival for development of novel diagnostics and therapeutic strategies. Here, we identified differences at the transitional level between ES patients with short-term survivors (STS) and long-term survivors (LTS) based on transcriptional data available in three public datasets, applying the transcriptogram analysis. Three differentially expressed clusters commons across the cohorts analyzed were identified. Processes related to DNA damage response and repair, immune response, apoptosis and autophagy were dysregulated between the STS and LTS groups. Furthermore, the functional enrichment of the common genes between three clusters and ES regulons highlight the upregulation of the Hippo pathway in STS patients. Our analysis suggests that different processes may be guiding the outcome of ES patients in an integrated way and may contribute to the diversity of phenotypes driven by the EWSR1-FLI1 expression fluctuation.

3
  • DÉBORA VIRGÍNIA DA COSTA E LIMA
  • O Uso de Redes Neurais Artificiais na Análise de Dados de Câncer de Pulmão

  • Orientador : ADRIAO DUARTE DORIA NETO
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • BEATRIZ STRANSKY FERREIRA
  • TAFFAREL MELO TORRES
  • TETSU SAKAMOTO
  • Data: 12/05/2022

  • Mostrar Resumo
  • O câncer de pulmão representa a principal causa de morte com câncer no mundo, e possui altos níveis de incidência. Assim como outros tipos de câncer, pode ocorrer por diversas causas, de genéticas à ambientais, por isso estudos realizados a partir de diferentes tipos de dados podem ser relevantes para o controle dessa neoplasia, especialmente quando considerados fatores que têm impacto na sobrevivência dos pacientes. No contexto do câncer de pulmão, esse estudo foi desenvolvido para utilizar deep learning a fim de prever a sobrevivência de pacientes. Para tanto foram obtidos dados clínicos e moleculares presentes em bancos de dados do TCGA (The Cancer Genome Atlas) referentes às coortes LUSC (Carcinoma de Células Escamosas do Pulmão) e LUAD (Adenocarcinoma do pulmão), seguido da análise de das alterações genômicas, e aplicação de redes neurais usando como entrada os genes frequentemente mutados para cada coorte, seleção de genes chave e validação com outro banco de dados. As coortes apresentaram diferenças na sobrevida entre si quando submetidas ao método de Kaplan-Meier e ao teste Log-Rank. Na análise genômica, foram selecionados todos os genes com frequência de mutação superior a 15%, sendo encontrados 34 genes para LUAD e 32 para LUSC. A utilização desses genes como entrada nas redes construídas possibilitou a geração das redes LUSC e LUAD com 100% de acurácia, identificando, de acordo com as mutações, se o paciente estava vivo ou morto. Além disso, foi obtida também uma rede LUSC usando como validação um outro banco de dados o LUSC-KR que alcançou 99% de acurácia. Desta forma, este trabalho mostrou que a utilização de genes com mutações frequentes associadas ao uso de deep learning é uma ferramenta robusta e permite predizer a sobrevida de pacientes com câncer de pulmão.


  • Mostrar Abstract
  • Lung cancer represents the leading cause of cancer death worldwide and has a high incidence. Like other types of cancer, it can occur due to different causes, from genetics to environmental ones, so studies carried out using different types of data may be relevant for the control of this neoplasm, especially when considering factors that have an impact on patient survival. In the context of lung cancer, this study uses deep learning to predict patient survival. Clinical and molecular data from TCGA (The Cancer Genome Atlas) databases were obtained for the LUSC (Lung Squamous Cell Carcinoma) and LUAD (Lung Adenocarcinoma) cohorts, followed by the analysis of the genomic alterations, and application of neural networks using as input the frequently mutated genes for each cohort, selection of key genes and validation with another database. The cohorts showed differences in survival among themselves when subjected to the Kaplan-Meier method and the Log-Rank test. In the genomic analysis, all genes with a mutation frequency above 15% were selected, and 34 genes were found for LUAD and 32 for LUSC. The use of these genes as input in the constructed networks made it possible to generate the LUSC and LUAD networks with 100% accuracy, identifying, according to the mutations, whether the patient was alive or dead. In addition, a LUSC network was also obtained using another LUSC-KR database as validation, which reached 99% accuracy. In this way, this work showed that the use of genes with frequent mutations associated with deep learning is a robust tool and allows predicting the survival of patients with lung cancer.

     
Teses
1
  • EMMANUEL DUARTE BARBOSA
  • Investigação de complexos proteína-ligante por métodos de bioquímica quântica e evolução molecular

  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • UMBERTO LAINO FULCO
  • JOAO PAULO MATOS SANTOS LIMA
  • EUDENILSON LINS DE ALBUQUERQUE
  • LUIZ ANTONIO RIBEIRO JUNIOR
  • VALDER NOGUEIRA FREIRE
  • Data: 21/02/2022

  • Mostrar Resumo
  • Esta tese apresenta três pesquisas realizadas na esfera da modelagem molecular baseadas em princípios da Mecânica Quântica. Adicionalmente, métodos de evolução molecular complementaram alguns resultados. O primeiro estudo retrata o desempenho dos resultados de energia e de custo computacional de 9 combinações de modelos baseados em DFT (DFT -- do inglês, Density Functional Theory) em um sistema organometálico formado pelo cátion de zinco divalente e a enzima Porfobilinogênio Sintase PBGS. As energias de interação foram obtidas empregando o esquema de Fragmentação com Capas Conjugadas (MFCC). Os resultados do perfil de energia de interação total apresentaram diferenças quantitativas lineares, mas demonstraram-se qualitativamente uniformes. A dependência do tempo de processamento computacional mostrou-se mais associada à escolha do conjunto de base do que o funcional de troca e correlação. O segundo estudo apresenta uma descrição bioquímica a partir dos resultados de energia de interação obtidos no estudo anterior, analisando o perfil bioquímico dos resíduos mais relevantes de PBGS que interagem com o zinco. Além disso, foi feito uma análise filogenética e de agrupamento que avaliaram a conservação dos aminoácidos relevantes identificados no sistema zinco-PBGS. As interações intermoleculares mais importantes se deram pela participação dos aminoácidos CIS0122, CIS0124, CIS0132, ASP0169, SER0168, ARG0221, HIS0131, ASP0120, GLY0133, VAL0121, ARG0209 e ARG0174. Dentre esses resíduos, ASP0120, GLI0133, HIS0131, SER0168 e ARG0209 destacaram-se por ocorrer em todos os grupos gerados pela análise de agrupamento não supervisionada. Por outro lado, as cisteínas triplas a 2,5 Å do zinco (CIS0122, CIS0124 e CIS0132) apresentaram a maior de energia atração nos cálculos quânticos são ausentes nos táxons Viridiplantae, Sar, Rhodophyta e em alguns grupos de Bacteria. Já o terceiro trabalho apresentado aqui investiga as interações entre a toxina Lys49-PLA 2 da peçonha de Bothrops moojeni, a qual causa necrose tecidual em vítimas de acidentes ofídicos, e dois compostos (varespladib, aspirina) com potencial para inibir a atividade miotóxica dessas proteínas. A partir desse estudo, foi possível predizer a relevância dos aminoácidos que compõem o sítio de ligação da toxina Lys49-PLA 2 , dentre eles pode-se citar LIS0069, LIS0049, LEU0005, ILE0009, CIS0029, GLI0030, HIS0048, PRO0018, ALA0019, CIS0045, TIR0052, TIR0022, PRO0125* e FEN0126* que ancoram varespladib e os resíduos LIS0069, LIS0049, GLI0032, LEU0002, e LEU0005 para o composto aspirina.

     


  • Mostrar Abstract
  • This thesis presents three studies carried out in the sphere of molecular modeling based on principles of Quantum Mechanics. Additionally, molecular evolution methods complemented some results. The first study portrays the particularities of the performance of the energy and computational cost results of 9 combinations of models based on DFT (DFT -- Density Functional Theory) in an organometallic system formed by the divalent zinc cation and the enzyme Porphobilinogen Synthase PBGS. The interaction energies were obtained using the Fragmentation with Conjugated Caps (MFCC) scheme. The results of the total interaction energy profile showed linear quantitative differences, but were qualitatively uniform. The computational processing time dependency is more associated with the choice of basis set than the exchange and correlation functional. The second study presents a biochemical description from the interaction energy results obtained in the previous study, analyzing the biochemical profile of the most relevant PBGS residues that interact with zinc. In addition, a phylogenetic and cluster analysis was performed that evaluated the conservation of the relevant amino acids identified in the zinc-PBGS system. The most important intermolecular interactions were due to the participation of amino acids CS0122, CIS0124, CIS0132, ASP0169, SER0168, ARG0221, HIS0131, ASP0120, GLY0133, VAL0121, ARG0209, and ARG0174. Among these residues, ASP0120, GLI0133, HIS0131, SER0168, and ARG0209 stood out for occurring in all groups generated by the unsupervised cluster analysis. On the other hand, triple cysteines at 2.5 Å of zinc (CIS0122, CIS0124, and CIS0132) showed the highest attraction energy and are absent in Viridiplantae, Sar, Rhodophyta, and in some groups of Bacteria. The third work presented here investigates the interactions between the Lys49-PLA 2 toxin from the venom of Bothrops moojeni, which causes tissue necrosis in snakebite victims, and two compounds (varespladib, aspirin) with the potential to inhibit the myotoxic activity of these proteins. The methodology utilized here also uses quantum methods based on DFT within the MFCC scheme. From this study, it was possible to predict the relevance of the amino acids that form the Lys49-PLA 2 binding site, among them, we can mention LIS0069, LIS0049, LEU0005, ILE0009, CIS0029, GLI0030, HIS0048, PRO0018, ALA0019, CIS0045, TIR0052, TIR0022, PRO0125*, and FEN0126* which anchor varespladib and residues LIS0069, LIS0049, GLI0032, LEU0002, and LEU0005 which anchor aspirin.

2
  • DIEGO ARTHUR DE AZEVEDO MORAIS
  • MEDUSA: UM FLUXO DE TRABALHO PARA CLASSIFICAÇÃO TAXONÔMICA E ANOTAÇÃO FUNCIONAL DE METAGENOMAS

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • Jorge Estefano de Santana Souza
  • LUCYMARA FASSARELLA AGNEZ LIMA
  • DIEVAL GUIZELINI
  • FABIANO CORDEIRO MOREIRA
  • Data: 14/04/2022

  • Mostrar Resumo
  • A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro- organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology.


  • Mostrar Abstract
  • Metagenomics involves the study of the microbial community found in a sample extracted from a given environment. This environment may be a cave wall, a portion of ocean water, the human gut, or any source containing microorganisms of interest. Such studies unravel details about the taxonomic composition and the functions performed by microbial communities. As a complete metagenomic analysis requires different tools for different purposes, the selection and setup of these tools remain challenging. Furthermore, the chosen toolset will affect the accuracy, the formatting, and the functional identifiers reported in the results, impacting the results interpretation and the biological answer obtained. The work presented here aims to propose a pipeline to be used in taxonomic and functional metagenomic analyses. To this end, state-of-the-art tools available in the literature were surveyed, and mock datasets were created to perform benchmarks. As a result, suited tools were selected for each analysis step, and a sensitive and flexible metagenomic analysis pipeline was designed. MEDUSA, an efficient pipeline to conduct comprehensive metagenomic analyses, performs preprocessing, assembly, alignment, taxonomic classification, and functional annotation on shotgun data, supporting user-built dictionaries to transfer annotations to any functional identifier. MEDUSA includes several tools, such as fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, and a novel tool implemented in Python to transfer annotations to BLAST/DIAMOND alignment results. These tools are installed via Conda, and the workflow is managed by Snakemake, easing the setup and execution. Compared with MEGAN 6 Community Edition, MEDUSA correctly identifies more species, especially the less abundant, and is more suited for functional analysis using Gene Ontology identifiers.

3
  • PATRICK CESAR ALVES TERREMATTE
  •  Uma nova assinatura de 13 genes via aprendizagem de máquina para predição de sobrevida de pacientes com carcinoma renal de células claras

  • Orientador : ADRIAO DUARTE DORIA NETO
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • BEATRIZ STRANSKY FERREIRA
  • CICILIA RAQUEL MAIA LEITE
  • DANIEL SABINO AMORIM DE ARAUJO
  • PAULO PIMENTEL DE ASSUMPÇÃO
  • TETSU SAKAMOTO
  • Data: 13/05/2022

  • Mostrar Resumo
  • Pacientes com carcinoma renal de células claras (ccRCC) têm prognósticos ruins, especialmente em caso de metástase. Neste sentido, é de suma importância identificar biomarcadores em dados genômicos para ajudar a prever o avanço do ccRCC e eventuais resistência a tratamentos. Assim, realizamos um estudo com o objetivo de avaliar assinaturas gênicas e propor uma nova assinatura com maior poder preditivo. Usando coortes ccRCC do The Cancer Genome Atlas (TCGA-KIRC) e do International Cancer Genome Consortium (ICGC-RECA), avaliamos modelos de sobrevida usando regressão de Cox comparando 14 assinaturas da literatura e seis métodos de seleção de características, e também realizamos análise funcional e de expressão diferencial. Neste estudo, apresentamos uma assinatura de 13 genes (AR, AL353637.1, DPP6, FOXJ1, GNB3, HHLA2, IL4, LIMCH1, LINC01732, OTX1, SAA1, SEMA3G, ZIC2) cujos níveis de expressão são capazes de prever risco de pacientes com ccCRC. A assinatura gênica de melhor desempenho foi alcançada usando o método de comitês de Mínima Redundância e Máxima Relevância (mRMR). Essa assinatura apresenta características únicas em relação às demais, como a generalização por diferentes coortes e o enriquecimento funcional em vias relacionadas à doenças: Carcinoma Urotelial, Doença Renal Crônica, Carcinoma de células de transição, e Nefrolitíase. Dos 13 genes em nossa assinatura, oito são conhecidos na literatura por estarem correlacionados com a sobrevida de pacientes com ccRCC e quatro são relacionados ao sistema imunológico. Nosso modelo mostrou um desempenho de 0,82 usando a métrica Receiver Operator Characteristic (ROC) Area Under Curve (AUC). Nossos resultados revelaram dois agrupamentos de genes com alta expressão (SAA1, OTX1, ZIC2, LINC01732, GNB3 e IL4) e baixa expressão (AL353637.1, AR, HHLA2, LIMCH1, SEMA3G, DPP6 e FOXJ1), ambos correlacionados com prognóstico ruins. Esta assinatura pode potencialmente ser desenvolvida para auxiliar tratamentos na prática clínica.

  • Mostrar Abstract
  • Patients with clear cell renal cell carcinoma (ccRCC) have poor survival outcomes, especially if it has metastasized. It is of paramount importance to identify biomarkers in genomic data that could help predict the aggressiveness of ccRCC and its resistance to drugs. Thus, we conducted a study with the aims of evaluating gene signatures and proposing a novel one with higher predictive power and generalization in comparison to the former signatures. Using ccRCC cohorts of the Cancer Genome Atlas (TCGA-KIRC) and International Cancer Genome Consortium (ICGC-RECA), we evaluated linear survival models of Cox regression with 14 signatures and six methods of feature selection, and performed functional analysis and differential gene expression approaches. In this study, we established a 13-gene signature (AR, AL353637.1, DPP6, FOXJ1, GNB3, HHLA2, IL4, LIMCH1, LINC01732, OTX1, SAA1, SEMA3G, ZIC2) whose expression levels are able to predict distinct outcomes of patients with ccRCC. Moreover, we performed a comparison between our signature and others from the literature. The best-performing gene signature was achieved using the ensemble method Min-Redundancy and Max-Relevance (mRMR). This signature comprises unique features in comparison to the others, such as generalization through different cohorts and being functionally enriched in significant pathways: Urothelial Carcinoma, Chronic Kidney disease, and Transitional cell carcinoma, Nephrolithiasis. From the 13 genes in our signature, eight are known to be correlated with ccRCC patient survival and four are immune-related. Our model showed a performance of 0.82 using the Receiver Operator Characteristic (ROC) Area Under Curve (AUC) metric and it generalized well between the cohorts. Our findings revealed two clusters of genes with high expression (SAA1, OTX1, ZIC2, LINC01732, GNB3 and IL4) and low expression (AL353637.1, AR, HHLA2, LIMCH1, SEMA3G, DPP6, and FOXJ1) which are both correlated with poor prognosis. This signature can potentially be used in clinical practice to support patient treatment care and follow-up.

2021
Dissertações
1
  • PITÁGORAS DE AZEVEDO ALVES SOBRINHO
  • RNA-Gatherer: uma ferramenta computacional para anotação de RNAs não-codificantes em organismos pouco conhecidos

  • Orientador : WILFREDO BLANCO FIGUEROLA
  • MEMBROS DA BANCA :
  • WILFREDO BLANCO FIGUEROLA
  • Jorge Estefano de Santana Souza
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 29/01/2021

  • Mostrar Resumo
  • RNAs não-codificantes são moléculas que desempenham papéis decisivos em vários tipos de regulação genética. Identificar eles é essencial para entender a genética de uma espécie. Diversos fatores, como: baixo nível de expressão, amplo espectro de subtipos, atributos diversos, funções heterogêneas e ausência de homologia entre espécies; fazem a detecção de ncRNAs um desafio. Estratégias de bioinformática recentes para detecção genes de ncRNA tentam identificar suas localizações nos genomas e suas estruturas secundárias, usando modelos de covariância e inteligência artificial. A co-expressão desses genes também vem sendo analisada computacionalmente para revelar anotações funcionais. No entanto, não há consenso sobre quais métricas e parâmetros usar no processo de prever as funções dessas moléculas. Em organismos pouco conhecidos, como Arapaima gigas, a falta de informações de referência aumenta essa dificuldade. Além disso, principalmente para RNAs longos não- codificantes, há poucas funções conhecidas, o que torna difícil explicar os papéis desses genes e avaliar a qualidade das predições. Neste trabalho, é descrito um software para descobrir os genes não-codificantes, de diversos tipos, e suas funções em espécies de eucariotos. Este foi validado com uma espécie modelo, o camundongo, e utilizado para explorar o panorama de ncRNAs numa espécie pouco estudada, o Arapaima gigas. A comparação da semelhança entre funções de genes co-expressos nos permitiu definir níveis de confiança para as métricas de calcular co- expressão, e assim, desenvolver uma pipeline de predição funções para lncRNA, a qual inclui métricas para calcular correlações não- lineares. O pacote de software descrito aqui fez 63307 anotações não-codificantes em A. gigas, incluindo 11 tipos de ncRNA e 4 de regiões cis-regulatórias. Dessas anotações, apenas 706 eram similares a ncRNAs já conhecidos em outras espécies e os restantes não haviam sido descritos anteriormente. A análise exploratória dos lncRNAs também revelou 19854 lncRNAs de tecido específico e 256 lncRNAs expressos de forma onipresente. Prever as funções dessas moléculas também revelou que elas estão envolvidas na pigmentação da pele, diferenciação sexual, crescimento e defesa contra tumores.


  • Mostrar Abstract
  • Non-coding RNAs are molecules that play decisive roles in several types of gene regulation. Identifying them is necessary for understanding the genetics of a species. Several factors, such as: low level of expression, the broad spectrum of subtypes, diverse attributes, heterogeneous functions and absence of homology between species; make the detection of ncRNAs genes a challenge. The latest bioinformatics strategies for detecting ncRNA genes have tried to identify their locations in the genomes and their secondary structures, using covariance models and artificial intelligence. The co-expression of these genes has been computationally analyzed in order to reveal their functional annotations. However, there is no consensus on which metrics and parameters to use in the process of predicting the functions of these molecules. In organisms little known, such as Arapaima gigas, the lack of reference information increases the difficulty. Additionally, even for known long non-coding RNAs, there is little functional information, which makes it difficult to explain the roles of these genes. In this work, we describe a software for discovering the non-coding genes, including their diverse types, and their functions in eukaryotic genomes. It was validated by annotating a model species (Mus musculus) and then used to explore the landscape of ncRNA in Arapaima gigas. Comparing the similarity between the functions of co- expressed genes allowed us to define confidence levels for the metrics that measure co-expression, and thus, develop a pipeline for predicting lncRNA functions, which includes metrics for non-linear correlations. The described software suite made 63307 non-coding annotations in A. gigas, including 11 types of ncRNA and 4 types of cis-regulatory regions. Of these annotations, only 706 are similar to ncRNAs already known in other species and the remaining were never described before. The exploratory analysis of lncRNA also revealed 19854 tissue specific lncRNAs and 256 lncRNAs ubiquitously expressed. Predicting the functions of these molecules revealed RNAs involved in skin pigmentation, sex differentiation, growth and defense against tumors.

2
  • TAYRONE DE SOUSA MONTEIRO
  • Engenharia reversa de redes regulatórias do meduloblastoma e inferência de reguladores mestres

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • RITA MARIA CUNHA DE ALMEIDA
  • MARIALVA SINIGAGLIA
  • Data: 31/08/2021

  • Mostrar Resumo
  • O meduloblastoma é um câncer do cerebelo que afeta majoritariamente a população pe- diátrica. Este tumor é classificado em quatro subgrupos molecularmente diferentes (WNT, SHH, grupo 3 e grupo 4), onde cada cada um também apresenta características clínicas distintas. Alguns drivers epigenéticos do meduloblastoma já foram descritos por alguns estudos, entretanto, a inferência de suas redes regulatórias e de seus reguladores mestres só é citada uma vez, na literatura. Aqui, foram inferidas as redes regulatórias dos subgrupos SHH, grupo 3 e grupo 4. Após isso, foi identificado um grupo de 10 unidades regulatórias simultaneamente identificadas como reguladores mestres e regulões diferencialmente me- tilados, posteriormente nomeado de “regulões de interesse”. Foi percebido que o padrão de atividade destes regulões varia de acordo com o subgrupos. A análise de enriquecimento de vias do KEGG também foi aplicada, levando em conta o conteúdo de todos os regulões de interesse em cada rede regulatória. Dois termos do KEGG foram identificados conco- mitantemente para os três subgrupos investigados. Este trabalho auxilia na compreensão do reguloma do meduloblastoma, identificando possíveis reguladores mestres, analisando seu metiloma e indicando potenciais alvos terapêuticos.


  • Mostrar Abstract
  • Medulloblastoma (MB) is a cancer of the cerebellum occurring most frequently in the pe- diatric population. This tumor is classified into four distinct molecular subgroups (WNT, SHH, group 3 and group 4), each one also presenting unique clinical features. Some medul- loblastoma epigenetic drivers have been reported by some studies, although the inference of regulatory networks and master regulators have been mentioned only once. Here, we inferred the transcriptional regulatory networks of SHH, group 3 and group 4 subgroups and recognized 10 regulatory units as master regulators and differentially methylated regulons, simultaneously, for all investigated subgroups, subsequently named as the “re- gulons of interest”. The activity pattern of these regulons was observed to vary across subgroups. KEGG pathway enrichment analysis was also done, considering the content of all regulons of interest in each regulatory network. Two KEGG terms were found con- comitantly for all investigated subgroups. This work contributes to the comprehension of the medulloblastoma regulome, identifying prospective master regulators, analyzing their methylome and pointing to potential therapeutic targets.

3
  • LUKAS IOHAN DA CRUZ CARVALHO
  • Analises de redes moleculares de co-expressão genica revelam vias importantes na doença de Alzheimer e Paralisia Supranuclear Progressiva

  • Orientador : MARCOS ROMUALDO COSTA
  • MEMBROS DA BANCA :
  • MARCOS ROMUALDO COSTA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • TARCISO ANDRE FERREIRA VELHO
  • RICARDO AUGUSTO DE MELO REIS
  • Data: 28/09/2021

  • Mostrar Resumo
  • As demências, doenças neurodegenerativas onde há perda de funções cognitivas, tiveram sua incidência aumentada nos últimos anos, principalmente por causa do aumento da longevidade na população mundial como um todo. O entendimento do início e progressão dessas patologias pode ajudar na identificação de tratamentos preventivos para essas doenças. Neste trabalho, utilizando dados humanos referentes a duas doenças neurodegenerativas (Alzheimer e Paralisia Supranuclear Progressiva) de duas regiões cerebrais (córtex temporal e cerebelo) e dois modelos animais, 5XFAD de amiloidopatia e TauD35 de taupatia, fizemos uma análise integrativa a nível gene/transcrito aliada a uma análise de co-expressão para identificar similaridades e discrepâncias nos processos biológicos afetados por essas duas doenças. Para que pudéssemos comparar os diferentes dados utilizamos a única variável comum em todos os datasets: a idade da morte. Desse modo dividimos os dados humanos em 3 grupos: A (70- 80), B (81-89) e C (90+); e os animais em grupos de 4 meses, 12 meses, 17 meses e 18 meses. Os resultados da análise transcricional mostraram que alterações imunes estão presentes em AD apenas no córtex temporal, e não no cerebelo, e que alteração na transmissão sináptica ocorre tardiamente (grupos B e C), e são encontradas apenas quando utilizamos genes com isoformas alteradas no processo de enriquecimento funcional em conjunto com os genes diferencialmente expressos. Na PSP, todas as alterações encontradas imunes e de transmissão sináptica são encontradas apenas nos dados de córtex temporal; no entanto, todas as alterações são específicas para o grupo A. Nos modelos animais, as alterações em 5XFAD são semelhantes às encontradas em AD, alterações da resposta imune-inflamatória presentes em grupos precoces (4 meses) e sinápticas em um grupo mais tardio (18 meses). Em TauD35, no entanto, as alterações imunes ocorrem apenas no grupo de 17 meses, enquanto as sinápticas foram no grupo de 4 meses. Além desses resultados, observamos que as alterações em isoformas (gDTUS) estão presentes quase que exclusivamente em humanos, e principalmente em AD. Para refinar os nossos resultados, utilizamos uma abordagem de coexpressão e identificamos módulos com expressão e assinaturas gênicas específicas. Em AD os módulos envolvendo sinapses não apresentavam diferenças para o controle, no entanto, os módulos relativos à reposta imune-inflamatória, matriz extracelular e reposta a fator de crescimento estavam com maior atividade nos indivíduos com AD. Na PSP, os módulos com atividade sináptica apresentaram maior atividade em relação ao controle, enquanto aqueles relacionados com resposta imune tiveram uma atividade menor. Para confirmar a identidade genética desses módulos, utilizamos os genes encontrados nos mesmos e observamos que havia correspondência entre os módulos relacionados à resposta imune-inflamatória com células microgliais e sinápticos com neurônios glutamatérgicos. Além desses achados, também encontramos que a resposta imune-inflamatória e associada, em AD, a região analisada, dado os resultados encontrados na análise de outro dataset (MSBB). Por fim, encontramos genes identificados como fatores de risco para AD, como PTK2B, TREM1 e TREM2 nos módulos, além de MOB e SA4D nos módulos identificados na PSP. Em conjunto, esses resultados sugerem que no modelo de amiloidopatia e em AD, alterações na sinalização sináptica formam um feedback positivo com a resposta imune-inflamatória, sendo esta posterior a primeira; enquanto no modelo de taupatia e PSP, os efeitos na inflamação são secundários às alterações sinápticas.


  • Mostrar Abstract
  • The incidence of neurodegenerative diseases leading to impairment of cognitive functions and dementia have increased in recent years, mainly because of enhanced longevity in the population worldwide. Understanding the onset and progression of these pathologies can help to develop preventive and disease-modifying treatments for these diseases. In this work, using RNA-seq data obtained from two brain regions (temporal cortex and cerebellum) of human patients diagnosed with neurodegenerative diseases (Alzheimer or Progressive Supranuclear Palsy) and two animal models, 5XFAD of amyloidopathy and TauD35 of tauopathy, we performed an integrative analysis at the gene/transcript level combined with a co- expression analysis to identify similarities and discrepancies in the biological processes affected by these two diseases. So that we could compare the different data, we used the only common variable in all datasets: age of death. Thus, we divided the human data into 3 groups: A (70-80), B (81-89) and C (90+); and animals in groups of 4 months, 12 months, 17 months and 18 months. The results of the transcriptional analysis showed that gene expression alterations associated with immune-inflammatory alterations are present in AD only in the temporal cortex and not in the cerebellum, and that alteration related to synaptic transmission occurs late (groups B and C), and are found only when we use genes with isoform switches in the analysis of functional enrichment in conjunction with differentially expressed genes. In PSP, all changes associated with immune-inflammatory responses and synaptic transmission are found exclusively in temporal cortex data; however, all changes are specific for group A. In animal models, changes in 5XFAD are similar to those found in AD human brains, with gene expression alterations associated with the immune-inflammatory response present early (4 months) and synaptic terms only at late pathological stages (18 months). In TauD35 mice, this pattern is inverted, with gene expression changes associated with immune- inflammatory response identified only late (17-month group), whereas those associated with synapses could be identified early (4-month group). In addition to these results, we observed that changes in isoforms (gDTUS) are present almost exclusively in humans, and especially in AD. To refine our results, we used a co-expression approach and identified modules with specific expression and gene signatures. In AD, modules involving synapses did not differ from control, however, modules related to immune-inflammatory response, extracellular matrix and growth factor response were more active in individuals with AD. In PSP, modules with synaptic activity showed greater activity compared to control, while those related to immune response had a lower activity. To confirm the genetic identity of these modules, we also mappedmodule-specific genes to different cell types of the brain using single-cell RNA-seq data. This analysis revealed a correspondence between modules related to the immune-inflammatory response with microglial cells and, to a lesser extent in AD, astrocytes, synaptic cells with glutamatergic neurons and myelination with oligodendrocytes. Finally, we show that genes identified as risk factors for AD or PSP are present in specific co-expression. Together, these results suggest that in the amyloidopathy model and in AD, alterations in synaptic signaling form a positive feedback with the immune inflammatory response, the latter being the first; while in the model of tauopathy and PSP, the effects on inflammation are secondary to synaptic changes.

4
  • ANDRÉ LUIZ DE LUCENA MOREIRA
  • Estratégias evolutivas aplicadas a redes de regulação gênicas artificiais

  • Orientador : CESAR RENNO COSTA
  • MEMBROS DA BANCA :
  • CESAR RENNO COSTA
  • WILFREDO BLANCO FIGUEROLA
  • DIOGO SANTOS PATA
  • Data: 29/09/2021

  • Mostrar Resumo
  • Redes de regulação gênica (GRNs) influenciam a resposta comportamental dos indivíduos quando submetidos a diferentes contextos, além de participarem de processos extremamente importantes para a vida, como diferenciação celular, metabolismo e evolução. Modelos computacionais de redes de regulação gênica, associados à inteligência artificial, possibilitam-nos criar soluções adaptáveis e independentes de contexto. Neste trabalho, simulamos a evolução de GRNs com o objetivo de avaliar como eventos de variação de ambiente e crescimento de rede impactam na capacidade de aprendizado do modelo. Para isso, criamos populações de indivíduos representados por redes de regulação gênicas artificiais (AGRNs), com características físicas e comportamentos baseados em bactérias. Submetemos então essas populações às tarefas: “Orientação a Objetivo”, “Fototaxia” e “Fototaxia com Obstáculos”, avaliando como os eventos de duplicação de gene único, duplicação de genoma completo e mudança de contexto afetam a evolução da população. Os resultados indicaram que um aumento gradual de complexidade das tarefas realizadas é benéfico para a evolução do modelo. Além disso, vimos que redes de regulação gênica maiores são necessárias para tarefas mais complexas, sendo a duplicação de gene único uma boa estratégia evolutiva para o crescimento dessas redes, ao contrário da duplicação de genoma completo. Estudar como GRNs evoluíram em meio biológico nos possibilita não só melhorar os modelos computacionais produzidos, como também prover insights sobre aspectos e eventos que influenciaram o desenvolvimento da vida na terra.


  • Mostrar Abstract
  • Evolution optimizes cellular behavior throughout sequential generations by selecting the successful individual cells in a given context. As gene regulatory networks (GRNs) determine the behavior of single cells by ruling the activation of different processes - such as cell differentiation and death - how GRNs change from one generation to the other might have a relevant impact on the course of evolution. It is not clear, however, which mechanisms that affect GRNs effectively favor evolution and how. Here, we use a population of computational robotic models controlled by artificial gene regulatory networks (AGRNs) to evaluate the impact of different genetic modification strategies in the course of evolution. The virtual agent senses the ambient and acts on it as a bacteria in different phototaxis-like tasks - orientation to light, phototaxis, and phototaxis with obstacles. We studied how the strategies of gradual and abrupt changes on the AGRNs impact evolution considering multiple levels of task complexity. The results indicated that a gradual increase in the complexity of the performed tasks is beneficial for the evolution of the model. Furthermore, we have seen that larger gene regulatory networks are needed for more complex tasks, with single-gene duplication being an excellent evolutionary strategy for growing these networks, as opposed to full-genome duplication. Studying how GRNs evolved in a biological environment allows us to improve the computational models produced and provide insights into aspects and events that influenced the development of life on earth.

5
  • PAULO HENRIQUE LOPES CARLOS
  • O impacto das intervenções não farmacêuticas governamentais em cidades brasileiras durante o primeiro surto pandêmico de SARS-CoV-2: Um estudo de modelagem computacional baseado em agentes na cidade de Natal

  • Orientador : WILFREDO BLANCO FIGUEROLA
  • MEMBROS DA BANCA :
  • WILFREDO BLANCO FIGUEROLA
  • CESAR RENNO COSTA
  • RENAN CIPRIANO MOIOLI
  • LEANDRO DE ALMEIDA
  • Data: 25/10/2021

  • Mostrar Resumo
  • A primeira onda da pandemia de síndrome respiratória aguda grave coronavírus 2 (SARS- CoV-2) atingiu quase todas as cidades do Brasil no primeiro trimestre de 2020 e durou vários meses. Apesar do esforço dos governos estaduais e municipais, uma resposta não homogênea em todo o país resultou em um número de mortos entre os mais altos registrados globalmente. Para avaliar o impacto das intervenções governamentais não farmacêuticas aplicadas por diferentes cidades - como o fechamento de escolas e empresas em geral - na evolução e propagação da epidemia de SARS-CoV-2, construímos um modelo epidemiológico baseado em agentes ajustado às singularidades de cidades isoladas. O modelo incorpora informações demográficas detalhadas, redes de mobilidade segregadas por segmentos econômicos e leis de restrição promulgadas durante o período pandêmico. Como estudo de caso, analisamos como a cidade de Natal - uma capital de médio porte - reagiu à pandemia. Embora nossos resultados indiquem que a resposta governamental foi efetiva, os atos restritivos de mobilidade salvaram muitas vidas, nossas simulações mostraram que a paralização das atividades escolares foram fundamentais para evitar um elevado número de óbitos (o aumento seria em torno de 525.93%). O fechamento autentico das atividades trabalhistas diminuiria o número de óbitos em aproximadamente 67.54% e a religiosa em torno de 26.7%. A falta de intervenção teria resultado num cenário catastrófico de 6779 óbitos, esse valor corresponde a cerca de 0.77% da população natalense. As simulações mostram que uma análise compartimental dos cenários alternativos pode informar os formuladores de políticas sobre as medidas mais impactantes para novos surtos de pandemia e apoiar decisões futuras à medida que a pandemia avança.


  • Mostrar Abstract
  • The first wave of the severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2) pandemic hit almost all cities in Brazil in early 2020 and lasted for several months. Despite the effort of local state and municipal governments, an inhomogeneous nationwide response resulted in a death toll among the highest recorded globally. To evaluate the impact of the nonpharmaceutical governmental interventions applied by different cities - such as the closure of schools and business in general - in the evolution and epidemic spread of SARS-CoV-2, we constructed a full-sized agent-based epidemiological model adjusted to the singularities of single cities. The model incorporates detailed demographic information, mobility networks segregated by economic segments, and restricting bills enacted during the pandemic period. As a case study, we analyzed how the City of Natal - a midsized state capital - reacted to the pandemic. Although our results indicate that the governmental response was suboptimal, the restrictive mobility acts saved many lives, our simulations showed that the suspension of school activities was essential to avoid a high number of deaths (the increase would be around 525.93%). The authentic closing of Work activities would decrease the number of deaths by approximately 67.54% and religious activities by 26.7%. The absence of intervention would result in a catastrophic scenario of 6779 deaths, this number corresponds to about 0.77% of the Natal city population. The simulations show that a compartmental analysis of the alternative scenarios can inform policymakers about the most impactful measures for further surges of the pandemic and support future decisions as the pandemic progresses.

6
  • ELISEU JAYRO DE SOUZA MEDEIROS
  • Bases genéticas associadas à classificação sorológica em Leptospira: um estudo de caso do sorogrupo Sejroe

  • Orientador : TETSU SAKAMOTO
  • MEMBROS DA BANCA :
  • TETSU SAKAMOTO
  • Jorge Estefano de Santana Souza
  • ANNA MONTEIRO CORREIA LIMA
  • Maria Raquel Venturim Cosate
  • Data: 30/11/2021

  • Mostrar Resumo
  • A leptospirose é uma zoonose amplamente distribuída, causada por cepas de bactérias patogênicas do gênero Leptospira (Filo Spirochaetes). Seus agentes são comumente classificados com base em suas características antigênicas em sorogrupos e sorovares, que são relevantes para estudos epidemiológicos e desenvolvimento de vacinas. No entanto, os métodos utilizados para isso são considerados trabalhosos e requerem uma infraestrutura especializada. Alguns métodos moleculares foram propostos para acelerar esses procedimentos, mas ainda não podem substituir os testes imunológicos, exigindo assim um maior conhecimento da base genética subjacente à classificação sorológica. Neste trabalho, nos concentramos em elucidar os fatores genéticos determinantes do sorogrupo Sejroe, que é um dos sorogrupos mais prevalentes da pecuária. Para isso realizamos uma análise genômica comparativa utilizando mais de 700 amostras de leptospiras disponíveis no banco de dados públicos. A análise mostrou que os genes que compõem o locus rfb são os principais fatores genéticos associados a classificação sorológica O locus rfb de amostras do sorogrupo Sejroe tem uma composição de gene conservada que difere da maioria dos outros sorogrupos. Hebdomadis e Mini foram os únicos sorogrupos cujas amostras apresentam locus rfb com composição gênica semelhante aos do sorogrupo Sejroe, corroborando com a similaridade antigênica compartilhada por eles. Finalmente, nós pudemos determinar uma pequena região no locus rfb em que cada um desses três sorogrupos pode ser distinguido por sua composição gênica. Este é o primeiro trabalho que utiliza um extenso repertório de dados genômicos de amostras de leptospira para elucidar as bases moleculares da classificação sorológica e abrir caminho para estratégias mais confiáveis baseadas em métodos moleculares de sorodiagnósticos.


  • Mostrar Abstract
  • Leptospirosis is a widely distributed zoonosis caused by pathogenic strains of bacteria of the genus Leptospira (Phylum Spirochaetes). Its agents are commonly classified based on their antigenic characteristics into serogroups and serovars, which are relevant for epidemiologic studies and vaccine development. However, the methods used for this are considered laborious and require a specialized infrastructure. Some molecular methods were proposed to accelerate these procedures, but they still can not replace the immunological tests, thus requiring a further understanding of the genetic basis underlying the serological classification. In this work, we focused on elucidating the genetic factors determinant for the serogroup Sejroe, which is one of the most prevalent serogroups in livestock. For this, we conducted a comparative genomic analysis using more than 700 leptospiral samples available in the public database. The analysis showed that the genes comprising the rfb locus are the main genetic factors associated with the serological classification. Samples from the Sejroe serogroup have an rfb locus with a conserved gene composition that differs from most other serogroups. Hebdomadis and Mini were the only serogroups whose samples have rfb locus with similar gene composition to those from serogroup Sejroe, corroborating with the serological affinity shared by them. Finally, we could determine a small region in the rfb locus in which each of those three serogroups can be distinguished by its gene composition. This is the first work that uses an extensive repertoire of genomic data of leptospiral samples to elucidate the molecular basis of the serological classification and open the road to more reliable strategies based on molecular methods for serodiagnosis.


Teses
1
  • DIEGO MARQUES COELHO
  • DO TECIDO À CÉLULA-ÚNICA: COMO O USO DE DIFERENTES TÉCNICAS AUXILIAM NA IDENTIFICAÇÃO DE MARCADORES DE EVENTOS BIOLÓGICOS?

  • Orientador : MARCOS ROMUALDO COSTA
  • MEMBROS DA BANCA :
  • MYCHAEL VINÍCIUS DA COSTA LOURENÇO
  • MARCOS ROMUALDO COSTA
  • PATRICIA PESTANA GARCEZ
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • TARCISO ANDRE FERREIRA VELHO
  • Data: 31/05/2021

  • Mostrar Resumo
  • O sequenciamento de RNA mensageiro em larga escala (RNAseq) permite avaliar a diversidade de transcritos expressos em um determinado momento de um sistema biológico. Através da bioinformática, podemos analisar os dados de sequenciamento para obter informações quantitativas sobre a expressão gênica, tais como a expressão diferencial de genes e suas isoformas (splices alternativos). Nesta tese, apresentamos dois estudos independentes que se valeram da bioinformática para obter informações relevantes sobre diferentes fenômenos biológicos. No primeiro caso, nós utilizamos dados de sequenciamento de RNAm em cérebros de pacientes com a doença de Alzheimer para estudar a expressão diferencial de genes e transcritos associadas com a progressão desta doença. Nós demonstramos que a análise de transcritos permite a identificação de alterações gênicas ignoradas em estudos anteriores avaliando apenas a expressão global dos genes. Utilizando dados de sequenciamento de RNAm em células únicas (scRNAseq), nós também mapeamos as alterações da expressão gênica no cérebro de pacientes com a doença de Alzheimer para tipos celulares específicos. Os resultados deste primeiro trabalho contribuem para uma melhor compreensão da patofisiologia da doença de Alzheimer e indicam potenciais alterações moleculares associadas com a doença em tipos celulares individuais. No segundo trabalho desenvolvido nesta tese, nós utilizamos a técnica de scRNAseq para estudar a diversidade de células progenitoras em estágios iniciais do desenvolvimento do neocórtex. Através de análises de expressão diferencial de genes e a utilização de uma abordagem utilizando redes de regulação da expressão gênica, nós identificamos o fator de transcrição Sox9 como um regulador-mestre do comportamento de diferentes subtipos de progenitores neurais. Confirmando estes achados da bioinformática, experimentos genéticos para manipular os níveis de expressão de Sox9 em progenitores neurais demonstraram a importância deste fator de transcrição na regulação da proliferação e diferenciação celular. Em conjunto, os resultados desta tese demonstram a importância da análise transcriptômica através de métodos complementares para uma melhor identificação das alterações da expressão gênica relevantes em diferentes contextos biológicos.


  • Mostrar Abstract
  • Large-scale messenger RNA sequencing (RNAseq) allows the evaluation of the diversity of transcripts expressed at a given moment in a biological system. Through bioinformatics, we can analyze the sequencing data to obtain quantitative information about gene expression, such as the differential expression of genes and their isoforms (alternative splices). In this thesis, we present two independent studies that used bioinformatics to obtain relevant information about different biological phenomena. In the first case, we used mRNA sequencing data in the brains of patients with Alzheimer's disease to study the differential expression of genes and transcripts associated with the progression of this disease. We have shown that the analysis of transcripts allows the identification of genetic changes ignored in previous studies by evaluating only the global expression of genes. Using single cell mRNA sequencing data (scRNAseq), we also map changes in gene expression in the brain of patients with Alzheimer's disease to specific cell types. The results of this first work contribute to a better understanding of the pathophysiology of Alzheimer's disease and pinpoints possible cell-type specific molecular mechanisms of the disease. In the second work developed in this thesis, we used the scRNAseq technique to study the diversity of progenitor cells in the early stages of the development of the neocortex. Through analysis of differential gene expression and the use of an approach using gene regulatory networks, we identified the transcription factor Sox9 as a master regulator of the behavior of different subtypes of neural progenitors. Confirming these findings from bioinformatics, genetic experiments to manipulate Sox9 expression levels in neural progenitors demonstrated the importance of this transcription factor in the regulation of cell proliferation and differentiation. Together, the results of this thesis demonstrate the importance of transcriptomic analysis through complementary methods for a better identification of relevant gene expression changes in different biological contexts.

2
  • PRISCILLA SUENE DE SANTANA NOGUEIRA SILVERIO
  • 3D-QSARpy: Combinando estratégias de seleção de variáveis e várias técnicas de aprendizado de máquina para construir modelos QSAR

  • Orientador : EUZEBIO GUIMARAES BARBOSA
  • MEMBROS DA BANCA :
  • AMANDA GONDIM DE OLIVEIRA
  • ANNE MAGALY DE PAULA CANUTO
  • ARAKEN DE MEDEIROS SANTOS
  • EUZEBIO GUIMARAES BARBOSA
  • JOAO PAULO MATOS SANTOS LIMA
  • LAURA EMMANUELLA ALVES DOS SANTOS SANTANA DE OLIVEIRA
  • Data: 04/08/2021

  • Mostrar Resumo
  • Quantitative Structure Activity Relationship (QSAR) é uma tecnologia da área da química medicinal que busca esclarecer as relações existentes entre estruturas moleculares e suas respectivas atividades biológicas. Para isso, são construídos modelos QSAR a partir dos dados estruturais (2D, 3D ou 4D) provenientes de uma série de moléculas já testadas para uma determinada atividade. Através de predições realizadas por esses modelos, objetiva- se identificar quais modificações na molécula podem influenciar, reforçando ou não a resposta biológica. Tal tecnologia permite acelerar o desenvolvimento de novos compostos, reduzindo os custos destinados ao planejamento de fármacos. Considerando o contexto brevemente exposto, o presente trabalho apresenta como objetivo geral propor uma metodologia e testa-la em diversos conjuntos de dados através do desenvolvimento de uma ferramenta para QSAR-3D, então denominada 3D-QSARpy. A metodologia foi validada com sucesso através da aplicação da ferramenta em dois conjuntos de dados com resultados superiores aos previamente publicados. O primeiro deles envolvendo o tratamento de diabetes, alcançando r 2 pred de 0.91. O segundo conjunto referente ao tratamento de câncer, com r 2 pred =0.98. Por fim, duas aplicações da ferramenta foram realizadas, contribuindo com a identificação de novas estruturas moleculares bioativas usando diferentes abordagens. Sendo a primeira delas destinada ao tratamento da doença de chagas, incluindo a construção de modelos QSAR híbridos para três séries, obtendo, r 2 pred =0.8, 0.68 e 0.85. A segunda aplicação para construção de modelos QSAR-4D foi destinada ao tratamento da tuberculose com r 2 pred =0.72. Todos os experimentos realizados, sejam para validação ou para identificação dessas novas moléculas demonstraram, não somente a eficiência da metodologia proposta e da ferramenta desenvolvida, como também a versatilidade de aplicações possíveis por meio dela, seja seguindo o seu pipeline geral, seja utilizando-o parcialmente de modo combinado com outras ferramentas existentes.


  • Mostrar Abstract
  • Quantitative Structure Activity Relationship (QSAR) is a technology in the field of medicinal chemistry that seeks to clarify the relationships between molecular structures and their biological activities. For this, QSAR models are constructed from the structural data (2D, 3D or 4D) from a series of molecules already tested for a given activity. Through predictions made by these models, it is aimed to identify which modifications in the molecule can influence, reinforcing or not the biological response. Such technology allows accelerating the development of new compounds by reducing the costs for drug design. Considering the briefly exposed context, the present work aims to propose a methodology and test it in several data sets through the development of a tool for QSAR-3D, then called 3D-QSARpy. The methodology was successfully validated through the application of the tool in two sets of data, which results outperformed those previously published. The first set involving diabetes treatment, it reached r 2 pred =0.91. The second set referring to cancer treatment, with r 2 pred =0.98. Finally, two applications of the tool were performed, contributing to the identification of new bioactive molecular structures using different approaches. The first of which is intended for the treatment of chagas disease, including the construction of hybrid QSAR models for three series, obtaining r 2 pred = 0.8, 0.68 e 0.85. The second application was the construction of QSAR-4D for the tuberculosis treatment with r 2 pred = 0.72. It doesn’t matter if the experiments were for validation or for the identification of these new molecules. All of them demonstrated not only the efficiency of the proposed methodology and the developed tool, but also the versatility of possible applications with this methodology, either following its general pipeline or using it in a partially way combined with other existing tools.

3
  • RAFFAEL AZEVEDO DE CARVALHO OLIVEIRA ANDRADE
  • Engenharia reversa da rede regulatória da sepse pediátrica e identificação de reguladores mestres

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • CESAR RENNO COSTA
  • JOAO PAULO MATOS SANTOS LIMA
  • FABIO KLAMT
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • Data: 11/08/2021

  • Mostrar Resumo
  • A sepse é uma síndrome inflamatória aguda muito marcante. É responsável pela maioria dos óbitos
    em leitos de UTI por todo o mundo. Por se tratar de uma condição estritamente inflamatória e, por
    causa disso, multifatorial, existem poucos estudos relativos à regulação gênica em indivíduos
    sépticos, menos ainda em pacientes pediátricos. A compreensão dos mecanismos regulatórios pode
    auxiliar no combate à sepse por identificar pontos-chave das vias de sinalização responsáveis pela
    progressão. Uma estratégia para identificação dos alvos regulatórios de uma doença é a
    reconstrução da sua rede regulatória a partir de dados transcricionais públicos, identificando os
    principais fatores de transcrição como reguladores mestres. Devido à escassez de dados de sepse em
    pacientes pediátricos e a grande diferença de resposta entre adultos e crianças, o objetivo deste
    trabalho é o de reconstruir a rede regulatória da sepse e identificar seus posíveis reguladores
    mestres. Ao todo foram encontrados 15 fatores que são bons candidatos a regulador mestre na
    sepse. Especialmente o MEF2A, TRIM25 e RFX2 foram identificados sendo mais expressos em
    pacientes sépticos do que em indivíduos saudáveis. Cada um deles possui uma função isolada e até
    então não relacionadas à sepse diretamente, porém quando analisadoso em conjunto, podem agir
    como um tripleto, onde cada fator exerce seu papel em parceria com os outros dois. Os resultados
    encontrados aqui apontam os três fatores como possíveis reguladores mestres da sepse pediátrica,
    podendo ser estudados no futuro de forma experimental para validar os resultados feitos in silico.


  • Mostrar Abstract
  • Sepsis is a acute inflammatory syndrome. Accountable for most obits in ICUs all over the world. Due to its multifactorial nature, there are few studies related to gene expression regulation in pediatric septic patients. Understanding the regulatory mechanisms of sepsis could help against sepsis and also help identify key points of signaling pathways responsible for disease progression. A good strategy to identify regulatory targets of a given disease is by reconstructing its regulatory network, as well as identify its possible master regulators. Given the lack of pediatric sepsis data and the huge difference between adult and pediatric immune response, the objective of this work is to reconstruct sepsis regulatory network and identify its putative master regulators. In summary, we found 15 transcription factors that have good chance of acting as master regulators in pediatric sepsis. Specially MEF2A, TRIM25 and RFX2 were identified upregulated in septic patients in comparison to healthy individuals. Each one of them have a distinct role, that was not directly related to sepsis. But, taken together, we hypothesize that they might act together to influenciate the disease prognosis. Results herein found points towards this three transcription factors as putative master regulators of pediatric sepsis. In vitro validation of the results found in silico could shed light in the different aspects of regulatory understanding of pediatric sepsis.

4
  • JOSIVAN RIBEIRO JUSTINO
  • MODELO PARA IDENTIFICAÇÃO DE GENES BIMODAIS ASSOCIADOS AO PROGNÓSTICO NO CÂNCER

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • Giovana Torrezan
  • Jorge Estefano de Santana Souza
  • MARCUS ALEXANDRE NUNES
  • SANDRO JOSE DE SOUZA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 16/09/2021

  • Mostrar Resumo
  • Nas últimas décadas o interesse biológico em compreender a regulação gênica, tem levado a descobertas de genes tumorais com expressões diferenciadas em subgrupos de pacientes. Estes genes possuem um perfil bimodal de distribuição dos valores de expressão, o que têm despertado a atenção para investigar os padrões de desenvolvimento e de sua funcionalidade. Uma das grandes limitações dos métodos tradicionais está em identificar subgrupos homogêneos, que representam os distintos níveis do valor de expressão gênica para o mesmo tumor. Neste trabalho, desenvolvemos um método que seleciona genes candidatos ao padrão de bimodalidade a partir da função densidade de probabilidade dos valores de expressão, permitindo minimizar a heterogeneidade interna dos picos. Analisamos 25 tipos de tumores e encontramos 96 genes com amostras consistentes quanto ao prognóstico de sobrevida, com p-valor ≤ 0,01. Como contribuição apresentamos um método com o código livre, que possibilita reduzir os níveis de variabilidade interna dos grupos e que relaciona o padrão de expressão bimodal com o prognóstico de sobrevida. Assim, acreditamos que a utilização do método poderá ser útil na avaliação do padrão bimodal de expressão gênica e na descoberta de novos biomarcadores clínicos para diferentes tipos de câncer.


  • Mostrar Abstract
  • In the last decades, the biological interest in understanding the phases of gene regulation has led to the discovery of tumor genes with differentiated expression in subgroups of patients. These genes have a bimodal profile of expression value distribution, which has raised attention to investigate the patterns of development and their functionality. A major limitation of traditional methods is to identify homogeneous subgroups representing distinct levels of gene expression value for the same tumor. We developed a method that selects candidate genes for the bimodality pattern from the probability density function of the expression values, allowing to minimize the internal heterogeneity of the peaks. We analyzed 25 tumor types, found 96 genes with consistent samples regarding survival prognosis with a p-value ≤ 0.01. As a contribution, we have a method with the free code, which makes it possible to reduce the levels of internal variability of the groups and which relates the bimodal expression pattern with survival prognosis. Thus, we believe that the use of the method may be useful in the evaluation of the bimodal pattern of gene expression and in the discovery of new clinical biomarkers for different types of cancer.

5
  • INÁCIO GOMES MEDEIROS
  • Seleção de características de sequências para resolução de perguntas biológicas ligadas à análise de variantes e ao desenvolvimento de siRNAs Anti-SARS-CoV-2

  • Orientador : Jorge Estefano de Santana Souza
  • MEMBROS DA BANCA :
  • ARAKEN DE MEDEIROS SANTOS
  • BEATRIZ STRANSKY FERREIRA
  • Jorge Estefano de Santana Souza
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • TIRZAH BRAZ PETTA
  • Data: 21/09/2021

  • Mostrar Resumo
  • A análise de variantes em um contexto clínico e o suporte ao desenvolvimento de terapias contra doenças virais são duas áreas em que diversas pesquisas têm utilizado processos de integração e análise de dados ômicos. Aferir se uma dada variante possui ou não impacto patogênico é um desafio presente na análise de variantes, inclusive quando diferentes ferramentas de predição de patogenicidade apontam resultados divergentes. Em relação ao desenvolvimento de terapias baseadas em RNA de interferência, observa-se que existe uma necessidade contínua de desenho e avaliação de eficiência de novos RNAs pequenos de interferência (siRNAs, do inglês short-interfing RNAs) a cada novo vírus que surge, como o SARS-CoV-2, responsável pela pandemia de COVID-19. Nessa direção, argumenta-se nesta tese, a partir da discussão de dois trabalhos, que processos de integração de dados e seleção de características podem trazer contribuições na resolução de questões ligadas à identificação de patogenicidade de variantes e, em um segundo momento, à disponibilização de informação e características de sequências que podem vir a servir para a formulação de terapias para a COVID-19. Em linhas gerais, o estudo objetivou (a) desenvolver métodos de integração de dados e seleção de características de variantes para aferição de patogenicidade e (b) desenvolver métodos de integração de dados visando a construção de um banco de dados de siRNAs para SARS-CoV-2. Para atingir o primeiro objetivo, foi proposto um modelo de classificação baseado em árvores de decisão para estimar a patogenicidade de variantes, construído por meio de um processo de integração de dados públicos de variantes já catalogadas com predições de patogenicidade trazidas por ferramentas baseadas em aprendizado de máquina. O modelo obtido foi capaz de apresentar uma acurácia superior ao estado da arte relativo à predição de patogenicidade de variantes, constituindo-se em uma importante ferramenta de apoio a profissionais de saúde, como nos diagnósticos de doenças genéticas. No segundo objetivo, combinou-se dados de propriedades estruturais, termodinâmicas, toxicidade, similaridade e de eficiência com o intuito de montar um catálogo global de siRNAs para o SARS-CoV-2. A integração de propriedades diversas relativas a siRNAs em uma única base de dados consolida-se como um referencial de informação que permite a realização de filtragens in silico simples e direcionadas, poupando a execução de muitos testes de bancadas em cima de moléculas candidatas para terapias contra a COVID-19. Esses estudos possuem pontos em comum com outros de integração de dados da literatura, entre eles, aspectos envolvendo diversidade dos dados, reprodutibilidade e descoberta de conhecimento. Por fim, verificou-se que estes trabalhos possuem potencial de aplicação clínica, seja para incrementar a compreensão de variantes relacionadas a comorbidades genéticas diversas, no caso do primeiro trabalho, como no apoio ao desenvolvimento de terapias contra a COVID-19, no caso do segundo trabalho.


  • Mostrar Abstract
  • Analysis of variants in clinical context and the support for the development of therapies against viral diseases are two areas which several research have used processes of integration and analysis of omics data. Assessing whether a given variant has a pathogenic impact is a challenge in the analysis of variants, especially when different tools for predicting pathogenicity point to divergent results. Regarding the development of RNA interference-based therapies, it is observed that there is a continuing need to design and evaluate the efficiency of new small-interfering RNAs (siRNAs) for each new virus that arises, like SARS-CoV-2, responsible for the COVID-19 pandemic. In this sense, it is argued in this thesis, based on the discussion of two works, that data integration and feature selection processes can contribute to the resolution of issues related to the identification of pathogenicity of variants and, in a second moment, to the availability of information and characteristics of sequences that may serve as the basis for therapies for COVID-19. In general terms, the study aimed (a) to develop data integration methods and selection of variant characteristics to measure pathogenicity and (b) to develop data integration methods for the construction of a database of siRNAs for SARS-CoV-2. To achieve the first objective, a decision tree-based classification model was proposed to estimate the pathogenicity of variants, built through an integration process of public data of already cataloged variants with pathogenicity predictions provided by machine learning-based tools. The model was able to present a higher accuracy than the state of the art regarding the prediction of pathogenicity of variants, constituting an important tool to support health professionals, such as in the diagnosis of genetic diseases. In the second objective, data on available properties, thermodynamics, toxicity, similarity, and efficiency were combined to assemble a global catalog of siRNAs for SARS-CoV-2. The integration of diverse properties related to siRNAs in a single consolidated database is an information reference that allows the realization of simple and targeted filtering in siRNA, saving the execution of many wet-lab tests on candidate molecules for COVID-19 antiviral therapies. These studies have common features with other data integration works in aspects involving data diversity, reproducibility, and knowledge discovery. Finally, it was found that these studies have potential for clinical application, either to increase the understanding of variants related to different genetic comorbidities, in the case of the first work, or to support the development of therapies against COVID-19, in the case of second job.

6
  • ANA CLÁUDIA COSTA DA SILVA
  • Investigação in silico do mecanismo de reorganização sináptica do sono. Um algoritmo para maximizar a capacidade computacional de redes neurais esparsas.

     

  • Orientador : SIDARTA TOLLENDAL GOMES RIBEIRO
  • MEMBROS DA BANCA :
  • SIDARTA TOLLENDAL GOMES RIBEIRO
  • CESAR RENNO COSTA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MADRAS VISWANATHAN GANDHI MOHAN
  • MAURO COPELLI
  • NIVALDO ANTONIO PORTELA DE VASCONCELOS
  • Data: 09/11/2021

  • Mostrar Resumo
  • As memórias são armazenadas no cérebro pela mudança persistente da conectividade entre neurônios e o sono desempenha um papel decisivo para a persistência dessas mudanças. Pesquisas sobre a neurobiologia do sono demonstram a ativação de mecanismos de plasticidade sináptica de longa duração. Dados experimentais apontam para um duplo papel do sono, tanto no esquecimento de memórias irrelevantes quanto no reforço das lembranças mais importantes. A hipótese investigada nesta tese é de que os mecanismos de reorganização sináptica envolvidos na consolidação de memórias podem trazer vantagens na performance das redes neurais artificiais. Este trabalho visa aplicar mecanismos neurobiológicos de aprendizagem dependente de sono na aprendizagem de máquina. Para isto, foi feita uma revisão das teorias de consolidação da memória através do sono, assim como dos modelos computacionais que dão suporte a essas teorias. Com a observação de como o cérebro otimiza os recursos biológicos, a pesquisa seguiu a tendência das redes neurais artificiais onde foram aplicados conceitos presentes na aprendizagem biológica, na aprendizagem de máquina. Então foram realizadas simulações de computador para explorar a hipótese de que os mecanismos subjacentes utilizados pelo cérebro para aprendizagem biológica através do sono são capazes de otimizar o aprendizado em redes neurais artificiais. A esparsialidade sináptica pode trazer vantagens na economia de recursos sem que haja um decaimento na aprendizagem, então, usamos uma rede neural artificial esparsa para aprender diferentes conjuntos de dados e, em seguida, testar se o sono poderia reduzir ainda mais o número mínimo de sinapses que um sistema precisa para o aprendizado de padrões. As simulações foram realizadas com diferentes tamanhos de rede, diferentes níveis de esparsialidades, diversas bases de dados além de utilizar modernos frameworks e algoritmos em aprendizagem de redes neurais profundas. Os resultados corroboram a hipótese de que o sono reduz o número necessário de sinapses para que se atinja um determinado limite de aprendizagem.


  • Mostrar Abstract
  • The memories are stored in the brain by the persistent changes of the connectivity between neurons. Sleep plays an essential role in such changes. Research on sleep neurology has shown the activation of longterm synaptic plasticity. Experimental data point to a double role of sleep: the weakening of irrelevant memories and the reinforcement of more important ones. The hypothesis investigated in this thesis is that synaptic reinforcement and pruning, involved in memory consolidation, can bring advantages to artificial neural networks. This thesis aims to apply neurobiological sleep-dependent learning mechanisms to machine learning. For this, we carried a review of memory consolidation theories and the computational models that support these theories. Observing how the brain optimizes biological resources, the research followed the trend of artificial neural networks to apply concepts present in biological learning in machine learning. Then computer simulations were carried out to explore the hypothesis that the underlying mechanisms used by the brain for biological learning through sleep are capable of optimizing artificial neural network learning. The synaptic spatiality can bring advantage for resource economy without a learning decay, so we used a sparse artificial neural network to learn different datasets and then test if sleep could reduce the minimum of synapses that a system needs to learn patterns. The simulations were carried in different network sizes, such as different sparsity levels, several databases, in addition to modern frameworks and algorithms for artificial neural network learning. The results corroborate the hypothesis that sleeping reduces the number of synapsis required to a certain learning limit.

7
  • GUILHERME FERNANDES DE ARAÚJO
  • Uma plataforma de simulação de cenários evolutivos biológicos aplicada à teoria do fitness estendido

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • André Fujita
  • CESAR RENNO COSTA
  • DIOGO MEYER
  • JOAO PAULO MATOS SANTOS LIMA
  • SANDRO JOSE DE SOUZA
  • Data: 24/11/2021

  • Mostrar Resumo
  • O impacto dos fenótipos estendidos na teoria da evolução contemporânea é controverso. A teoria do fenótipo estendido diz que a expressão dos genes pode ter efeitos além do corpo do indivíduo que os possuem, afetando resultados evolutivos de outros indivíduos que convivem com o mesmo. A teoria do fitness estendido propõe que indivíduos com similaridade genética o suficiente podem utilizar os fenótipos estendidos uns dos outros, assim aumentando as chances de sobrevivência e reprodução do grupo como um todo. Este trabalho tem como objetivo modelar estas interações através de redes aleatórias livres de escala, e investigar o impacto dos fenótipos estendidos e os seus efeitos no sucesso reprodutivo de indivíduos no contexto de grupos capazes de produzi-los e compartilhá-los. As vantagens conferidas pelo uso de fenótipos estendidos disponibilizados por vizinhos semelhantes pode conferir um incentivo evolucionário a nível de grupo para construí-los e compartilhá-los, e este equilíbrio é medido em diferentes simulações de modelos de comportamento.


  • Mostrar Abstract
  • The impact of extended phenotypes on the contemporary theory of evolution is controversial. The extended phenotype theory states that the expression of genes may have effects beyond the body of the individual who possesses it, affecting evolutive results of other individuals which coexist with it.The extended fitness proposes that individuals with enough genetic similarity may use the extended phenotypes of each other, thus increasing the chances of survival and reproduction of the group as a whole. This work aims to model these interactions through random scale-free networks, and investigate the impact of extended phenotypes and its effects in the reproductive success of individuals in the context of groups capable of producing and sharing them. The advantages given by the use of extended phenotypes released by similar neighbors may grant an evolutionary incentive at the group level to build and share them, and this equilibrium is measured in different simulations of behavior models.

2020
Dissertações
1
  • LUCAS CAIÃ DE SOUZA TAVARES
  • Interações hipocampo-prefrontais durante a tomada de decisão espacial

  • Orientador : ADRIANO BRETANHA LOPES TORT
  • MEMBROS DA BANCA :
  • ABNER CARDOSO RODRIGUES NETO
  • ADRIANO BRETANHA LOPES TORT
  • CESAR RENNO COSTA
  • WILFREDO BLANCO FIGUEROLA
  • Data: 28/02/2020

  • Mostrar Resumo
  • O hipocampo tem sido relacionado com a codificação de memórias bem como com a navegação espacial, enquanto que o córtex pré-frontal é associado a funções cognitivas como a tomada de decisões. Supõe-se que ambas as áreas interajam entre si em tarefas que exijam tanto a navegação no espaço quanto processos de tomada de decisão. Entretanto, as assinaturas eletrofisiológicas por trás dessa comunicação carecem de uma melhor elucidação. Para investigar as dinâmicas das interações hipocampo-prefrontais, nós analisamos potenciais de campo local registrados em ratos desempenhando uma tarefa de alternação espacial num labirinto em formato de oito. Observamos que a coerência de fases nas bandas oscilatórias teta (6- 10 Hz) e beta (23-30 Hz) atingem seu pico próximo à região da tomada de decisão do labirinto. Ademais, análises de causalidade de Granger apontam para um fluxo informacional de direcionalidade hipocampo -> córtex pré-frontal na banda teta com maior intensidade em áreas iniciais do labirinto, e na direcionalidade oposta na banda delta, com um pico no início da curva. Adicionalmente, mostramos que os padrões de acoplamento fase- frequência intra e inter-regionais apresentam seletividade espacial. Análises de acoplamento de disparos mostraram que neurônios individuais do córtex pré-frontal são mais moduladas pelo ritmo teta hipocampal que pelo ritmo equivalente da sua própria região. Nossos resultados demonstram maiores níveis de interações eletrofisiológicas entre o hipocampo e o córtex pré-frontal situados próximos à área de decisão do labirinto numa tarefa de alternação espacial. Essas observações corroboram a hipótese de que uma comunicação dinâmica entre essas duas regiões acontece durante decisões espaciais.


  • Mostrar Abstract
  • The hippocampus has been linked to memory encoding and spatial navigation, while the prefrontal cortex is associated with cognitive functions such as decision-making. These regions are hypothesized to communicate in tasks that demand both spatial navigation and decision-making processes. However, the electrophysiological signatures underlying this communication remain to be better elucidated. To investigate the dynamics of the hippocampal-prefrontal interactions, we have analyzed local field potentials and spikes recorded from rats performing an odor-cued spatial alternation task in an 8-shaped maze. We found that the phase coherence of both theta (6-10 Hz) and beta (23-30 Hz) peaked around the choice point area of the maze. Moreover, Granger causality revealed a hippocampus->prefrontal cortex directionality of information flow at theta frequency, peaking at starting areas of the maze, and on the reverse direction at delta frequency, peaking near the turn onset. Additionally, the patterns of phase-amplitude cross-frequency coupling within and between the regions showed spatial selectivity. Lastly, we found that the theta rhythm dynamically modulated neurons in both regions; interestingly, prefrontal cortex neurons were more strongly modulated by the hippocampal theta rhythm than by its LFP. In all, our results reveal maximum electrophysiological interactions between the hippocampus and the prefrontal cortex near the decision-making period of the spatial alternation task. These results corroborate the hypothesis that a dynamic interplay between these regions takes place during spatial decisions.

2
  • EDEN SILVA E SOUZA
  • AVALIAÇÃO DO ALVO PREDITO DA PLUMIERIDINA EM Cryptococcus neoformans var. grubii H99

  • Orientador : MARILENE HENNING VAINSTEIN
  • MEMBROS DA BANCA :
  • MARILENE HENNING VAINSTEIN
  • EUZEBIO GUIMARAES BARBOSA
  • GUSTAVO ANTONIO DE SOUZA
  • CHARLEY CHRISTIAN STAATS
  • Data: 28/02/2020

  • Mostrar Resumo
  • Criptococose é uma infecção fúngica causada por leveduras de Cryptococcus spp. A infecção inicia-se quando células dessecadas ou esporos são inalados e chegam aos pulmões. Se a doença não for propriamente tratada, a infecção pode evoluir e atingir o sistema nervoso central e resultar em meningite meningocócica e até em óbito. O tratamento da criptococose é realizado em três estágios e faz uso de três drogas: fluconazol, anfotericina B e 5-flucitosina. Embora eficaz, o uso destas drogas pode resultar em resistência fúngica e toxicidade para os pacientes. Propõe-se investigar o modo de ação do composto antifúngico plumieridina bem como a identificação do seu alvo molecular em C. neoformans. Para isso, realizou-se uma série de experimentos in vitro e in silico. Inicialmente, uma fração cromatográfica contendo plumieridina foi obtida do extrato aquoso das sementes de Allamanda polyantha e a presença do composto observada através de ressonância magnética nuclear de carbono e hidrogênio. Atividade antifúngica, avaliada através de MIC, foi de 0.250 mg/mL. Através da triagem virtual baseada na similaridade do ligante, quitinase foi identificada como alvo molecular da plumieridina. Modelos tridimencionais das quitinases de C. neoformans foram criados e, através do atracamento molecular, observa-se a interação com resíduos do sítio ativo. Ensaios de inibição da atividade quitinolítica mostram que a atividade é significativamente reduzida na fração secretada e fração celular solúvel, porém, a atividade quitinolítica é pouco reduzida pela presença de plumieridina na fração celular insolúvel, onde são necessárias maiores concentrações do composto. Embora plumieridina seja capaz de inibir a atividade quitinolítica, o composto não parece estar relacionado aos níveis transcricionais das quitinases de C. neoformans, alterando os níveis apenas de CHI22. O tratamento com plumieridina ainda altera o padrão de distribuição dos quitooligômeros na parece celular: de um padrão polarizado para um padrão difuso pela parede. Os resultados confirmam a predição da triagem virtual e mostram que a inibição da atividade quitinolítica pela plumieridina resulta em divisão celular incompleta e, consequente, morte celular.


  • Mostrar Abstract
  • Cryptococcosis is a fungal infection caused by yeasts of Cryptococcus spp. The infection starts when desiccated cells or spores are inhaled and reach the lungs. If the disease is not properly treated, the infection can evolve and reach the central nervous system and result in meningococcal meningitis and even death. The treatment of cryptococcosis is carried out in three stages and uses three drugs: fluconazole, amphotericin B and 5-flucytosine. Although effective, the use of these drugs can result in fungal resistance and can be toxicity for patients. This work aims to investigate the mode of action of the antifungal compound plumieridine as well as the identification of its molecular target in C. neoformans. For this, a series of in vitro and in silico experiments were carried out. Initially, a chromatographic fraction containing plumieridine was obtained from the aqueous extract from seeds of Allamanda polyantha and the presence of the compound observed through carbon and hydrogen nuclear magnetic resonance. Antifungal activity, assessed through MIC, was 0.250 mg/mL. Through virtual screening based on ligand’s similarity, chitinase was identified as plumieridine’s molecular target. Three- dimensional models of C. neoformans chitinases were created and, through molecular docking, it is observed plumieridine interacts with residues in the active site. Chitinolytic inhibitory activity assays show that activity is significantly reduced in the secreted fraction and soluble cell fraction, however, the chitinolytic activity is little reduced by the presence of plumieridine in the insoluble cell fraction, where higher concentrations of the compound are needed. Although plumieridine is able to inhibit chitinolytic activity, the compound does not appear to affect the transcriptional levels of C. neoformans chitinases: only transcription of CHI22 was reduced in the presence of plumieridine. The treatment with plumieridine still alters the distribution pattern of the chitooligomers in the cellular wall: from a polarized pattern to a diffuse pattern through the wall. The results confirm the prediction of virtual screening and show that inhibition of chitinolytic activity by plumieridine results in incomplete cell division and, consequently, cell death.

3
  • RENATA LILIAN DANTAS CAVALCANTE
  • Investigação exploratória dos fatores genéticos associados ao sistema de determinação sexual em Arapaima gigas (Pirarucu)

  • Orientador : TETSU SAKAMOTO
  • MEMBROS DA BANCA :
  • TETSU SAKAMOTO
  • GUSTAVO ANTONIO DE SOUZA
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • Data: 30/03/2020

  • Mostrar Resumo
  • O Pirarucu, (Arapaima gigas) é um dos maiores peixes ósseos de água doce do mundo,podendo pesar por volta de 200 quilogramas e medir cerca de 3 metros de comprimento quando adulto. Pertence a família Arapaimidae, ordem dos Osteoglossiformes e tem como habitat natural a Bacia amazônica. Devido ao seu grande porte, à sua carne conter baixo conteúdo de gordura e pequeno número de espinhas, Arapaima gigas tornou-se uma espécie de especial interesse na pesca. Um dos problemas relacionados à sua exploração pesqueira é que não se conhecem ao certo os mecanismos genéticos ligados a sua diferenciação sexual. A maturação sexual em Arapaima gigas ocorre tardiamente, por volta do terceiro ao quinto ano de vida, e o dimorfismo sexual não é uma característica proeminente nesta espécie. Para um manejo mais sustentável, é de suma importância buscar um método eficaz e pouco invasivo para diferenciar sexualmente os indivíduos juvenis de Arapaima gigas. Para isso, o estabelecimento de um marcador genético molecular relacionado com a diferenciação sexual seria uma vantajosa ferramenta. Análises anteriores do genoma de Arapaima gigas não obtiveram resultados significativos em determinar genes ou grandes regiões genômicas associadas ao sistema de determinação sexual destes indivíduos. Neste estudo, propusemos realizar diferentes abordagens em Bioinformática, que não são tão usuais para a identificação de diferenças genômicas entre indivíduos de sexooposto, com o intuito de identificar regiões repetitivas em excesso ou em falta em um dossexos ou pequenas regiões presentes em apenas um sexo. Para isso, utilizamos dados genômicos de seis representantes adultos de Arapaima gigas, sendo três machos e três fêmeas,além do genoma referência de Pirarucu ID: 12404 depositadas no NCBI. Após realizados esses estudos exploratórios no genoma de Arapaima gigas, notou-se a existência de k-mers que estão representados de maneira distinta entre os indivíduos de sexo oposto. E não só aexistência desses k-mers como também, a identificação de 22 scaffold’s onde ocorrem existência de haploidias, que se fazem presentes em um sexo e com cenário antagônico no outro. Ademais, foi realizada a identificação do painel de microssatélites em Arapaima gigas, onde foi computado a existência de 95.485 microssatélites. O conhecimento dessas regiões de microssatélites é de suma importância para a continuação deste trabalho pois viabiliza sua utilização como marcadores moleculares de regiões genômicas, que aliado principalmente as porções de haploidia existentes em apenas um dos sexos de Arapaima gigas facilitaria técnicas experimentais de isolamento de sequências de interesse. As diferentes proporções na contagem de k-mers e sítios de heterozigose (haploidia) podem indicar a existência de fatores genéticos, que se comprovados através de experimentos na bancada, podem auxiliar na sexagem dos indivíduos de Arapaima gigas.


  • Mostrar Abstract
  • The Pirarucu, (Arapaima gigas) is one of the largest freshwater bony fish in the world,with adults that can weigh 200 kilograms and measure 3 meters in length. It belongs to the Arapaimidae family, of the Osteoglossiformes order and has the Amazon Basin as its natural habitat. Due to its large size and its low fat containing and low fishbone, Arapaima gigas has quickly become a species of special interest in fish-farming. A problem related to its fishery exploitation is that the genetic mechanisms that control the sexual differentiation in Arapaimas gigas are not known. The sexual maturation in Arapaima gigas occurs belatedly, around the third to fifth year of life, and sexual dimorphism is not a strong characteristic of the species. For more sustainable management, it is of paramount importance to seek an effective and non-invasive method to sexually differentiate juvenile individuals of Arapaima gigas. For this, the establishment of a molecular genetic markers related to sexual differentiation would be an advantageous tool. Previous analyses of the Arapaima gigas genome could not find statistically significant determining large genomic regions that are associated with the sex-determination system of these individuals. In This study, we proposed to make uncommon Bioinformatic approaches, that is not so usual, for the identification of genomic differences between individuals of the oppositesex, with the intention of identifying repetitive regions in excess or scarcity in one sex. For this purpose, we used genomic data from six adult representatives of Arapaima gigas, three males and three females, in addition to the reference genome of Pirarucu ID: 12404 deposited in NCBI. After these exploratory studies in the genome, we noticed the existence of k-mers that are represented differently among individuals of the opposite sex. We also identified 22 scaffolds containing haploidy in one sex and with the antagonistic scenario (absence of haploidy) in the other one. Additionally, we performed the identification of the microsatellite panel in Arapaima gigas was performed, where 95.485 microsatellites were found. The knowledge of these microsatellite regions is very important for the continuation of this work, as it enables their use as molecular markers of genomic regions, which would facilitate experimental techniques of isolation of sequences of interest, especially when associated with the portions of haploidy existing in only one of the sexes of rapaimagigas would facilitate experimental techniques of isolation of sequences of interest. The Different proportions in the count of k-mers and heterozygous sites (haploidy) can indicate the existence of genetic factors, which if proven through experiments on the bench, can aid in the sexing of Arapaima gigas individuals.

4
  • FELIPE VIEIRA DA FONSECA
  • COMPARAÇÃO DE REDES DE INTERAÇÃO DE RESÍDUOS (RINs) COMO UMA FORMA DE AVALIAR A VARIAÇÃO CONFORMACIONAL DE PROTEÍNAS

  • Orientador : JOAO PAULO MATOS SANTOS LIMA
  • MEMBROS DA BANCA :
  • JOAO PAULO MATOS SANTOS LIMA
  • GUSTAVO ANTONIO DE SOUZA
  • RODRIGO MARANGUAPE SILVA DA CUNHA
  • Data: 30/06/2020

  • Mostrar Resumo
  • Alterações na sequência primária de aminoácidos podem resultar em alterações na estrutura tridimensional de proteínas e perda parcial ou total da sua função. Uma forma de representar as ligações e interações entre todos os aminoácidos de uma proteína é por meio das redes de interação de resíduos (RINs). Nas RINs a estrutura 3D de proteínas são apresentadas na forma de grafos, onde os nós representam os resíduos de aminoácidos e as arestas representam as interações físico-químicas entre os aminoácidos. Nossa hipótese é que a comparação entre RINs de uma mesma proteína em diferentes conformações pode ser utilizada para avaliação dos efeitos de mutações e polimorfismos, assim como para a análise e validação de modelos teóricos. Portanto, o estudo tem por objetivo construir uma ferramenta para comparação de diferentes RINs para uma proteína e utilizar tais dados para pontuar diferenças conformacionais entre proteínas e na validação de modelos gerados por homologia. As RINs foram criadas utilizando o RING 2.0 (Residue Interaction Network Generator). A ferramenta desenvolvida para isso, chamada de CoRINs (Comparator of Residue Interaction Networks), compara todos os nós de RINs geradas a partir de diferentes arquivos de estrutura (PDBs) de uma mesma proteína, levando em consideração a posição, a cadeia e o resíduo, bem como suas interações com os outros aminoácidos. A ferramenta apresenta um gráfico que estima a variação de interações formadas por cada resíduo, que pode ser utilizado com uma estimativa para a variação conformacional daquele sítio proteico, a partir do conjunto de PDBs comparados. Como aplicação para a ferramenta, utilizamos um conjunto de dados com oncogenes e genes supressores de tumor e suas respectivas mutações reportadas. Estas foram mapeadas de acordo com a variação da conectividade de cada resíduo. Os resultados demonstram que mutações associadas aos oncogenes apresentam uma maior tendência de ocorrer em sítios com maior variação na quantidade de interações em seus resíduos. Adicionalmente, a maioria das mutações anotadas como patogênicas e associadas ao câncer nestes genes ocorreu em sítios com maior quantidade de mudanças em interações químicas e físicas. Tais resultados demonstram que a ferramenta CoRINs pode ser útil na identificação das ligações químicas secundárias e interações não-covalentes essenciais à manutenção da estrutura proteica, podendo ser utilizada em estudos evolutivos, como na manutenção da função de proteínas homólogas com alta divergência de sequência primária e também na comparação e validação de modelos estruturais teóricos.


  • Mostrar Abstract
  • Changes in the amino acid sequence may result in alterations in the three- dimensional protein structure, which may lead to partial or complete loss of function. One way to represent the chemical interactions between all amino acids in a protein is through the construction of residue interaction networks (RINs). In RINs, a graph represents the protein 3D structure, with the nodes as amino acid residues, and the edges as the physicochemical interactions between amino acids. We hypothesize that the comparison between RINs of the same protein in different conformations can be used to evaluate the effects of mutations and polymorphisms, as well as for the analysis and validation of theoretical protein models. Therefore, the present work aimed to build a tool to compare different RINs for a protein and to use such data to estimate conformational differences between proteins and also validate models generated by homology modeling. RINs were created using the RING 2.0 (Residue Interaction Network Generator) program. The tool developed for this purpose, called Comparator of Residue Interaction Networks (CoRINs), compares all RIN nodes generated from different structure files (PDBs) of the same protein, taking into account position, chain and residue, as well as their interactions with the other amino acids. The tool also presents a plot that estimates the variation of interactions formed by each residue, which we propose as an estimate for the conformational alterations of that protein site, from a set of compared PDBs. As a possible application for this tool, we used a dataset with oncogenes and tumor suppressor genes with their respective reported mutations mapped according to the connectivity deviation of each residue. Then we retrieved the different conformations for each resulting protein from a bank of structural conformers and constructed the RINs using the software RING 2.0 and compared them with CoRINs. The results show that mutations occurring in the tested oncogenes are more likely to occur in protein sites with a more significant deviation in the mean number of chemical interactions. Additionally, most of these genes’ mutations annotated as pathogenic and associated with clinical cancer cases occurred at sites with the most significant changes in chemical and physical interactions. These results demonstrate that the CoRINs tool can be useful in identifying non- covalent interactions essential for protein structure maintenance and in evolutionary studies, such as in the maintenance of homologous proteins function with high sequence divergence, as well as for the comparison and validation of theoretical structural models.

5
  • IGOR AUGUSTO BRANDÃO
  • Abordagens da biologia de sistemas na investigação dos pontos de articulação nas rotas metabólicas do KEGG

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • CESAR RENNO COSTA
  • RICARDO D''''OLIVEIRA ALBANUS
  • Data: 14/08/2020

  • Mostrar Resumo
  • O estudo da essencialidade das proteínas por meio de métodos laboratoriais é caro e não escalável para grandes quantidades de proteínas, desta forma é relevante avaliar a essencialidade das várias proteínas de uma via metabólica como um todo através de ferramentas computacionais. Em geral, uma via metabólica pode ser analisada como grafos, os quais fornecem diferentes recursos para o estudo das características topológicas de redes, como os seus pontos de articulação e disposição dos nós. Atualmente, pesquisas em bioinformática estudam a essencialidade de proteínas com base nas métricas de betweenness e degree, contudo a teoria dos grafos sugere que os pontos de articulação podem ser nós importante em uma rede resta avaliar se esses pontos de articulação são de fato essenciais para as vias metabólicas e seu impacto topológico na rede. Utilizando análises baseadas em métricas de rede, o nosso objetivo é verificar se de fato esses pontos de articulação representam gargalos na rede, sendo estes caracterizados como proteínas de frequências elevadas e localizadas no centro das redes. Para tanto, identificamos os pontos de articulação em diferentes vias metabólicas do KEGG, avaliamos o impacto de cada um deles, calculamos sua frequência e comparamos suas ocorrências com as demais proteínas. Inicialmente, fizemos o levantamento das vias metabólicas do KEGG que estavam disponíveis através dos arquivos KGML associados às redes. Após a listagem das vias disponíveis, os dados estruturais de cada uma delas foram convertidos em objetos do tipo grafo. Os parâmetros ponto de articulação, betweenness e degree foram utilizados para classificar as proteínas constantes em cada via metabólica. Aproximadamente 20% das proteínas foram classificadas como pontos de articulação, das quais 3,75% foram identificadas pela alta frequência e localização em regiões centrais da rede. Além disso, a maior concentração dos pontos de articulação ocorreu na faixa de frequência dos 80 a 90%. Um padrão de não aleatoriedade na distribuição dos pontos de articulação foi identificado nos grupos com frequências acima de 74,5%. Finalmente, a biossíntese de esteroides foi a via metabólica com o maior número de pontos de articulação com frequências superiores a 80% em sua constituição. A oxidoredutase foi a classe dos pontos de articulação presente no maior número de vias metabólicas. As descobertas sugerem que os gargalos das redes avaliadas são pontos de articulação com as frequências mais altas e localizados no centro da rede. Resta realizar análises mais aprofundadas a respeito dos papéis biológicos destes pontos de articulação encontrados.


  • Mostrar Abstract
  • The study of proteins essentiality through laboratory methods is expensive, time-consuming and not scalable for large amounts of proteins. Besides, it is relevant to evaluate the essentiality of several proteins of a metabolic pathway as a whole. The metabolic pathways can be analyzed as graphs, which provide several tools to study the topological features such as the articulation points. Nowadays, research in bioinformatics studies the essentiality of proteins based on betweenness and degree metrics, however, graph theory suggests that articulation points could be essential nodes in a network. It remains to be determined whether these articulation points are essential in metabolic pathways and their topological impact on the network. Using network analysis via metrics and biologic curation, we aim to verify if bottlenecks are proteins with the highest frequencies and located in the center of KEGG metabolic pathways. For this purpose, we identified the articulation points in different networks, evaluate the impact of each articulation point, calculate their frequency and compare them with occurrences of non-articulation points. We consulted KEGG pathways available as KGML files. After, the data was transformed into a graph object. Two centrality parameters including articulation points and degree are determined and the essential proteins based on these parameters are classified. Approximately 20% of the proteins are articulation points. The articulation points with high- frequency which are located in central regions of the network were considered the most important (3.75%). In addition, the highest concentration of articulation points occurred in the frequency range of 80-90%. A pattern of non-randomness of articulation points was identified in the protein groups that have a frequency of at least 74.5%. Finally, steroid biosynthesis is the metabolic pathway with the highest number of articulation points with frequency higher than 80%. Besides, oxidoreductase is the articulation point class present in the highest number of metabolic pathways. Overall, the findings suggest that bottlenecks are articulation points with highest frequencies and located in the center of the network. It remains to perform a deep analysis on the articulation points biological roles.

6
  • DANILO LOPES MARTINS
  • Análise exploratória do transcriptoma do Arapaima gigas

  • Orientador : Jorge Estefano de Santana Souza
  • MEMBROS DA BANCA :
  • Jorge Estefano de Santana Souza
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • Data: 29/09/2020

  • Mostrar Resumo
  • O Arapaima gigas, conhecido como pirarucu, é considerado um dos maiores peixes de água doce do mundo, com um notável interesse no mercado da aquicultura devido às suas características biológicas particulares, incluindo o seu rápido crescimento nos seus primeiros anos de vida. Nos últimos anos, apesar da disponibilização massiva de dados advindos de projetos de sequenciamento, poucos foram os que abordaram o táxon que inclui essa espécie. O presente estudo foi desenvolvido com a finalidade de caracterizar o transcriptoma dessa espécie, através de uma análise exploratória transcricional e dos padrões de expressão gênica relacionados a perfis genes tecido-específicos, além de evidenciar genes sexo-específicos. Por meio do sequenciamento do cDNA de 12 amostras de tecidos diferentes do pirarucu, montou-se um transcriptoma de referência com a estratégia de montagem guiada pelo genoma referência. Foram analisados os padrões de expressão gênica para os diferentes tecidos de macho e fêmea de espécimes adultos. Pipelines como STAR, SortMeRNA, Braker2, Diamond e mygene para a montagem e anotação gênica foram utilizados, assim como as ferramentas clusterProfiler e KEGG para análise de enriquecimento funcional dos genes e o animalTFDB para identificação de fatores de transcrição. Neste estudo evidenciamos um conjunto de produtos gênicos anotados que servem como potenciais candidatos a produtos biotecnológicos, por estarem envolvidos nos fenótipos individuais dos tecidos, processos de dimorfismo sexual, e na regulação de processos que podem explicar suas características morfológicas únicas. Esse estudo também podem auxiliar substancialmente na condução de análises posteriores.


  • Mostrar Abstract
  • Arapaima gigas, known as pirarucu, is considered one of the largest freshwater fish in the world, with a notable interest in the aquaculture due to its particular biological characteristics, including its rapid growth in its early years. In recent years, despite the massive availability of data from sequencing projects, few have addressed the taxon that includes this species. The present study was developed aiming characterize the transcriptome of this species, through an exploratory transcriptional analysis and patterns of gene expression related to specific gene profiles, in addition to highlighting sex-specific genes. By cDNA sequencing of 12 different tissue samples from Arapaima gigas, a reference transcriptome was assembled with a genome-guided assembly strategy. The gene expression profiles of different male and female tissues of adult specimens were analyzed. Pipelines such as Hisat2, Braker2, Trinity, Diamond and mygene were used for the assembly and annotation of genes, as well as clusterProfiler and KEGG tools for functional enrichment analysis and animalTFDB for identifying transcription factors. In this study we highlighted a set of annotated genes which may be potential candidates to biotechnological products, as they are involved in individual tissue phenotypes, sexual dimorphism processes, and in regulation of process that can explain their unique morphological characteristics. This study can also substantially conduct further analysis.

Teses
1
  • KATYANNA SALES BEZERRA
  • QUANTUM BIOCHEMICAL STUDY OF INTERACTIONS BETWEEN
    THE ANDROGENIC RECEPTOR, rRNA AND MCL-1 AND LIGANDS

  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • DOUGLAS SOARES GALVAO
  • EUDENILSON LINS DE ALBUQUERQUE
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • UMBERTO LAINO FULCO
  • VALDER NOGUEIRA FREIRE
  • Data: 24/03/2020

  • Mostrar Resumo
  • Esta tese apresenta três pesquisas realizadas no campo da simulação ab initio, baseadas em princípios da Mecânica Quântica. O primeiro estudo retrata as particularidades das interações entre o receptor androgênico (RA) carregando uma mutação T877A, cuja a qual promove promiscuidade no receptor, e dois fármacos antagonistas acetato de ciproterona e hidroxiflutamida (CPA e HFT) e um composto agonista (RLL). As energias de interação foram obtidas com base em métodos da química quântica baseados na Teoria do Funcional da Densidade (DFT) utilizando o método de Fragmentação com Capas Conjugadas (MFCC). Os resultados demonstram a relevância individual entre T877A-RA e os ligantes, apontando os principais resíduos que perfazem as interações. O segundo estudo apresenta a análise da interação entre RNA ribossômico 16S e a higromicina B (hygB) é um antibiótico aminoglicosídeo que afeta a translocação ribossômica, utilizando a estratégia MFCC à luz do DFT e parametrizações de constantes dielétricas. Os resultados apontaram que os nucleotídeos C1403, C1404, G1405, A1493, G1494, U1495, C1496 e U1498 tinham as energias de ligação mais negativas, tornando-os fortes candidatos para estabilizar o hygB em uma bolsa de ligação adequada da subunidade ribossômica 30S dos procariontes. Já o terceiro trabalho apresentado aqui investiga as interações entre a proteína anti-apoptótica MCL-1, a qual sua superexpressão tem a capacidade de bloquear a via de sinalização da apoptose permitindo o crescimento celular desordenado, e sete compostos químicos com potencial para inibir a proteína. A metodologia utilizada aqui também utiliza métodos quânticos baseados no DFT, além do MFCC. Os resultados apontaram que os resíduos Arg263, Met231, Val253 Phe270, Phe228, Phe254, Leu267 e Thr266 são de crucial importância para a ligação dos inibidores ao bolso hidrofóbico de MCL-1. Os métodos computacionais utilizados nos três estudos emergem como uma alternativa elegante e eficiente para o desenvolvimento de medicamentos.


  • Mostrar Abstract
  • This thesis presents three researches carried out in the field of ab initio simulation, based on principles of Quantum Mechanics. The first study present the particularities of the interactions between the androgen receptor (AR) carrying a T877A mutation, which promotes promiscuity in the receptor, and two antagonist drugs cyproterone acetate and hydroxyflutamide (CPA and HFT) and an agonist compound (RLL). The interaction energies were obtained based on quantum chemistry methods based on Density Functional Theory (DFT) using the method Molecular Fragmentation with Conjugated Caps (MFCC). The results demonstrate the individual relevance between T877A-AR and the ligands, pointing out the main residues that make the interactions. The second study presents the analysis of the interaction between 16S ribosomal RNA and hygromycin B (hygB) is an aminoglycoside antibiotic that affects ribosomal translocation, using the MFCC strategy in light of the DFT and parameterization of dielectric constants. The results showed that nucleotides C1403, C1404, G1405, A1493, G1494, U1495, C1496 and U1498 had the most negative binding energies, making them strong candidates for stabilizing hygB in a suitable binding pouch of the 30S ribosomal subunit of prokaryotes. The third work presented here investigates the interactions between the anti-apoptotic protein MCL-1, which overexpression has the ability to block the apoptosis signaling pathway allowing for disordered cell growth, and seven chemical compounds with the potential to inhibit the protein . The methodology used here also uses quantum methods based on DFT, in addition to MFCC. The results showed that the residues Arg263, Met231, Val253 Phe270, Phe228, Phe254, Leu267 and Thr266 are of crucial importance for the binding of inhibitors to the hydrophobic pocket of MCL-1. The computational methods used in the three studies emerge as an elegant and efficient alternative for drug development.

2
  • FREDERICO LEMOS DOS SANTOS
  • PROCESSO EPIDÊMICO MEDIADO POR VETORES E PROCESSO NO MODELO SIS EM REDE COMPLEXA: UM ESTUDO DAS PROPRIEDADES CRÍTICAS

  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • UMBERTO LAINO FULCO
  • JOAO PAULO MATOS SANTOS LIMA
  • ANTONIO DE MACEDO FILHO
  • MAURICIO LOPES DE ALMEIDA
  • PAULO HENRIQUE RIBEIRO BARBOSA
  • Data: 19/08/2020

  • Mostrar Resumo
  • Desde 1990 que as propagações epidêmicas têm sido alvo de muitos estudos base- ados nos métodos da Física Estatística. As dinâmicas desses processos epidêmicos, tipica- mente de não equilíbrio, consistem na competição pelo estado de saúde ativo (hospedeiros infectados) e inativo (hospedeiros não infectados). A transição entre estes estados ativo (epidêmico) e inativo (não epidêmico) permite a análise do ponto e dos expoentes críticos do sistema (classe de universalidade). Nesta tese investiga-se as propriedades críticas de dois sistemas epidêmicos: O primeiro composto de duas espécies de população que são a humana com hospedeiros não infectados (H) e hospedeiros infectados (Hi) e a dos vetores composta de vetores não infectados (V ) e vetores infectados (Vi), que se difundem inde- pendentemente numa rede unidimensional, com a taxa D, seguindo uma regra dinâmica de probabilidade, onde as taxas de cura dos vetores e dos indivíduos são respectivamente φ e λ. Um segundo sistema epidêmico, conhecido como suscetível infectado suscetível (SIS), em uma rede complexa com alto fator de agregação e com taxa de contaminação λ. Para ambos os modelos, utiliza-se simulações computacionais usando-se o Método de Monte Carlo para obter os dados e fazer a análise de escala de tamanho finito, para estimar as propriedades críticas. Pretende-se obter as propriedades críticas dos dois processos e enquadrá-los em suas respectivas classes de universalidade. Estas informações podem contribuir com as metodologias empregadas pela epidemiologia no combate as doenças infecciosas.


  • Mostrar Abstract
  • Since 1990, epidemic spread has been the subject of many studies based on sta- tistical physics methods. The dynamics of these epidemic processes, typically of non- equilibrium, consist of competition for active (infected hosts) and inactive (uninfected hopedeiro) health status. The transition between these active (epidemic) and inactive (non-epidemic) states allows the analysis of the critical point and exponents of the sys- tem (universality class). In this thesis, the critical properties of two epidemic systems are investigated: The first compound of two population species that are human with uninfec- ted hosts (H) and infected hosts (Hi) and that of vectors composed of non-infected vectors infected (V ) and infected vectors (Vi), which spread independently in a one-dimensional network, at D rates, following a dynamic probability rule, where the cure rates of vectors and individuals are respectively φ and λ. A second epidemic system, known as suscep- tible infected susceptible (SIS), in a complex network with high aggregation factor and contamination rate λ. For both models, computer simulations are used using the Monte Carlo Method to obtain the data and perform a finite-size scale analysis to estimate cri- tical properties. The conclusion of this work is the analysis of critical points and critical exponents. It is expected to define a new class of universality and a parallel with the methodology used by epidemiology to combat infectious diseases.

3
  • EDUARDO NOGUEIRA CUNHA
  • Um Sistema Inteligente de Baixo Custo para Detecção de Ácidos Nucleicos Baseados em Eletroforese no Espectro Visível

  • Orientador : JOAO PAULO MATOS SANTOS LIMA
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • ALEXSANDRO SOBREIRA GALDINO
  • DANIEL CARLOS FERREIRA LANZA
  • JOAO PAULO MATOS SANTOS LIMA
  • MARCELO AUGUSTO COSTA FERNANDES
  • RODRIGO MARANGUAPE SILVA DA CUNHA
  • Data: 20/11/2020

  • Mostrar Resumo
  • A detecção de ácidos nucleicos por eletroforese ainda é uma técnica rápida e acessível para muitos métodos de diagnóstico, principalmente em laboratórios de pesquisa ou em unidades básicas de saúde. Protocolos padrão detectam moléculas de DNA/RNA através de corantes químicos específicos usando um transiluminador de UV ou sistema de fotodocumentação ultravioleta. No entanto, os custos de aquisição e a disponibilidade desses dispositivos, principalmente aqueles com capacidade de fotografia e conexão à Internet, podem ser proibitivos, principalmente nas unidades de saúde pública dos países em desenvolvimento. Além disso, a radiação ultravioleta é um fator de risco adicional comum para profissionais que usam a detecção de ácidos nucleicos baseada em eletroforese. Com isso em mente, este trabalho descreve o desenvolvimento de um sistema inteligente de detecção de DNA/RNA de baixo custo, capaz de obter dados qualitativos e semiquantitativos da análise em gel. O dispositivo proposto explora a faixa de absorção de luz visível dos corantes de DNA/RNA comumente usados, usando peças prontamente disponíveis e processos de fabricação simples, como diodos emissores de luz (LEDs) e impressão 3D. Ao aplicar técnicas de Internet Of Things, nosso sistema cobre uma ampla gama de espectros de cores para detectar bandas de vários corantes usados comercialmente, usando comunicação Bluetooth e um smartphonepara controle de hardware, captura e compartilhamento de imagens. O projeto também permite a escalabilidade do processo e possui baixos custos de fabricação e manutenção. O uso de LEDs no espectro visível pode obter imagens muito reproduzíveis, fornecendo um alto potencial para diagnósticos rápidos e no local de atendimento, além de aplicações em vários campos, como saúde, agricultura e aquicultura.


  • Mostrar Abstract
  • Nucleic acid detection by electrophoresis is still a quick and accessible technique for many diagnosis methods, primarily at research laboratories or at the point of care units. Standard protocols detect DNA/RNA molecules through specific bound chemical dyes using a UV-transilluminator or UV-photo documentation system. However, the acquisition costs and availability of these devices, mainly the ones with photography and internet connection capabilities, can be prohibitive, especially in developing countries public health units. Also, ultraviolet radiation is a common additional risk factor to professionals that use electrophoresis-based nucleic acid detection. With that in mind, this work describes the development of a low-cost DNA/RNA detection smart system capable of obtaining qualitative and semi-quantitative data from gel analysis. The proposed device explores the visible light absorption range of commonly used DNA/RNA dyes using readily available parts, and simple manufacturing processes, such as light-emitting diodes (LEDs) and 3D impression. By applying IoT techniques, our system covers a wide range of color spectrum in order to detect bands from various commercially used dyes, using Bluetooth communication and a smartphone for hardware control, image capturing, and sharing. The project also enables process scalability and has low manufacturing and maintenance costs. The use of LEDs at the visible spectrum can achieve very reproducible images, providing a high potential for rapid and point-of-care diagnostics as well as applications in several fields such as healthcare, agriculture, and aquaculture.

2019
Dissertações
1
  • PAULO EDUARDO TOSCANO SOARES
  • Metagenoma de um camarão Penaeus vannamei infectado com o vírus causador da Síndrome da Mancha Branca

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • Jorge Estefano de Santana Souza
  • ANDRE MAURICIO RIBEIRO DOS SANTOS
  • Data: 11/03/2019

  • Mostrar Resumo
  • O camarão de patas brancas (Penaeus vannamei) é a espécie mais cultivada na
    aquicultura mundial. O cultivo comercial geralmente ocorre em densidades altas o que
    propicia a seleção de patógenos virulentos, causando surtos epidêmicos. Dentre os
    patógenos que acometem a carcinicultura, o vírus causador da Síndrome da Mancha
    Branca (White Spot Syndrome Virus - WSSV) é conhecido por surtos que podem
    resultar em mais de 80% de mortalidade em menos de uma semana. Em decorrência
    disso, o uso de estratégias preventivas que possibilitem a identificação e
    acompanhamento da microbiota nos cultivos tem se tornado cada vez mais necessária,
    sobretudo em sistemas intensivos. Recentemente, o uso da metagenômica foi sugerido
    para o monitoramento em aquicultura. Vários estudos usaram metagenômica 16S, para
    estudar a microbiota associada a camarões saudáveis ou infectados com patógenos
    específicos. Outros estudos abordaram a metagenômica shotgun para descobrir novos
    vírus. A metagenômica shotgun é potencialmente mais informativa que a metagenômica
    por genes marcadores, permitindo a recuperação de informação genômica do hospedeiro
    e seus simbiontes, incluindo vírus, cuja composição pode atuar como bioindicadores do
    estágio da doença. Neste estudo, a metagenômica shotgun foi utilizada para analisar o
    músculo caudal de um exemplar de P. vannamei infectado pelo WSSV. Classificações
    taxonômicas e funcionais foram feitas para se obter os respectivos perfis dos dados
    metagenômicos. P. vannamei e WSSV foram os organismos mais abundantes na
    classificação por reads. Na análise dos contigs, foi observada maior abundância de
    contigs para camarão, bactérias e WSSV respectivamente. A classificação funcional foi
    realizada por meio do software MEGAN e resultou em poucos grupos representativos
    de funções proteicas, que não foram suficientes para estabelecer um perfil funcional da
    amostra. Uma classificação taxonômica a partir do BLASTx também foi realizada com
    o MEGAN e apresentou resultados similares a classificação usando BLASTn. Os
    resultados do BLASTn possibilitaram a montagem do genoma mitocondrial completo
    do P. vannamei. Este estudo fornece suporte para o uso da metagenômica shotgun
    como uma ferramenta para o monitoramento da microbiota em cultivos de camarão,
    sendo possível recuperar simultaneamente informações úteis para a genética de
    populações (através do o genoma mitocondrial do camarão) e o monitoramento de
    simbiontes e patógenos, como as bactérias e o WSSV.

     


  • Mostrar Abstract
  • White-leg shrimp (Penaeus vannamei) is the most widely cultivated species in
    aquaculture in the world. Commercial cultivation usually occurs at high densities, which
    favors the selection of virulent pathogens, causing epidemic outbreaks. Among the
    pathogens that cause shingles, the virus that causes White Spot Syndrome Virus
    (WSSV) is known for outbreaks that can result in more than 80% of mortality in less
    than a week. As a result, the use of preventive strategies that allow the identification and
    monitoring of microbiota in crops has become increasingly necessary, especially in
    intensive systems. Recently, the use of metagenomics has been suggested for
    monitoring in aquaculture. Several studies have used 16S metagenomics to study the
    microbiota associated with healthy or infected shrimp with specific pathogens. Other
    studies have addressed the metagenomic shotgun to discover new viruses. The
    metagenomic shotgun is potentially more informative than the metagenomic by marker
    genes, allowing the retrieval of genomic information from the host and its symbionts,
    including viruses, whose composition may act as bioindicators of the disease stage. In
    this study, the shotgun metagenomic was used to analyze the caudal muscle of a P.
    vannamei specimen infected by WSSV. Taxonomic and functional classifications were
    made to obtain the respective profiles of the metagenomic data. P. vannamei and WSSV
    were the most abundant organisms in the classification by reads. In the analysis of the
    contigs, greater abundance of contigs was observed for shrimp, bacteria and WSSV,
    respectively. Functional classification was performed using the MEGAN software and
    resulted in few representative groups of protein functions, which were not sufficient to
    establish a functional profile of the sample. A taxonomic classification from the
    BLASTx was also performed with the MEGAN and presented results similar to the
    classification using BLASTn. The BLASTn results enabled the assembly of the
    complete mitochondrial genome of P. vannamei. This study provides support for the use
    of the shotgun metagenomics as a tool for the monitoring of the microbiota in shrimp
    cultures, and it is possible to simultaneously retrieve information useful for population
    genetics (through the mitochondrial shrimp genome) and the monitoring of symbionts
    and pathogens , such as bacteria and WSSV.

2
  • ANA CAROLINA MIRANDA FERNANDES COÊLHO
  • neoANT-HILL: uma ferramenta integrada para a detecção de potenciais neoantígenos

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • Jorge Estefano de Santana Souza
  • SANDRO JOSE DE SOUZA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 18/04/2019

  • Mostrar Resumo
  • Nos últimos anos, os neoantígenos têm gerado grande interesse na imunoterapia devido à sua capacidade de elicitar respostas imunológicas antitumorais. Os neoantígenos surgem como consequências de mutações somáticas especificas e podem ser apresentados, pelas moléculas de HLA, na superfície das células tumorais e reconhecidos pelas células T como moléculas não-próprias. Diversos estudos indicaram resultados promissores quanto ao uso dos neoantígenos em diferentes abordagens imunoterapêuticas. No entanto, a identificação precisa dos neoantígenos ainda permanece um desafio. Portanto, o objetivo do presente trabalho foi desenvolver uma ferramenta computacional que integre análises imunogenômicas individuais, porém, fundamentais para a identificação de potenciais neoantígenos. Foram utilizados dados de RNA-seq do projeto GEUVADIS e dados de mutações somáticas provenientes de melanoma do projeto TCGA para auxiliar na validação do pipeline desenvolvido. Como resultado, obteve-se a ferramenta, denominada neoANT-HILL, desenvolvida na linguagem de programação Python e, disponível através de uma interface gráfica amigável e interativa. A ferramenta utiliza dados provenientes do sequenciamento genômico ou exômico e/ou dados de RNA-Seq para a execução das análises imunogenômicas disponíveis. A integração dos resultados auxiliam na identificação precisa de potenciais neoantígenos candidatos à imunoterapia.

     


  • Mostrar Abstract
  • In recent years, neoantigens have generated great interest in immunotherapy due to its ability to elicit antitumor immune responses. Neoantigens arise from specific somatic mutations and it can be present by HLA molecules on the surface of tumor cells and recognized by T cells as non-self molecules. Several studies have indicated promising results in the use of neoantigens in different immunotherapeutic approaches. However, the precise identification of neoantigens remains challenging. Therefore, the aim of the present work was developing a computational tool that integrates the individual immunogenetics analyses, which are fundamental for the identification of potential neoantigens. RNA-seq data from GEUVADIS project and melanoma mutation data obtained from the TCGA to validate the developed pipeline. As a result, we developed a tool, called neoANT-HILL, in Python programming language and available through a friendly and interactive graphical user interface. Data from the whole genome or exome sequencing and/or RNA-Seq data are used for performing the immunogenomic analyzes. The integration of the results allows the identification of potential neoantigens candidates for immunotherapy.

3
  • PEDRO IGOR CÂMARA DE OLIVEIRA
  • PLANEJAMENTO DE NOVOS INIBIDORES DA CYP51 DO TRYPANOSOMA CRUZI POR ESTUDOS DE QSAR

  • Orientador : EUZEBIO GUIMARAES BARBOSA
  • MEMBROS DA BANCA :
  • EUZEBIO GUIMARAES BARBOSA
  • MARCUS TULLIUS SCOTTI
  • PAULO MARCOS DA MATTA GUEDES
  • Data: 07/06/2019

  • Mostrar Resumo
  • A doença de Chagas mata cerca de 10.000 pessoas por ano e aproximadamente 8 milhões de pessoas estão infectadas pelo Trypanosoma cruzi. O principal medicamento de referência para o tratamento da doença, o benzonidazol, é utilizado desde a década de 70. Nos últimos anos, muitos inibidores da CYP51 têm sido testados contra esta enzima do parasito. Um destes inibidores, o posaconazol chegou inclusive a testes clínicos, que infelizmente não foram bem sucedidos. Porém ainda há indícios que a CYP51 é um ótimo alvo em potencial para tratar a infecção pelo T. cruzi. A pesquisa por novas moléculas eficazes que poderiam possivelmente curar a fase crônica da doença é algo essencial. Estudos de QSAR (Quantitative Structure Activity Relationship) 2D e 3D foram utilizados neste trabalho para criar três modelos para previsão de atividade biológica, baseados em estruturas químicas de 197 compostos publicados na literatura que já passaram por testes in vivo ou in vitro. Após a análise dos modelos, novos análogos que ainda não foram sintetizados foram sugeridos neste trabalho e tiveram sua atividade biológica prevista e acessibilidade sintética avaliada.


  • Mostrar Abstract
  • Chagas disease kills over 10,000 people per year and approximately 8 million people are infected by Trypanosoma cruzi. The reference drug for treatment of the disease, benznidazole, is the same since the 70s. In recent years, many CYP51 inhibitors were tested against this parasite’s target. One of them, posaconazole, was even tested in clinical trials that unfortunately were not successful. Nevertheless, there are still many evidences that CYP51 is a great potential target to treat T. cruzi infection.  The research for new effective molecules that can cure the chronic phase of the disease is essential. 2D and 3D-Quantitative Structure Activity Relationship (QSAR) studies were conducted in this work to create three QSAR models using the chemical structures of 197 published compounds that already went through either in vivo or in vitro tests. After the analysis of the models, new analogues not yet synthesized were suggested here and had their biological activity and synthetic availability assessed. 

4
  • TAYNÁ DA SILVA FIÚZA
  • Investigação in silico de epítopos oriundos de linhagens de Mycobacterium avium subsp. hominissuis como candidatos vacinais

  • Orientador : GUSTAVO ANTONIO DE SOUZA
  • MEMBROS DA BANCA :
  • GUSTAVO ANTONIO DE SOUZA
  • TETSU SAKAMOTO
  • HELENA PAULA BRENTANI
  • Data: 04/12/2019

  • Mostrar Resumo
  • Micobactérias não tuberculosas são micobactérias ambientais responsáveis por um crescente número de infecções respiratórias e sistêmicas nas últimas décadas, especialmente entre crianças, idosos e indivíduos imunodeficientes. O complexo do Mycobacterium avium, composto por M. avium e M. intracellulare é responsável pela maior parte desses casos e esta primeira espécie possui quatro subespécies de diferentes capacidades infecciosas e hospedeiros. Uma dessas subespécies, Mycobacterium avium subsp. hominissuis, foi isolada de humanos e suínos, enquanto outras variedades infectam gado, aves e animais silvestres. Até o presente momento o tratamento das infecções causadas pelo complexo se dá pelo uso de múltiplos antibióticos em um regime longo, custoso e por vezes ineficiente. A identificação de alvos efetivos para o controle desses organismos é essencial e desafiadora uma vez que proteínas de superfície, moléculas alvo chave em diversas imunoterapias bem-sucedidas, são de difícil isolamento. Além disso, o desenho de imunoterapias e formulações vacinais dependem da identificação de peptídeos de maior interesse imunológico os quais decorrem de protocolos repetitivos e custosos. Nesse trabalho buscou-se integrar ferramentas computacionais de maneira a investigar proteínas de superfície com porções imunogênicas expostas e ubíquas a linhagens de Mycobacterium avium subsp. hominissuis. Para isto, 32648 proteínas de 7 diferentes linhagens de Mycobacterium avium subsp. hominissuis, obtidas do NCBI, foram submetidas à predição de seus domínios trans-membranares pelo software TMHMM e as 3426 sequências contendo estes domínios foram agrupadas em 577 clusters com respeito a sua homologia de modo a classificar proteínas de membrana comuns a todas esses organismos utilizando ferramentas da plataforma CMG Biotools. Utilizando essas sequências, juntamente com os métodos disponíveis no IEDB foram empregados em predições de afinidade aos 27 alelos de MHC mais frequentes em diversas populações humanas e os peptídeos de maior imunogenicidade foram selecionados, restando 112 clusters. Dos peptídeos altamente imunogênicos presentes, apenas os pertencentes a 58 clusters cujas sequências os situavam mais de 50% na porção externa da membrana foram considerados possíveis candidatos a uma formulação vacinal. Foram ainda calculadas a conservação dos peptídeos (presença nas diferentes linhagens analisadas), em que 60% dos clusters são completamente formados por peptídeos ubíquos e a promiscuidade dos mesmos (número de diferentes MHCs aos quais se ligam), em que apenas um cluster possui um peptídeo com alta afinidade a quatro MHCs distintos. Com respeito aos candidatos para a formulação vacinal, um conjunto mínimo de 9 peptídeos com alta afinidade ao número maior de MHCs distintos foi selecionado com peptídeos interagindo com 15 moléculas. Nenhuma das sequências desses peptídeos candidatos mostrou potencial para geração de reatividade cruzada com proteínas humanas ou suínas. O trabalho computacional aqui desenvolvido poderá ser aplicado a outros conjuntos de organismos de maneira a identificar possíveis candidatos para aplicações vacinais.


  • Mostrar Abstract
  • Non-tuberculous mycobacteria are environmental mycobacteria responsible for a growing number of systemic and respiratory infections affecting mostly children, elders and immunocompromised individuals. The Mycobacterium avium Complex comprises Mycobacterium aviumas well as M. intracellulare and the major responsible for the reported cases to this day. M. aviumhas been recently classified as containing four subspecies with different infectivities as well as different hosts. One of those subspecies, Mycobacterium aviumsubsp. hominissuis has been isolated from humans and swines, whereas other varieties are found in cattle, birds and wild animals. To this moment, MAC infections are controlled with the use of multiple antibiotics through long, expensive and sometimes inefficient treatment regimens. The identification of effective targets for controlling such organisms is an essential and challenging task as surface proteins, which are key target molecules in several successful immunotherapies, are difficult to isolate. In addition, the design of immunotherapies and vaccine formulations depends on the identification of peptides of immunological interest which are usually found through repetitive and expensive experimental protocols. In this study applied computational tools to investigate surface proteins with exposed and ubiquitous immunogenic portions to strains of Mycobacterium avium subsp. hominissuis. To achieve that, 32648 amino acid sequences obtained from the NCBI database for Mycobacterium aviumsubsp. hominissuis were submitted to TMHMM for detection of alpha-helix transmembane domain, which were present in 3426 of those sequences. These proteins were clustered in 577 groups by CMG Biotools according to their homology as to identify membrane proteins common to all the organisms of interest. Those sequences were then submitted to available methods obtained at IEDB to classify their affinity to a list of 27 MHC alleles frequent in human populations. Peptides with the highest predicted immunogenicities were selected and 112 clusters with core proteins and high MHC affinities were selected. Crossing information between IEDB and TMHMM allowed for the selection of the 58 clusters in which at least one peptide was predicted to be placed on the outer portion of membrane. We also calculated peptide A. conservation (their presence in different strains), where 60% of clusters are formed by ubiquous peptides and B. promiscuity (the number of distinct MHCs to which they bind), where only a single cluster has a peptide that binds to four distinct MHCs with high affinities. As for vaccine epitope candidates, a minimum set with nine peptides of high binding affinity to the highest possible number of distinct MHCs were selected, interacting with 15 molecules. None of those nine sequences showed potential to cross-react with human or swine proteins. The protocol executed for this work can be applied to other organisms as means to identify possible vaccine application candidates.

5
  • RAUL MAIA FALCÃO
  • ALPORT AUTOSSÔMICA: UM ESTUDO DE DUAS FAMÍLIAS NORTE-RIO-GRANDENSE

  • Orientador : Jorge Estefano de Santana Souza
  • MEMBROS DA BANCA :
  • Jorge Estefano de Santana Souza
  • SELMA MARIA BEZERRA JERONIMO
  • VALDIR BALBINO
  • Data: 19/12/2019

  • Mostrar Resumo
  • Síndrome de Alport (SA) é uma patologia geneticamente rara, heterogênea e hereditária associada a mutações germinativas nos genes de colágeno tipo IV (COL4A3, COL4A4 e COL4A5). Caracterizada por provocar perda progressiva da função renal, auditiva e lesões oculares durante a primeira infância, o progresso da doença evolue para uma doença renal terminal frequentemente associada à falência renal. Estudos que visam diagnosticar precocemente indivíduos com essa nefropatia pode levar ao tratamento adequado e, portanto, melhorar a expectativa de vida. Atualmente tem surgido esforços, focados no genoma dos pacientes, para a criação de testes de diagnósticos de doenças/síndromes raras. Sob esse olhar, conhecer mutações, genes e vias metabólicas envolvidas com a patologia é crucial para o entendimento da complexidade dessas doenças. Pensando em corroborar com os achados e estudos a respeito de SA foi realizado o sequenciamento do exoma de duas famílias do Rio Grande do Norte (RN), ambas compostas por 4 indivíduos. Através dos softwares GATK e VARSCAN2 foi realizada a chamada de variantes seguido de uma varredura por variantes deletérias identificadas por um script in house. Os resultados apontaram duas variantes deletérias nos genes que formam as cadeias α3 e α4 do colágeno tipo IV (um stop codon no COL4A3 e frameshift em COL4A4) levando a um truncamento prematuro da proteína. Ambas variantes foram detectadas em estado de homozigose nos probandos e em heterozigose nos demais membros da família. Adicionalmente foi detectado uma ampla região de runs of homozigosity (ROH) envolvendo os genes COL4A3 e COL4A4 em ambos os probandos das duas famílias. De acordo com os achados das variantes deletérias nos genes COL4A3 e COL4A4 em regiões de ROH, essas variantes passam a estar relacionadas a SA de forma que observações semelhantes possam servir como suporte para possíveis alvos na criação de novos testes de diagnóstico e para o serviço de Aconselhamento Genético.


  • Mostrar Abstract
  • Alport syndrome (AS) is a genetically rare, heterogeneous and hereditary pathology associated with germline mutations in collagen type IV genes (COL4A3, COL4A4 and COL4A5). Characterized by progressive loss of renal function, hearing and eye damage during early childhood, the progression of the disease progresses to a terminal renal disease often associated with renal failure. Studies aimed at early diagnosing individuals with this nephropathy may lead to appropriate treatment and thus improve life expectancy. Efforts are currently underway, focused on the genome of patients, to create diagnostic tests for rare diseases/syndromes. From this perspective, mutations, genes and metabolic pathways involved with the pathology is crucial to understanding the complexity of these diseases. Thinking about corroborating the findings and studies about AS, the exome sequencing of two families from Rio Grande do Norte (RN), both composed of 4 individuals, was performed. Through the GATK and VARSCAN2 software, variants were called followed by a screening of deleterious variants identified by an in house script. The results pointed to two deleterious variants in the genes that form the type IV collagen α3 and α4 chains (a stop codon in COL4A3 and frameshift in COL4A4) leading to premature protein truncation. Both variants were detected in homozygous state in the probands and heterozygous in the other family members. Additionally, a broad region of runs of homozigosity (ROH) involving the COL4A3 and COL4A4 genes was detected in both probands of both families. According to the findings of deleterious variants in the COL4A3 and COL4A4 genes in ROH regions, these variants are now related to SA so that similar observations can serve as support for possible targets in the creation of new diagnostic tests and for the service of Genetic Counseling.

6
  • THIAGO DANTAS SOARES
  • BIO-DIA: Ferramenta web para integração de dados e algoritmos.

  • Orientador : WILFREDO BLANCO FIGUEROLA
  • MEMBROS DA BANCA :
  • ALBERTO SIGNORETTI
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • WILFREDO BLANCO FIGUEROLA
  • Data: 19/12/2019

  • Mostrar Resumo
  • A ciência de dados está se tornando um campo difícil de trabalhar, não apenas pela enorme quantidade de dados e sua variedade de formatos; também pela a necessidade de colaboração entre vários especialistas, a fim de recuperar
    informações valiosas. Nesse contexto, criamos o Bio-DIA, um software on-line para criar projetos focados na integração de dados e algoritmos. Os resultados obtidos em um projeto podem ser reutilizados em outros projetos, sem conhecimentos específicos de programação. O software foi criado com o Angular no front-end, o Django no back-end com o Spark para lidar com problemas de big data, como a variedade de extensões de arquivos, e para usar o sistema, o único requisito é usar um padrão xml específico. O aplicativo Bio-DIA facilita a colaboração entre os usuários, permitindo que grupos de pesquisadores compartilhassem dados, scripts e informações.


  • Mostrar Abstract
  • Data science is becoming a difficult field to work, not only because the huge amount of data and its variety of formats; also because the needs of collaboration of several specialists in order to retrieve valuable information. In this context, we created Bio-DIA, an online software to build projects which are focused in the integration of data and algorithms. The results obtained in a project can be reused in other projects, without specific programing knowledge. The software was created with Angular in the front-end, Django in the back-end with Spark to handle the
    big-data problems like the variety of formatas, and to use the system the only requirement is to use an specific xml pattern. Bio-DIA application facilitated the collaboration among users, allowing researcher ́s groups to share data, scripts and information.

Teses
1
  • CLOVIS FERREIRA DOS REIS
  • Análise Baseada em Biologia de Sistemas de Dados Transcricionais de Células Progenitoras Neurais Humanas Tratadas com Chumbo

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • BEATRIZ STRANSKY FERREIRA
  • DIEGO BONATTO
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • VIVIANE SOUZA DO AMARAL
  • Data: 01/11/2019

  • Mostrar Resumo
  • As consequências do envenenamento por chumbo são diversas e importantes na saúde humana. Atngindo todos os sistemas orgânicos, afeta principalmente o sistema nervoso, com implicações graves e irreversíveis do  neurodesenvolvimento, consolidação de memória e processos de aprendizagem em crianças. Sua interação com componentes celulares dá-se de muitas formas, afetando prote nas de ligação a ons, prote nas de sinalização de transdução, canais iônicos transmembrana e fatores de transcrição. Apesar da sintomatologia da intoxicação por chumbo já ser bastante conhecida, pouco ainda se sabe sobre seus efeitos sistêmicos e sobre o seu impacto global na modulação da transcrição de células neuronais. A fm de investgar tais efeitos sob uma ótca de biologia de sistemas, aplicamos o pipeline do pacote transcriptogramer R/Bioconductor com a fnalidade de avaliar o perfl transcricional de células progenitoras neurais humanas (NPCs) tratadas com acetato de chumbo 30μM por 26 dias. Dotado de um método não supervisionado, o algoritmo do transcriptogramer é projetado para identfcar, em experimentos do tpo caso-controle, grupos de genes funcionalmente associados e diferencialmente expressos. Tal pipeline foi capaz de identfcar onze clusteres diferencialmente expressos entre os dias 3 e 11 do tratamento com chumbo. Destes, sete apresentaram uma regulação negatva de diversos sistemas celulares envolvidos na diferenciação celular, como organização do citoesqueleto, RNA e biossíntese de proteínas, caracterizados por redes grandes e fortemente conectadas. Os quatro clusteres positvamente regulados apresentaram nós esparsos e pouco conectados, principalmente relacionados a transcrição, transporte transmembrana e transdução de sinal. Já no período subsequente, envolvendo os dias 12 a 26 de tratamento, foi possível observar uma alteração maciça do perfl de transcrição celular com interferência em todas as camadas da regulação da expressão gênica. Desta forma, nossos resultados sugerem que o chumbo induz modifcações transcricionais signifcatvas nas NPCs que podem ser correlacionadas a danos e/ou adaptações de diversos sistemas, todos decorrentes da intoxicação por este metal pesado, influenciando, assim, o resultado fnal da diferenciação das células ES-NP.


  • Mostrar Abstract
  • The consequences of lead poisoning are diverse and relevant to human health. Reaching all organ systems, it mainly afects the nervous system, with severe and irreversible implicatons of neurodevelopment, memory consolidaton, and learning processes in children. They interact with cellular components in many ways, afectng ion-binding proteins, transducton signaling proteins, transmembrane ion channels, and transcripton factors. If in one hand, the symptoms of lead poisoning are well known, on the other hand, we have a lack of the systemic efects and its impact on neuronal cell transcripton modulaton. In order to investgate such efects from a systems biology perspectve, we applied the transcriptogramer R/Bioconductor package pipeline to evaluate the transcriptonal profle of lead acetate- treated human neural progenitor cells (NPCs) 30μM for 26 days. The transcriptogramer algorithm is designed to identfy functonally associated and diferentally expressed gene groups in case-control experiments in an unsupervised way. It was able to identfy eleven diferentally expressed clusters between days 3 and 11 of the lead treatment. Of these, seven presented negatve regulaton of several cellular systems involved in cell diferentaton, such as cytoskeleton organizaton, RNA and protein biosynthesis, characterized by large and tghtly connected networks. The four clusters that were positvely regulated presented sparse and poorly connected nodes, mainly related to transcripton, transmembrane transport, and signal transducton. In the subsequent period, involving days 12 to 26 of treatment, it was possible to observe a massive alteraton of the cellular transcripton profle with interference in all layers of gene expression regulaton. Thus, our results suggest that lead induces signifcant transcriptonal modifcatons in NPCs which can be correlated to damage and/or adaptatons of various systems, all resultng from intoxicaton by this heavy metal, thus influencing the result of ES-NP cell diferentaton.

2
  • BRUNO MATTOS SILVA WANDERLEY
  • flowDiv: uma nova ferramenta computacional para análise da diversidade citométrica

  • Orientador : ADRIAO DUARTE DORIA NETO
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • DANIEL SABINO AMORIM DE ARAUJO
  • Jorge Estefano de Santana Souza
  • ANDRE MEGALI AMADO
  • FERNANDO UNREIN
  • ROSEMBERG FERNANDES DE MENEZES
  • Data: 25/11/2019

  • Mostrar Resumo
  • A citometria de fluxo (CMF) é uma técnica analítica baseada na caracterização espectroscópica de partículas em suspensão. Essa técnica permite a descrição quantitativa e qualitativa de uma vasta gama de sistemas celulares em poucos segundos e a custos relativamente baixos - características que a tornam uma ferramenta bastante ubíqua em protocolos analíticos, tanto industriais quanto acadêmicos. Nesse tocante, as ciências ambientais vem lidando com obstáculos bastante notórios quanto à estruturação de protocolos de CFM: a natureza altamente heterogênea das amostras ambientais dificulta o ajuste de protocolos que equilibrem raciocínios matemáticos padronizados e os significados biológicos intrínsecos do sistema em estudo. Diversas abordagens vem sendo concebidas com vistas a corrigir essas incongruências e, dentre elas, as que exploram a ideia da diversidade citométrica - o estudo de dados de CFM com base em métodos de ecologia numérica - vem se mostrando bastante auspiciosas. Contudo, apesar da disponibilidade de soluções, muitos desafios técnicos ainda precisam ser superados. Neste trabalho, nós desenvolvemos e aplicamos uma nova ferramenta computacional, o flowDiv, especialmente projetada para a análise da diversidade citométrica de dados ambientais. Aqui, além de pormenorizamos a lógica por trás do método e o compararmos a estratégias computacionais similares, nós o aplicamos a problemas reais, revelando como alguns fatores ecológicos importantes, como o estado nutricional, afetam a diversidade citométrica de grupos microbianos de lagos naturais da Patagônia argentina e do nordeste brasileiro.


  • Mostrar Abstract
  • Flow cytometry (FCM) is an analytical technique based on the spectroscopic characterization of particulates. This technique allows the quantitative and qualitative description of a wide range of cellular systems within seconds and at relatively low costs. Such features make it a very ubiquitous tool in both industrial and academic analytical protocols. The environmental sciences have been dealing with quite obvious obstacles with regrads to the structuring of FCM protocols: the highly heterogeneous nature of environmental samples makes it difficult to adjust protocols that balance standard mathematical reasoning and the intrinsic biological meanings of the system under study. Several approaches have been devised to correct these incongruities, including those that explore the idea of cytometric diversity - the study of FCM data based on numerical ecology methods - has been quite auspicious. However, despite the availability of solutions, many technical challenges still need to be overcome. In this work, we develop and apply a new computational tool, flowDiv, specially designed for the analysis of cytometric diversity of environmental data. Here, in addition to detailing the logic behind the method and comparing it to similar computational strategies, we apply it to real problems, revealing how some important ecological factors, such as nutritional status, affect the cytometric diversity of microbial groups in natural lakes at Patagonian Argentina and northeast Brazil.

3
  • VANDECLECIO LIRA DA SILVA
  • Bioinformática aplicada para identificação de genes de câncer/testículo e sua associação com prognóstico em uma análise pan-câncer.

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • SANDRO JOSE DE SOUZA
  • SIDNEY EMANUEL BATISTA DOS SANTOS
  • TIRZAH BRAZ PETTA
  • ÂNDREA KELY CAMPOS RIBEIRO DOS SANTOS
  • Data: 04/12/2019

  • Mostrar Resumo
  • Os genes de câncer / testículo (CT) são excelentes candidatos para imunoterapias do câncer devido à sua expressão restrita em tecidos normais e à capacidade de provocar uma resposta imune quando expressa em células tumorais. Neste estudo, realizamos uma análise genome-wide para os CT genes com a identificação de 745 putativos genes de CT. Comparando com um outro conjunto de genes de CT conhecidos, mostramos que novos CT genes foram identificados. Realizamos a integração várias bases de dados de expressão gênica de tecidos normais e de tumor, para identificação dos genes de CT. A integração de dados clínicos e de infiltração de células CD8+ no tumor, nos levou a identificar dezenas de CT genes associados com bom ou mau prognóstico. Para os CT genes relacionados ao bom prognóstico, mostramos que existe uma relação direta entre a expressão gênica do CT e um sinal de infiltração de células CD8+ para alguns tipos de tumores, especialmente melanoma. Além do mais, nesta tese contextualizamos a bioinformática em um cenário de big data.


  • Mostrar Abstract
  • Cancer/testis (CT) genes are excellent candidates for cancer immunotherapies because of their restrict expression in normal tissues and the capacity to elicit an immune response when expressed in tumor cells. In this study, we provide a genome-wide screen for CT genes with the identification of 745 putative CT genes. Comparison with a set of known CT genes shows that 201 new CT genes were identified. Integration of gene expression and clinical data led us to identify dozens of CT genes associated with either good or poor prognosis. For the CT genes related to good prognosis, we show that there is a direct relationship between CT gene expression and a signal for CD8+ cells infiltration for some tumor types, especially melanoma. In addition, we contextualized bioinformatics in a big data scenario.

2018
Dissertações
1
  • ELIONAI MOURA CORDEIRO
  • Autogating em Dados de Citometria de Fluxo Utilizando Classificadores SVM para Identificação de Bacterioplâncton

  • Orientador : ADRIAO DUARTE DORIA NETO
  • MEMBROS DA BANCA :
  • ADRIAO DUARTE DORIA NETO
  • ARAKEN DE MEDEIROS SANTOS
  • DANIEL SABINO AMORIM DE ARAUJO
  • Jorge Estefano de Santana Souza
  • Data: 22/03/2018

  • Mostrar Resumo
  • Neste trabalho é apresentada a proposta de desenvolvimento de uma metodologia - juntamente com a apresentação dos resultados de sua aplicação - que utiliza uma técnica de aprendizagem de máquina, SVM, para análise automatizada de dados de citometria de fluxo em amostras de ambientes aquáticos, na identificação de bacterioplâncton. As amostras utilizadas na execução desta metodologia foram coletadas em 19 lagos de montanhas de elevada altitude que foram classificados manualmente no Laboratório de Limnologia do Departamento de Oceanografia e Limnologia da UFRN e dados de lagos da região nordeste do Brasil mais especificamente nos estados do Rio Grande do Norte e Paraíba. Previamente, iniciou-se com alguns testes de configuração da função kernel e uma análise quantitativa com base no número médio de acertos na classificação automatizada, na qual percebeu-se que a taxa de erro de predição variou entre 1,86% e 3,35%, em média. Foram realizadas duas etapas de desenvolvimento da metodologia proposta, onde foram criados modelos de predição e realizados uma série de testes com as bases de dados criadas a partir das informações disponíveis. Os resultados obtidos foram expostos a uma série de análises quantitativas e qualitativas, inclusive utilizando PCA para entender a importância de cada variável nos conjuntos de dados das mostras. Para uma avaliação qualitativa da metodologia proposta, foi aplicada uma análise estatística para comparar ambas estratégias de modelos de predição, que tem por base a classificação final apontada pelo algoritmo de SVM.

  • Mostrar Abstract
  • This master tesis shows the results of a methodology proposal for bacterioplankton identification using a machine learning approach named SVM. Samples used were taken from 19 high elevated lakes located at Pyrenees Mountains. Samples generated 74 databases after been analyzed by a specialist to serve as input to the algorithm. We observed the viability of this method with 3.35% of error in identification. Furthermore, there is no isolated direct correlation between robustness of the prediction models and high complexity of the input data but, indeed, the algorithm settings, function cost and variables choice have an important role in the performance as well.

2
  • LUCAS FELIPE DA SILVA
  • Integração de dados e desenvolvimento de métricas escalável para análise de fatores de transcrição.

  • Orientador : Jorge Estefano de Santana Souza
  • MEMBROS DA BANCA :
  • Jorge Estefano de Santana Souza
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • WILFREDO BLANCO FIGUEROLA
  • Data: 28/03/2018

  • Mostrar Resumo
  • Atualmente  há  diversas  ferramentas  propostas  para  análise  de  Fatores  de Transcrição  (TF),  tais  como  TFCheckpoint,  JASPAR,  SSTAR,  GTRD, Enrichr.  No entanto nenhuma dessas ferramentas oferece uma experiência completa, em que se possa avaliar a confiabilidade do TF, ou seja, se de fato uma proteína analisada é um TF e a sua associação com o gene alvo. Ao longo  do tempo foram construídas inúmeras  bases  de  dados,  todas  elas  com  riquíssimas informações,  porém  a complexidade  intrínseca  do  dado,  o  volume  de  informações,  problemas  de nomenclatura dos genes e diversos outros fatores fizeram com que tais ferramentas não oferecessem um espectro completo da análise. Por outro lado, para se trabalhar com  um  grande  volume  de  dados,  se  requer  conhecimentos  avançados  de computação. Entretanto, o grande público interessado em analisar esses dados são profissionais procedentes das áreas biológicas. Configurando-se como uma barreira, uma vez que a formação acadêmica desta área não oferece em seus componentes curriculares  disciplinas  de  programação.  Diante  desta  situação,  este  trabalho  tem como objetivo criar uma ferramenta web destinada exclusivamente para análise dos TFs. Contendo a integração de diferentes bases de dados e um conjunto de scripts para manipular estas informações, juntamente com osparâmetros cruciais definidos pelo  usuário  em  sua  análise,  foi  idealizado  e  desenvolvido  o  Transcription  Factor Analysis Tools (TFAT). O cerne desta ferramenta é aanálise para identificar os TFs chaves na modularização da transcrição gênica, ou seja, o enriquecimento dos TFs reguladores de uma lista de genes submetida pelo usuário, que através dos scripts que integram a mesma, consulta sua base de dados, identificam os TFs que estão associados aos genes da lista e calcula o p-valor de enriquecimento. Além disso, a ferramenta  verifica  a  confiabilidade  do  TF,  disponibiliza  as  predições  realizadas  e converte  os  itens  de  uma  lista  para  o  GeneID  ou  Symbol  do  Entrez  Gene.  Outro recurso presente neste trabalho é a utilização da confiabilidade do TF aplicado em toda a ferramenta. Esse grau de confiabilidade levaem consideração evidências de diferentes  bases  de  dados,  experimentos,  predições  e  outras  características  dos TFs. Possuindo um modo padrão e um modo com parâmetros definidos pelo próprio usuário, este recurso de confiabilidade permite toda uma personalização por meio de filtros nas consultas e controle de análise para o usuário final.


  • Mostrar Abstract
  • Currently there are several tools proposed for analysis of Transcription Factors (TF), such  as  TFCheckpoint,  JASPAR,  SSTAR,  GTRD,  Enrichr. However  none  of  these tools offers a complete experience in which the reliability of TF can be evaluated, that is,  if  in  fact  an  analyzed  protein  is  a  TF  and  its  association  with  the  target  gene. Numerous databases were built over time, all of them with very rich information, but the  intrinsic  complexity  of  the  data,  the  volume  of information,  problems  of  gene nomenclature  and  several  other  factors  meant  that  such  tools  did  not  offer  a complete spectrum of analysis . On the other hand,  to work with a large volume of data  requires  advanced  computer  skills.  However,  the  general  public  interested  in analyzing this data are professionals from the biological areas. Configuring itself as a barrier,  since  the  academic  formation  of  this  area  does  not  offer  in  its  curricular components  programming  disciplines.  Faced  with  this situation,  this  work  aims  to create  a  web  tool  exclusively  for  the  analysis  of TFs.  Containing  the  integration of different databases and a set of scripts to manipulate this information, along with the crucial parameters defined by the user in its analysis, Transcription Factor Analysis Tools (TFAT) was designed and developed. The core of this tool is the analysis to identify  the  key  TFs  in  the  modularization  of  gene  transcription,  that  is,  the enrichment of the regulatory TFs of a list of genessubmitted by the user, that through the  scripts  that  integrate  the  same,  consult  its  database,  identify  the  TFs  that  are associated  with  the  listed  genes  and  calculate  the  enrichment  p-value.  In  addition, the tool verifies TF reliability, makes available predictions, and converts items from a list to the Entrez Gene's GeneID or Symbol. Anotherfeature of this work is the use of TF reliability applied throughout the tool. This degree of reliability takes into account evidence from different databases, experiments, predictions and other characteristics of TFs. With a standard mode and a user-defined mode, this reliability feature allows for a full customization through filters in the queries and analysis control for the end user.

3
  • DANIEL GARCIA TEIXEIRA
  • Um circuito neural canônico com inibição feedback e feedforward.

  • Orientador : CESAR RENNO COSTA
  • MEMBROS DA BANCA :
  • CESAR RENNO COSTA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • RENAN CIPRIANO MOIOLI
  • WILFREDO BLANCO FIGUEROLA
  • Data: 29/03/2018

  • Mostrar Resumo
  • A  oscilação  gama  está  presente  em  diversas  áreas  do  cérebro,  como  no  hipocampo, desempenhando um importante mecanismo para o funcionamento da memória. Encontramos diversos  modelos  capazes  de  explicar  a  geração  das  oscilações  gama  e  explicam  suas  duas funcionalidades, a de agrupar de forma sincronizada as sinapses dos neurônios e a de selecionar quais neurônios devem disparar em cada ciclo deste sincronismo. Funcionalidades estas que imprimem um caráter computacional do processamento neural a este sistema, como a separação de padrões e a formação de assembleias neurais. Porém, a análise destes modelos existentes demonstra ser muito sensível às variações das atividades cerebrais, sendo fortemente afetados por variações ne suas camadas de entrada, de modo a aparentar não possuir uma boa robustez, gerando muita variação de sua frequência de saída, assim como na competitividade entre estes neurônios.  Entretanto,  ao  se  considerar  uma  importante  parte  do  circuito  biológico  não considerada em trabalhos anteriores, uma rede de inibição alimentada a frente nos possibilitou a criação de um novo modelo. Baseando-nos no modelo de neurônio de Izhikevich, geramos um novo modelo com uma maior robustez às variações na camada de entrada, bem como um custo computacional  reduzido  e  proximidade  do  modelo  biológico.  Em  posse  deste  novo modelo, será possível  criar  redes  neurais  com  maior  capacidade  de  neurônios,  com  custo computacional reduzido, além da possibilidade de análise do comportamento individual em cada neurônio do modelo.


  • Mostrar Abstract
  • Gamma oscillation is present in several areas of the brain, such as the hippocampus, playing an important mechanism for memory functioning. We found several models capable of explaining the  generation  of  the  gamma  oscillations  and  explain  their  two  functionalities,  that  of synchronously  grouping  the  synapses  of  the  neurons  and  of  selecting  which  neurons  must trigger  in  each  cycle  of  this  synchronism.  These  functionalities  impart  a  computational character  of  neural  processing  to  this  system,  such  as  the  separation  of  patterns  and  the formation of neural assemblies. However, the analysis of these existent models shows to be very sensitive to the variations of the cerebral activities, being strongly affected by variations and their layers of entrance, in order to appear not to have a good robustness, generating much variation of their frequency of exit, as in between these neurons. However, when considering an important part of the biological circuit not considered in previous studies, a fed-in inhibition network enabled us to create a new model. Based on the Izhikevich neuron model, we generated a new model with greater robustness to the variations in the input layer, as well as a reduced computational cost and proximity of the biological model. In the possession of this new model, it will be possible to create neural networks with greater capacity of neurons, with reduced computational cost, besides the possibility of analyzing the individual behavior in each neuron of the model.

4
  • THAÍS DE ALMEIDA RATIS RAMOS
  • Desenvolvimento e uso do CORAZON: ferramenta para normalização e agrupamento de dados de expressão gênica

  • Orientador : JOSÉ MIGUEL ORTEGA
  • MEMBROS DA BANCA :
  • GUSTAVO HENRIQUE ESTEVES
  • JOSÉ MIGUEL ORTEGA
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • THAIS GAUDENCIO DO REGO
  • VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO
  • Data: 11/05/2018

  • Mostrar Resumo
  • A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que são co-expressos em diferentes tecidos e o entendimento de grupos gênicos conforme suas funções e origem. Devido à enorme quantidade de dados em larga escala, gerados em projetos de transcriptômica, houve uma demanda intensa em usar técnicas fornecidas pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina os objetos que podem ser agrupados. Foi construída uma ferramenta amigável chamada CORAZON (Correlation Analyses Zipper Online), que implementa 3 algoritmos de aprendizagem de máquina não supervisionada (mean shift, k-means e hierárquico), 6 metodologias de normalização (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes, com base no enriquecimento de processos biológicos, e associar com fatores de transcrição. Para selecionar o melhor número de clusters para o k-means e o hierárquico, foram utilizados o critério de informação bayesiana (BIC), seguido da derivada da função discreta e a Silhueta. No hierárquico foi adotado o método do Ward. No total, 3 bases de dados (Uhlen, Encode e Fantom) foram analisadas e, em relação aos tecidos, foram observados grupos relacionados a glândulas, tecidos cardíacos, musculares, relacionados ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções: detecção de estímulos envolvidos na percepção sensorial, reprodução, sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados genômicos, possibilitando associações dos processos biológicos com RNAs não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.


  • Mostrar Abstract
  • The creation of gene expression encyclopedias possibilities the understanding of gene groups that are co-expressed in different tissues and comprehend gene clusters according to their functions and origin. Due to the huge amount of data generated in large-scale transcriptomics projects, an intense demand to use techniques provided by artificial intelligence became widely used in bioinformatics. Unsupervised learning is the machine learning task that analyzes the data provided and tries to determine if some objects can be grouped in some way, forming clusters. We developed an online tool called CORAZON (Correlation Analyses Zipper Online), which implements three unsupervised machine learning algorithms (mean shift, k-means and hierarchical) to cluster gene expression datasets, six normalization methodologies (Fragments Per Kilobase Million (FPKM), Transcripts Per Million (TPM), Counts per million (CPM), base-2 log, normalization by the sum of the instance's values and normalization by the highest attribute value for each instance), and a strategy to observe the attributes influence, all in a friendly environment. The algorithms performances were evaluated through five models commonly used to validate clustering methodologies, each one composed by fifty randomly generated datasets. The algorithms presented accuracies ranging between 92-100%. Next, we applied our tool to cluster tissues, obtain gene’s evolutionarily knowledgement and functional insights, based on the Gene Ontology enrichment, and connect with transcription factors. To select the best number of clusters for k-means and hierarchical algorithms we used Bayesian information criterion (BIC), followed by the derivative of the discrete function and Silhouette. In the hierarchical, we adopted the Ward’s method. In total, we analyzed three databases (Uhlen, Encode and Fantom) and in relation to tissues we can observe groups related to glands, cardiac tissues, muscular tissues, tissues related to the reproductive system and in all three groups are observed with a single tissue, such as testis, brain and bone-narrow. In relation to the genes clusters, we obtained several clusters that have specificities in their functions: detection of stimulus involved in sensory perception, reproduction, synaptic signaling, nervous system, immunological system, system development, and metabolics. We also observed that clusters with more than 80% of noncodings, more than 40% of their coding genes are recents appearing in mammalian class and the minority are from eukaryota class. Otherwise, clusters with more than 90% of coding genes, have more than 40% of them appeared in eukaryota and the minority from mammalian. These results illustrate the potential of the methods in CORAZON tool, which can help in the large quantities analysis of genomic data, possibiliting the potential associations analyzes between noncoding RNAs and the biological processes of clustered together coding genes, as well as the possibility of evolutionary history study. CORAZON is freely available at http://biodados.icb.ufmg.br/corazon or http://corazon.integrativebioinformatics.me.

5
  • DIEGO ARTHUR DE AZEVEDO MORAIS
  • Transcriptogramer: Pacote em R para Análise Transcricional

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • Jorge Estefano de Santana Souza
  • MAURO ANTONIO ALVES CASTRO
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • Data: 29/06/2018

  • Mostrar Resumo
  • O transcriptograma, um método utilizado na análise de transcriptomas, utiliza dados de interação proteína-proteína para construir uma lista ordenada de genes. Nesta lista, genes são posicionados de forma que a probabilidade de interação entre seus produtos decaia exponencialmente com o aumento da distância entre suas posições. A lista ordenada de genes é então utilizada para calcular o valor de expressão médio de genes funcionalmente associados numa janela com raio configurável, permitindo a expressão diferencial de grupos gênicos não pré-definidos em estudos caso-controle. O objetivo deste estudo é a implementação de um pacote em R que use transcriptogramas e integre funcionalidades de pacotes já conhecidos pela comunidade científica, capaz de realizar: expressão diferencial, enriquecimento funcional, e visualização de rede. O pacote transcriptogramer foi implementado e encontra-se disponível no Bioconductor, um repositório para softwares open source desenvolvidos na linguagem R para utilização em bioinformática. Numa comparação entre o transcriptogramer e um pipeline combinando funcionalidades dos pacotes limma e topGO, observou-se que o transcriptogramer identificou aproximadamente 10 vezes mais termos do Gene Ontology significativamente enriquecidos, dentre os quais foram encontrados a maioria dos termos identificados pelo pipeline convencional.


  • Mostrar Abstract
  • The transcriptogram, a method used on transcriptomes analysis, uses protein-protein interaction data to build an ordered gene list. On this list, genes are placed such that the probability of interaction between its products exponentially decreases with the increase of the distance between its positions. The ordered gene list is then used to calculate the average expression value of functionally associated genes in a window with settable radius, allowing the differential expression of non-predefined gene sets in case-control studies. This study aims to implement an R package that uses transcriptograms and integrates features from packages known by the scientific community, able to perform: differential expression, functional enrichment, and network visualization. The transcriptogramer package was implemented and is available at Bioconductor, a repository for open source softwares developed in the R language for use in bioinformatics. In a comparison between the transcriptogramer and a pipeline combining features from limma and topGO packages, was noticed that the transcriptogramer identified nearly 10 times more Gene Ontology terms significantly enriched, among which most of the terms identified by the conventional pipeline were found.

     

6
  • PAULO ROBERTO BRANCO LINS
  • DESCOBRINDO REDES DE ASSOCIAÇÃO ENVOLVENDO miRNAs E lincRNAs HUMANOS ATRAVÉS DE UMA ANÁLISE DE eQTL

  • Orientador : JUNIOR BARRERA
  • MEMBROS DA BANCA :
  • SANDRO JOSE DE SOUZA
  • WILFREDO BLANCO FIGUEROLA
  • GUILHERME SUAREZ KURTZ
  • Data: 19/07/2018

  • Mostrar Resumo
  • Variações no nível de expressão gênica estão entre as principais causas da diversidade fenotípica nos organismos, incluindo o desenvolvimento de patologias e a resposta aos fármacos em humanos. Os RNAsnão codificantes (ncRNAs) desempenham um papel importante no complexo mecanismo das redes regulatórias. Embora ainda não completamente compreendidos, dois representantes dos ncRNAsdespontam em pesquisas recentes como protagonistas no desenvolvimento de quadros clínicos. São eles os microRNAs (miRNAs) e os RNAsnão codificantes intergênicos longos (lincRNAs). Assim, o presente trabalho integrou dados públicos para catalogar o vasto panorama dos efeitos regulatórios dos miRNAse doslincRNAsno genoma humano. Através de uma análise de expression Quantitative Trait Loci (eQTL) foram identificadas variações que tivessem efeito putativo na expressão gênica. Redes de associação também foram criadas relacionando os resultados da análise eQTL comtratos de relevância clínica e/ou farmacológica. Por meio dessa, foram reveladas associações que podem continuar despertando o interesse de novos estudos envolvendo o tema. Distúrbios mentais e coronários, além do câncer, foram os tratos com maior evidência nos resultados do estudo.

     


  • Mostrar Abstract
  • Variations in the level of gene expression are among the main causes of phenotypic diversity in organisms, including the development of pathologies and response to drugs in humans. Non-coding RNAs (ncRNAs) play an important role in the complex mechanism of regulatory networks. Although not yet fully understood, two representatives of the ncRNAs emerge in recent researches as protagonists in the development of clinical conditions. They are the microRNAs (miRNAs) and the long intergenic non-coding RNAs (lincRNAs). Thus, the present work integrated public data to catalog the vast landscape of the regulatory effects of miRNAs and lincRNAs in the human genome. Through expression Quantitative Trait Loci (eQTL) analysis, variations that had a putative effect on gene expression were identified. Association networks were also created relating the eQTL analysis results to traits of clinical and/or pharmacological relevance. Through this, associations that may continue to arouse the interest of new studies involving the theme were revealed. Mental and coronary disorders, in addition to cancer, were the most evidenced traits in the study results.

7
  • KARLA CRISTINA TABOSA MACHADO
  • Desenvolvimento de abordagens computacionais para proteogenômica de procariotos

  • Orientador : GUSTAVO ANTONIO DE SOUZA
  • MEMBROS DA BANCA :
  • GUSTAVO ANTONIO DE SOUZA
  • JOAO PAULO MATOS SANTOS LIMA
  • LUCIANO FERNANDES HUERGO
  • Data: 27/07/2018

  • Mostrar Resumo
  • Com o desenvolvimento de sequenciadores de próximageração, uma revolução ocorreu na pesquisa genômica, e atualmente o genoma completo de milhares de linhagens de bactérias são conhecidos. A análise de proteínas por espectrometria de massas (MS) também passou por grandes desenvolvimentos tecnológicos na última década em termos de sensibilidade e capacidade de sequenciamento. A proteômica ainda não se encontra no mesmo nível que a genômica, mas para amostras contendo proteínas de um eucarioto simples (por exemplo, levedura) ou de uma bactéria, a proteômica já é capaz de detectar e quantificar proteínas de maneira completa e exaustiva. Mas há ainda há desafios no que tange a caracterização de regiões codificadoras de um genoma, bem como na validação de modelos genéticos. Dados da literatura mostram que anotações de um mesmo genoma realizado por abordagens independentes geram resultados conflitantes tanto no número de ORFs anotados, quanto aos seus tamanhos (i.e., diferentes escolhas de início de transcrição/tradução). A caracterização de sequências peptídicas em amostras de proteômica pode ser utilizada para validar regiões do genoma como codificantes, área de pesquisa conhecida como proteogenômica. Para tal ocorrer, é necessário a construção de bancos de sequências customizados, que permitem a identificação de novas regiões que anteriormente não eram preditas como codificadoras e se encontravam ausentes em bancos de dados proteicos. Neste trabalho, foi desenvolvida uma estratégia computacional que constrói bancos de sequências de proteínas customizados, a partir do processamento e análise de dados de sequências proteicas de várias linhagens de uma mesma espécie de bacteria. A abordagem identifica e compara proteínas homólogas e unicamente anotadas em todas as linhagens, e reporta as sequências de proteínas de forma não-redundante, ou seja, sequências extensivamente repetidas entre anotações são reportadas somente uma vez com o intuito de manter o tamanho do espaço de busca sob controle. Os bancos também reportam variações de sequência, sejam elas resultantes de variações genéticas ou divergências de anotação de genes, que normalmente são abdicadas em bancos de dados utilizados em análise proteômica. Além dos bancos, houve também uma preocupação de se criar um arquivo de registro, no qual cada observação referente a presença de homólogos, diferenças de sequências, tipo de modificação e presença em linhagens estivesse bem descrita. Com o objetivo de avaliar se os bancos gerados produziam sequências relevantes e não ocorria perda de informação se comparados às sequências originais utilizadas, dados de MS coletados de linhagens clínicas de Mycobacterium tuberculosis foram submetidas à identificação proteica. Comparou-se o banco de dados criado com essa abordagem com uma base de dados formada pela mera concatenação de todas as proteínas anotadas em M. tuberculosis. Além de reduzir o tempo computacional, o número de identificações obtidas em ambas as buscas foi praticamente idêntico. Finalmente, foram criados bancos para 10 espécies bacterianas com pelo menos 65 linhagens caracterizadas. Ao analisar tais bancos, percebeu-se que quanto maior a diversidade do pangenoma da espécie bacteriana, maior a quantidade de proteínas e peptídeos esperados. Os resultados também demonstram a possibilidade de se utilizar tal estratégia para criar bancos contendo sequências de múltiplas espécies, com o intuito de realizar análises metaproteômicas de dados de MS.


  • Mostrar Abstract
  • Next-generation sequencers development cause a revolution in genomic research, and nowadays the complete genomic information of thousands of bacterial strains is available. Similar technological breakthroughs also happened for protein analysis by mass spectrometry (MS) in the last decade regarding sensitivity and throughput. However, proteomics is yet to reach the same level of throughput of genomics, but for samples from simple eukaryotic organisms such as yeasts or bacteria, proteomics is able to detect and quantify their proteome close to completeness. There are still challenges regarding the characterization of coding regions in a genome, as well as in the validation of genomic models. Scientific reports show genomic annotation performed over the same genomic data using independent approaches resulted in divergent data regarding the number of predicted ORFs and also their length (i.e. different choices for transcription/translation initiation). Peptide sequence characterization in proteomics samples can be used to validate genomic regions as coding, research field known as proteogenomics. For such, the design of customized sequence databases which allows the identification of new genomic regions previously predicted to be no-coding and therefore absent in routinely employed databases. In this work, was developed a computational strategy that builds proteins sequence databases customized, through processing and analysis of protein sequence data from several strains of the same bacterial species. The approach identifies and compares homologous and uniquely annotated proteins in all strains, and reports those sequences in a non-redundant manner, which means, sequences extensively repeated among annotations are reported only once in order to keep the size search space under control. Databases also report sequence variations, whether they result from genetic variations or annotation divergences, which are usually abdicated in databases used in proteomic analysis. Besides the databases, there was also a concern to create a registration file, in which each observation regarding the presence of homologous, differences of sequences, modification type and presence in strains was well described. In order to evaluate if the generated databases produced relevant sequences and didn’t happen loss of information if compared to the used original sequences, MS data collected from clinical strains of Mycobacterium tuberculosis were submitted to protein identification. The database created with this approach was compared with a database formed by the mere concatenation of all the proteins annotated in M. tuberculosis. Besides reducing the computacional time, the number of identifications obtained in both searches was practically identical. Finally, databases for 10 bacterial species containing at least 65 strains characterized were created. When analyzing these databases, it was noticed that the greater is the diversity of the pangenome of the bacterial species, greater is the amount of proteins and peptides expected. The result also demonstrate the possibility to use such strategy to create databases containing sequence of multiple species, in the order to perform metaproteomic analyzes of MS data.

8
  • ARANTHYA HEVELLY DE LIMA COSTA
  • ANÁLISE ENERGÉTICA DA INTERAÇÃO DO ESTRADIOL E DIETILESTILBESTROL COM O ERα.


  • Orientador : UMBERTO LAINO FULCO
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • UMBERTO LAINO FULCO
  • VALDER NOGUEIRA FREIRE
  • Data: 10/08/2018

  • Mostrar Resumo
  • O câncer de mama é uma doença hormônio-dependente, que possui vários subtipos diferentes, padrões de expressão de genes e manifestações distintos (CHENG et al., 2002). Segundo o Instituto Nacional de Câncer (INCA), nas mulheres, apresenta a maior incidência e mortalidade, tanto em países em desenvolvimento quanto em países desenvolvidos. A maioria das neoplasias mamárias são ER + (receptor de estrogênio positivo), isto é, dependentes de 17β-estradiol e o número de ERα (receptor de estrogênio subtipo alfa) é superior ao número de ERβ (receptor de estrogênio subtipo beta), evidenciando a importância do subtipo alfa nesta doença. Este trabalho mensurou as energias de ligação individual dos resíduos que compõem o ERα com o 17β-estradiol e Dietilestilbestrol, utilizando a simulação computacional. Para tanto, foi empregado a Teoria do Funcional Densidade (DFT) e o Método de Fracionamento Molecular com Caps Conjugados (MFCC). Os resultados obtidos constataram que os resíduos com os valores energéticos mais significativos são: GLU353, LEU391, MET343, LEU346, MET388, ARG394, PHE404, HIS524, ASP411, LEU525, ARG352 e ARG548. Estes resultados ajudam a caracterizar a interação entre o 17β-estradiol e o Dietilestilbestrol com o ERα e, por sua vez, podem ser utilizados como base para estudos, planejamento estrutural do fármaco, modulação dos fármacos existentes, tal como para o design de novas drogas.


  • Mostrar Abstract
  • Breast cancer and a hormone-dependent disease, which has several different subtypes, patterns of gene expression and distinct manifestations (CHENG et al., 2002). According to the National Cancer Institute (INCA), in the year 2013, as deaths caused by the disease of 14,388, being 181 men and 14,207. The estimate for 2015 is 57,120 of new cases. Most breast cancers are ER + (estrogen receptor positive), ie, 17β-estradiol dependent. In this type of breast neoplasm, the number of ERα (estrogen receptor alpha subtype) is higher than  the number of ERβ (estrogen receptor beta subtype), evidencing the importance of the alpha subtype in this disease. The purpose of this work is to measure the individual binding  energies  of  ERα  residues  with  17β-estradiol  and  Diethylstilbestrol,  using  a computational simulation. For this purpose, it is employed as Doria of Functional Theory (DFT) and Molecular Fractionation Method with Conjugated Caps (MFCC). The results obtained with this work may help to characterize the interaction between the 17β-estradiol agonists and Diethylstilbestrol with ERα. The results obtained showed the residues with the most significant energy values are: GLU353, LEU391, MET343, LEU346, MET388, ARG394,  PHE404,  HIS524,  ASP411,  LEU525,  ARG352  and  ARG548. These  results help characterize, through the information obtained, an interaction between 17β-estradiol and Diethylstilbestrol with ERα and, in turn, can be used as a basis for studies, structural drug design, modulate existing drugs, such as for the design of new drugs.

9
  • PRISCILLA MACHADO DO NASCIMENTO
  • Implementação de Funcionalidades Para uma Plataforma de Análise de Variantes Genômicas

  • Orientador : Jorge Estefano de Santana Souza
  • MEMBROS DA BANCA :
  • Jorge Estefano de Santana Souza
  • BEATRIZ STRANSKY FERREIRA
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • Data: 21/09/2018

  • Mostrar Resumo
  • Os atuais avanços científicos, no âmbito da genômica, têm sido proporcionados devido à extração de informações significativas do DNA em virtude do uso das novas tecnologias disponibilizadas para realização da análise dos dados genéticos. A medicina de precisão faz uso desses avanços tecnológicos para melhor conhecer a constituição genética e as possíveis alterações que possam vir a produzir doenças com respostas diferenciadas aos tratamentos em um indivíduo. Considerando as mutações genéticas como um dos propulsores da evolução e tendo em vista a compreensão mais apurada dos seus efeitos, o presente trabalho objetiva contribuir nas futuras análises de dados de mutações, visando auxiliar futuramente na identificação de novos hotspot e SNPs. Para que essa análise possa ser realizada foi desenvolvido um produto de software responsável por oferecer assistência aos dados coletados, com o intuito de analisá-los de maneira eficiente e visualizá-los de maneira mais precisa. Este trabalho propõe a implementação de novas funcionalidades que possam agregar valor a este produto, contribuindo diretamente na automatização e aperfeiçoamento dos processos realizados pelas ferramentas de análise de variantes disponíveis no mercado. Visando uma aplicabilidade prática do que foi desenvolvido, foi proposta uma análise dos dados públicos utilizados para anotar os variantes do sistema. Para isso, será realizado um estudo referente aos dados dos preditores existentes, para que possa ser verificada a acurácia dos mesmos em relação aos dados clínicos registrados no banco ClinVar (https://www.ncbi.nlm.nih.gov/clinvar/). Com o intuito de extrair dados para demonstrar a relevância da análise dos falsos positivos/negativos apresentados por meio dos preditores existentes, foi proposto um protótipo de processo que visa melhorar a acurácia dos SNPs identificados pelo sistema.


  • Mostrar Abstract
  • Current scientific advances in genomics have been provided due to extraction of significant information from the DNA using new technologies available for the analysis of genetic data. Precision medicine is based on these technological advances to better understand the genetic constitution and possible changes that may lead to diseases with patient-specific differential responses to treatments. Considering the process of genetic mutation as one of the drivers of evolution and with the goal to better understand its effects, the present work aims to contribute to future analysis of mutation data, helping in thefuture identification of new hotspots and SNPs. For this analysis, a software product was developed responsible for offering assistance to the collected data, in order to analyze them in an efficient way and to visualize them in a more precise way. This work proposes the implementation of new functionalities that can add more value to the aforementioned software, contributing directly to the automation and improvement of the processes performed by the variant analysis tools available in the market. Aiming at an applicability of what was developed, an analysis ofthe public data used to annotate the variants of the system was proposed. For this, a study will be carried out regarding the data of the existing predictors, so that the accuracy of the data can beverified in relation to the clinical data recorded in ClinVar. In order to extract data to demonstrate the relevance of the false positive/negative analysis presented through the existing predictors,a prototype process was proposed that aims to improve the accuracy of the SNPs identified by the system

10
  • MARCEL DA CÂMARA RIBEIRO DANTAS
  • ENGENHARIA REVERSA DA REDE REGULATÓRIA DO SARCOMA DE EWING E INFERÊNCIA DE REGULADORES MESTRES.

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • CESAR RENNO COSTA
  • MATHEUS AUGUSTO DE BITTENCOURT PASQUALI
  • Data: 21/09/2018

  • Mostrar Resumo
  • O Sarcoma de Ewing (SE) é um tumor ósseo maligno raro com alta propensão a metástase ocorrendo mais frequentemente em adolescentes e jovens adultos. Não há uma célula de origem identificada para este câncer e o seu hallmark é a ocorrência de uma translocação cromossomal entre os cromossomos 11 e 22 que resulta em um fator de transcrição aberrante através da fuão de genes da família FET e ETS, comumente EWSR1 e FLI1. A translocação é associada com alteração da cromatina, o que leva a distúrbio significativo no transcriptoma da célula. Os mecanismos regulatórios por trás das alterações transcricionais observadas do SE permanecem pouco compreendidas. Aqui, nós inferimos a rede regulatória do SE e identificamos 7 fatores de transcrição como potenciais mestres reguladores. De acordo com nossos resultados, estes 7 mestres reguladores estão organizados em dois clusters: um que consiste do PAX7 e do RUNX3 e um outro composto pelo ARNT2, CREB3L1, GLI3, MEF2C e PBX3. Os mestres reguladores dentro de cada cluster são agonistas entre eles, e ambos os clusters agem antagonisticamente com relação ao outro. Baseado em dados de transcrição, nós classificamos pacientes de SE em duas coortes de acordo com a atividade regulatória de cada um dos 7 regulons. Alta atividade regulatória do PAX7 e do RUNX3 é associada a um melhor prognóstico e alta atividade regulatória do ARNT2, CREB3L1, GLI3 e PBX3 está associada a um pior prognóstico. Este trabalho contribui para uma melhor compreensão do reguloma do SE, indicando potenciais mestres reguladores que podem levar a um potencial preditor de prognóstico e fatores chaves para tumorigenesis.


  • Mostrar Abstract
  • Ewing Sarcoma (ES) is a rare malignant bone tumor with high propensity to metastasize occurring most frequently in adolescents and young adults. There is no ES cell of origin identified só far and the hallmark of this cancer is the occurrence of a chromosomal translocation between the chromosomes 11 and 22 that results in an aberrant transcription factor through the fusion of a gene from FET family and ETS family, commonly EWSR1 and FLI1. The translocation is associated with chromatin alteration, leading to a significant disturbance in the cell transcriptome. The regulatory mechanisms behind the observed ES transcriptional alterations remain poorly understood. Here, we inferred the transcriptional regulatory network of Ewing Sarcoma and identified 7 transcription factors as potential master regulators. According to our results, these 7 master regulators are organized in two clusters: one composed by PAX7 and RUNX3 and other composed by ARNT2, CREB3L1, GLI3, MEF2C, and PBX3. The master regulators inside each cluster are agonists among each other andboth clusters show antagonism between them. Based on transcriptional data, we classified ES patients of two cohorts according to the activity of each of the seven regulons. High regulatory activity of PAX7 and RUNX3 is associated with better overall survival and high regulatory activity of ARNT2, CREB3L1, GLI3, and PBX3 is associated with worse overall survival. This work contributes to a better understanding of the regulome of Ewing Sarcoma, indicating putative master regulators that can lead to potential prognosis prediction and key factors of tumorigenesis.

11
  • STHEPHANIE NASSIF PINHEIRO
  • CARACTERIZAÇÃO DO GENE 18S rRNA EM PROTOZOÁRIOS DO TAXA APICOMPLEXA: UMA ABORDAGEM APLICADA AO DESENHO DE MARCADORES MOLECULARES

     

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • KATIA CASTANHO SCORTECCI
  • CLAUDIO BRUNO SILVA DE OLIVEIRA
  • Data: 26/09/2018

  • Mostrar Resumo
  • O filo Apicomplexa compreende protozoários de vários filo ao nível de gênero causadores de parasitoses mundialmente distribuídas como malária, toxoplasmose ou distúrbios intestinais oportunistas. Ainda nos dias de hoje, os principais protozoários de importância médica geralmente são identificados por microscopia óptica, o que dificulta a classificação precisa e o diagnóstico dos pacientes, principalmente nos casos em que a parasitemia é baixa. Nesse contexto o presente trabalho teve como objetivo desenvolver um método molecular alternativo, que possibilite a identificação de ampla variedade de protozoários do filo Apicomplexa. Dessa forma, foi desenvolvido um sistema de primers para utilização em uma reação de PCR (Polymerase Chain Reaction) em duas etapas (semi-nested PCR). O alvo investigado para o desenho de primers foi a região 18S rDNA, por ser um alvo amplamente utilizado para screening e identificação de espécies em estudos de biodiversidade. A partir da análise e caracterização estrutural do ácido nucleico ribossomal in silico, foram desenhados conjuntos de primers que se anelam em regiões conservadas e flanqueiam regiões variáveis no gene. A eficiência de cada conjunto de primers foi avaliada por PCR in silico. Foi selecionado um conjunto de primers que, quando usado de forma aninhada, pode gerar ~166 amplicons com sequências distintas, que podem ser usados para discriminar gêneros e espécies de Apicomplexa por diferença no tamanho em gel de agarose e por sequenciamento. O método proposto foi validado in vitro e sua eficiência na identificação de algumas espécies de protozoários de interesse médico foi confirmada. Após etapas adicionais de validação, esse método poderá ser utilizado para triagem inicial em casos de suspeita de parasitoses e também para determinação de diferentes espécies de parasitas.


  • Mostrar Abstract
  • The Apicomplexa phylum comprises protozoa of various genera causing parasitic diseases worldwide such as malaria, toxoplasmosis or opportunistic intestinal disorders. Nowadays, protozoa of medical importance are generally identified by light microscopy, which makes accurate classification difficult, makes diagnosis and prognosis difficult, particularly in cases where infection is low. In this context, the present work aimed to develop an alternative molecular method that allows the identification of a wide range of protozoa of the Apicomplexa taxa. Thus, a primer system was developed for use in a semi-nested PCR (Polymerase Chain Reaction) reaction. The investigated target for primer design was the 18S rDNA region, as it is a widely used template for screening and species identification in biodiversity studies. From the structural analysis and the ribosomal nucleic acid sequence, sets of primers that interact in conserved regions and flank variable regions of the gene were designed. The efficiency of each set of primers was evaluated by in silico PCR and the generated amplicons were evaluated. A set of primers was selected which, when used in a nested fashion, can generate ~ 166 amplicons with distinct sequences, which can be used to discriminate genera and species of the Apicomplexa taxa by difference in the size of amplicons generated in agarose gel and species by sequencing (Sanger method or Next Gen Sequencing). The proposed method was validated in vitro and its efficiency for identification of some protozoan species of medical interest was confirmed. After further validation steps this method can be used for initial screening in cases of suspected parasitosis and also for parasite species determination

12
  • LAISE CAVALCANTI FLORENTINO
  • Usando RINs para entender as mutações em câncer: mutações deletérias são mais comumente associadas a aminoácidos altamente conectados.

  • Orientador : JOAO PAULO MATOS SANTOS LIMA
  • MEMBROS DA BANCA :
  • JOAO PAULO MATOS SANTOS LIMA
  • Jorge Estefano de Santana Souza
  • VALDIR BALBINO
  • Data: 31/10/2018

  • Mostrar Resumo
  • Nas últimas décadas, avanços em abordagens genômicas completas levaram à identificação de um grande número de mutações relacionadas ao câncer. Estimativas de alto desempenho dos impactos de mutações de câncer na estrutura da proteína não são uma conquista fácil, e a maioria dos estudos está limitada a análises estruturais completas, uma a uma. Além disso, ainda existem muitos desafios no caminho para a previsão precisa e automatizada de mutações patogênicas. Portanto, entender o impacto estrutural de uma mudança específica de aminoácidos é de grande importância para a pesquisa médica do câncer. No entanto, a maioria dos estudos tem enfatizado seqüências e modificações estruturais baseadas em características químicas de aminoácidos e não em características de dobra, nas quais a conservação de interações não-covalentes desempenha um papel significativo. A partir de então, no presente estudo, utilizamos redes de interação de resíduos (RINs) para análises em grande escala de mutações missense do câncer, a fim de inferir seus efeitos na conservação de interações não-covalentes. Nossa hipótese é que mudanças em aminoácidos altamente conectados são mais propensos a causar mutações deletérias. Para avaliar isso, recuperamos mutações missense de câncer dos bancos de dados COSMIC (cancer.sanger.ac.uk/cosmic) e TCGA (cancergenome.nih.gov) e as mapeamos para suas respectivas estruturas recuperadas do Protein Data Bank (rcsb.org). Em seguida, os RINs foram construídos a partir dos arquivos PDB obtidos, e os parâmetros de rede, como o grau do nó, o tipo de arestas, o coeficiente de agrupamento, a centralidade, foram avaliados e plotados usando scripts em R. Posteriormente, comparamos esses resultados com os polimorfismos de nucleotídeo único missense recuperados do banco dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) e com mutações de câncer patogênicas e não patogênicas do banco de dados ClinVar (www.ncbi.nlm.nih.gov/clinvar/). Nossos resultados demonstram que a distribuição de mutações por grau (conectividade do nó) varia significativamente em comparação a simulações aleatórias de Monte Carlo e também à distribuição de um conjunto de polimorfismos humanos de nucleotídeo único (SNPs), tendendo a permanecer em nós com menor conectividade. Além disso, a proporção de mutações deletérias foi significativamente aumentada em nós com alto grau de conectividade quando dois critérios diferentes foram utilizados para sua classificação: proporções de preditores de software (Ndamage) e classificação clínica obtida do ClinVar. Levando em conta esses resultados, podemos concluir que as mudanças nos aminoácidos altamente conectados são, de fato, mais propensas a gerar mutações deletérias, devido a sua maior proporção de ocorrência nesses nós. Nossos resultados também indicam que a conservação de interações não-covalentes é um parâmetro importante a ser considerado na avaliação de efeitos de mutações e a análise de RINs pode ser usada como um parâmetro adicional para auxiliar na previsão de mutações deletérias no câncer. 


  • Mostrar Abstract
  • In the last decades, advances in whole genomic approaches lead to the identification of a vast number of cancer-related mutations. High-throughput estimations of the impacts of cancer mutations in the protein structure are not an easy accomplishment, and most studies are limited to one-by-one whole structural analyzes. Moreover, there are still many challenges on the way to the precise and automated prediction of pathogenic mutations. Therefore, understanding the structural impact of a particular amino acid change is of great importance for cancer medical research. However, most studies have been emphasizing sequences and structural modifications based on chemical characteristics of amino acids and not fold features, in which the conservation of non-covalent interactions play a significant role. Henceforth, in the present study, we used residue interaction networks (RINs) for large-scale analysis of cancer missense mutations in order to infer their effects on the conservation of non-covalent interactions. We hypothesize that changes in highly connected amino acids are more likely to cause deleterious mutations. To evaluate this, we retrieved cancer missense mutations from COSMIC (cancer.sanger.ac.uk/cosmic) and TCGA (cancergenome.nih.gov) databases and mapped them to their respective structures retrieved from Protein Data Bank (rcsb.org). Then, RINs were constructed from the obtained pdb files, and network parameters such as the node's degree, edges' type, clustering coefficient, betweenness weighted were assessed and plotted using R scripts. Later, we compared these results against reported missense single nucleotide polymorphisms retrieved from dbSNP (www.ncbi.nlm.nih.gov/projects/SNP/) and to pathogenic and non-pathogenic cancer mutations from ClinVar (www.ncbi.nlm.nih.gov/clinvar/) databases. Our results demonstrate that the distribution of mutations per degree (node connectivity) varies significantly compared to random Monte Carlo simulations and also to the distribution of a set of human single nucleotide polymorphisms (SNPs), tending to remain at nodes with lower connectivity. Besides, the proportion of deleterious mutations was significantly increased in nodes with a high degree of connectivity when two different criteria were used for their classification: proportions of software predictors (Ndamage) and clinical classification obtained from ClinVar. Taking into account these results, we can conclude that the changes in the highly connected amino acids are indeed more likely to generate deleterious mutations, due their higher proportion of occurrence in these nodes. Our results also indicate that the conservation of non-covalent interactions is an important parameter to consider in assessing mutations effects and RINs analyses can be used as an additional parameter to aid in the prediction of deleterious mutations in cancer.

13
  • CAYRO DE MACÊDO MENDES
  • CARACTERIZAÇÃO IN SILICO DE ORFs VARIÁVEIS E DE REGIÕES REGULATÓRIAS NO GENOMA DO VÍRUS DA SÍNDROME DA MANCHA BRANCA (WSSV)

  • Orientador : DANIEL CARLOS FERREIRA LANZA
  • MEMBROS DA BANCA :
  • DANIEL CARLOS FERREIRA LANZA
  • EUZEBIO GUIMARAES BARBOSA
  • SÁVIO TORRES DE FARIAS
  • Data: 19/11/2018

  • Mostrar Resumo
  • A caracterização in silico vem sendo empregada como uma alternativa mais acessível para predição de sequências proteicas que não podem ser reproduzidas in vitro ou ter suas estruturas cristalizadas, bem como pode fornecer dados que complementam abordagens experimentais. O vírus causador da síndrome da mancha branca (WSSV) é um dos maiores problemas enfrentados pela carcinicultura mundial, causando consideráveis danos econômicos. Apesar de os efeitos do vírus nos cultivos serem bem conhecidos, até o momento existem poucas informações sobre os mecanismos de infecção e replicação viral, principalmente devido ao fato de grande parte de suas sequências codificantes não apresentar homologia com sequências conhecidas. Além disso o genoma do WSSV apresenta algumas regiões codificantes que variam entre os diferentes isolados, que até o momento não foram caracterizadas funcionalmente, denominadas ORF75, ORF94, ORF125, ORF23/24, ORF14/15. Esse trabalho teve como objetivo a caracterização in silico das proteínas putativas codificadas pelas regiões variáveis do genoma do WSSV, no intuito de se identificar possíveis funções. Foram empregadas análises filogenéticas a partir do alinhamento de dez sequências genômicas do WSSV obtidas do GenBank. As regiões variáveis das ORF75, ORF94 e ORF125 foram alinhadas e as unidades de repetição e SNPs anotados através da plataforma Geneious. As sequências de aminoácidos foram submetidas a buscas por homólogos remotos, motivos, domínios conservados, reconhecimento de fold e predição estruturas secundárias e terciárias. Foi possível modelar estruturas terciárias de domínios proteicos e inferir possíveis funções que incluem um motivo de reconhecimento de RNA associado a processos pós-transcricionais entre as posições 70-150 da ORF23, um motivo Ankyrim repeat (ANK) atuando em conjunto com o domínio RING-H2 na modulação da proteólise dependente de Ubiquitina na ORF125, helicases de reparo na ORF23/24, uma proteína associada a polimerização de filamentos de actina (ORF14/15) e uma proteína semelhante a subunidade HA2 da hemaglutinina do Influenzavirus (ORF23/24). Também foi possível detectar assinaturas associadas a sinais de localização nuclear dentro das unidades de repetição das sequências de aminoácidos codificadas por ORF75 e ORF94 que podem estar envolvidos na emissão de sinais para proteínas carreadoras do núcleo da célula hospedeira. Foi realizada a análise de algumas regiões regulatórias 100 e 200nt upstream das regiões codificante e foi possível detectar alguns motivos, incluindo um sítio de ligação de “Zinc-Finger”, sugerindo a interação entre possíveis fatores de transcrição. Por meio desses resultados foi proposto um modelo de atuação para cada uma das proteínas estudadas.


  • Mostrar Abstract
  • In silico characterization has been employed as a more accessible alternative for prediction of protein sequences that cannot be reproduced in vitro or have their structures crystallized, as well as can provide data that complement experimental approaches. The virus that causes white spot syndrome (WSSV) is one of the biggest problems facing global shrimp farming, causing considerable economic damage. Although the effects of the virus on the cultures are well known, to date there is little information on the mechanisms of viral infection and replication, mainly because much of their coding sequences do not show homology with known sequences. In addition, the WSSV genome has some coding regions that vary between the different isolates, which have not been functionally characterized to date, called ORF75, ORF94, ORF125, ORF23/24, ORF14/15. This work aimed at the in silico characterization of the putative proteins encoded by the variable regions of the WSSV genome, in order to identify possible functions. Phylogenetic analyzes were performed from the alignment of ten WSSV genomic sequences obtained from GenBank. The variable regions of the ORF75, ORF94 and ORF125 were aligned and the repeat units and SNPs annotated through Geneious platform. The amino acid sequences were subjected to remote homologous searches, motifs, conserved domains, fold recognition and prediction of secondary and tertiary structures. It was possible to model tertiary structures of protein domains and to infer possible functions that include an RNA recognition motif associated with post-transcriptional processes between positions 70-150 of wsv477 (ORF23), an Ankyrim repeat (ANK) motif acting in conjunction with RING-H2 domain on modulation of ubiquitin-dependent proteolysis in wsv249 (ORF125), repair helicases (wsv479, wsv497), actin filament polymerization associated protein (wsv463a), and a HA2 subunit of influenza virus hemagglutinin (wsv492). It has also been possible to detect signatures associated with nuclear localization signals within the repeating units of the amino acid sequences encoded by ORF75 and ORF94 which may be involved in the emission of signals to host cell nucleating proteins. We performed the analysis of some regulatory regions 100 and 200nt upstream of the coding regions and it was possible to detect some motifs, including a Zinc-Finger binding site, suggesting the interaction between possible transcription factors. By means of these results an action model was proposed for each one of the proteins studied.

14
  • THAYNÃ NHAARA OLIVEIRA DAMASCENO
  • PAREADOR DE TERMOS PARA PESQUISA CLÍNICA: INTEGRATE PAIRED TOOL - IPT

  • Orientador : EUZEBIO GUIMARAES BARBOSA
  • MEMBROS DA BANCA :
  • EUZEBIO GUIMARAES BARBOSA
  • GILDERLANIO SANTANA DE ARAÚJO
  • RAND RANDALL MARTINS
  • TETSU SAKAMOTO
  • Data: 18/12/2018

  • Mostrar Resumo
  • Big Data é um termo utilizado para caracterizar o crescente volume de dados existentes sobre os mais diversos temas, sejam eles de cunho biomédico ou não. Devido ao enorme volume de dados biológicos e biomédicos gerados diariamente, uma das principais barreiras encontradas será a análise desses dados. É crescente o desenvolvimento e uso de ferramentas computacionais que permitam a análise desses dados através de técnicas como o Text Mining. O Text Mining, vertente do Data Mining, pode ser definido como um método que permite a extração de informações relevantes contidas em textos. Buscando permitir uma análise diferenciada dos dados, sejam esses dados clínicos ou não, foi desenvolvido um algoritmo simples, que permite a análise desses dados sem a necessidade de correlação com bancos de dados existentes, nem a criação de novos bancos de dados. A partir desse algoritmo, uma ferramenta WEB foi desenvolvida, pra que qualquer pessoa consiga ter acesso ao algoritmo (mesmo sem o conhecimento de técnicas computacionais) e promover a análise dos seus dados. O algoritmo da ferramenta Integrate Paired Tool (IPT) foi escrito em linguagem de programação R e utiliza técnicas de Data Mining e Text Mining para análise de dados clínicos, não restringindo suas análises apenas à estes dados específicos. O IPT promove o pareamento de termos analisando a frequência existente entre pares de dados, a partir de um arquivo .csv fornecido pelo usuário. Além disso, a ferramenta WEB foi desenvolvida a partir das linguagens JavaScript, HTML5, CSS e PHP. O algoritmo lê o arquivo .csv, e o percorre por inteiro, fazendo o pareamento de seus termos, dois a dois, independente se as colunas possuem tamanhos diferentes, ou se estão incompletas, até que todas as colunas sejam pareadas. Após todos os agrupamentos, é atribuído um valor para cada par agrupado, somando os pares de iguais frequências e gerando um outro arquivo .csv contendo as interações existentes e suas respectivas frequências. Após as relações e suas frequências de aparecimento serem formadas, um grafo de interações (em R) é mostrado na tela da ferramenta WEB para que o usuário possa então realizar suas análises, além do arquivo .csv com todas as interações e frequências. A obtenção desse grafo e dessa tabela pode conter informações variáveis, a depender da porcentagem que o usuário escolha na ferramenta IPT. Esse arquivo .csv com os dados das interações e frequências pode ser utilizado pelo usuário em outras ferramentas de visualização de redes, como o Gephi, por exemplo. Para fins de testagem da ferramenta, dados de uma UTI neonatal. O IPT demonstrou funcionar bem e atingiu os objetivos da pesquisa, e como metas futuras, teremos a hospedagem da ferramenta na página do Programa de Pós-Graduação em Bioiformática da UFRN, a análise de outros dados e uma possível integração do pré-processamento dos dados dentro do próprio IPT.


  • Mostrar Abstract
  • Big Data is a term used to characterize the growing volume of existing data on different topics, whether they are biomedical or not. The enormous volume of biological and biomedical data generated daily, one of the main barriers will be an analysis of these data. The development and use of computational tools that allow the analysis of data through techniques such as Text Mining. Text Mining, a Data Mining strand, can be defined as a method that allows the extraction of relevant information contained in text. In order to allow a differentiated analysis of the data, whether these clinical data or not, a simple algorithm was developed, which allows the analysis of this data without the need of correlation with existing databases, nor the creation of new databases. From this algorithm, a WEB tool was developed so that anyone can access the algorithm (even without the knowledge of computational techniques) and promote the analysis of their data. The Integrate Paired Tool (IPT) algorithm was written in R programming language and uses Data Mining and Text Mining techniques for analyzing clinical data, not restricting its analyzes only to these specific data. IPT promotes pairing of terms by analyzing the existing frequency between data pairs, from a user-supplied .csv file. In addition, the WEB tool was developed from the languages JavaScript, HTML5, CSS and PHP. The algorithm reads the .csv file and pass through it by pairing its terms two by two, regardless of whether the columns are different sizes or incomplete until all columns are paired. After all the groupings, a value is assigned to each grouped pair, adding all pairs with the same frequencies and generating another .csv file containing the existing interactions and their respective frequencies. After the relations and their appearance frequencies are formed, a graph of interactions (in R) is shown on the WEB tool screen, so the user can do their analyzes, in addition to the .csv file with all interactions and frequencies. This graph and this table can contain variable information, depending on the percentage that the user chooses in the IPT tool. This .csv file with interaction and frequency data can be used by the user in other network visualization tools, such as Gephi, for example. For the purposes of tool testing, a data from a neonatal was used. The IPT proved to work well and reached the objectives of the research, and as future goals, we will have the hosting of the tool in the page of the Program of Postgraduate in Bioformtics of UFRN, the analysis of other data and a possible integration of the pre-processing of the data within the IPT itself.

Teses
1
  • ANDRÉ LUÍS FONSECA FAUSTINO
  • Bioinformática aplicada à oncologia: Estudos na prospecção de alvos terapêuticos, antígenos tumorais e na dinâmica de resistência a drogas.

  • Orientador : SANDRO JOSE DE SOUZA
  • MEMBROS DA BANCA :
  • SANDRO JOSE DE SOUZA
  • GUSTAVO ANTONIO DE SOUZA
  • LUCYMARA FASSARELLA AGNEZ LIMA
  • DIRCE MARIA CARRARO
  • VALDIR BALBINO
  • Data: 01/11/2018

  • Mostrar Resumo
  • A pesquisa contra o câncer abrange diversas facetas, incluindo desde a compreensão de que processos biológicos são ganhos e perdidos na doença, até como essas características podem afetar a taxa de sobrevida do paciente. Nesse contexto, a bioinformática tem sido aplicada para a prospecção de possíveis candidatos para terapia e diagnóstico. A presente tese contempla o conjunto de três capítulos voltados: i) a prospecção de alvos terapêuticos; ii) identificação de possíveis antígenos tumorais; iii) compreensão de mecanismos associados à resistência droga. No primeiro capítulo, é apresentado um catálogo de proteínas de superfície celular denominado como surfaceoma. O catálogo contempla 3.758 proteínas, as quais foram categorizadas quanto as alterações genéticas e a sua influência na redução sobrevivência em diversos tumores. Além disso, foi proposta uma assinatura de três (WNT5A, CNGA2 e IGSF9B) associados a mau prognóstico em câncer de mama. No seguinte capítulo, são apresentados dados derivados de um segundo artigo, no qual são explorados aspectos adicionais relacionados a antígenos tumorais, com ênfase de CTAs – cancer-testis antigens. Como resultado, foi desenvolvido um método para priorização de possíveis antígenos tumorais em escala genômica. Em seguida, foi discutido a eficácia de combinações entre CTAs no que consta o desenvolvimento de vacinas anticâncer. Finalmente, foram elencadas combinações significativas entre HEATR9, INSL3, GTSF1L e HSF5, que abrangem em média 35% dos pacientes. Por último, o terceiro capitulo discorre sobre um trabalho em desenvolvimento, o qual envolve uma classe de proteínas com função de regulação pós-transcricionais e a sua importância na resposta a drogas anticâncer. Em particular, os achados desse capítulo sugerem uma interessante discussão sobre a regulação mediada por RBPs (RNA-Binding proteins) e a resposta a drogas em pacientes com genótipo TP53 Wildtype e TP53 Mutated. Em conclusão, a presente tese contempla três aspectos fundamentais da pesquisa contra o câncer, sobretudo no desenvolvimento de novas estratégias de tratamento e diagnóstico.


  • Mostrar Abstract
  • Cancer research is a field with several branches, which covers the understanding of how the tumor heterogeneity can be used as a treatment opportunity or how those alterations led poor prognosis and drug resistance. In this context, the bioinformatics rises as a tool to investigate which features could be used as a therapeutical strategy. In this thesis, we presented three chapters that address distinct aspects in the cancer research, such as i) the prospection of therapeutic targets, ii) identification of possible tumor antigens; iii) understanding mechanisms associated with drug resistance. In the first chapter, shown a catalog of cell surface proteins, herein called the surfaceome. The cell surface proteins represent attractive targets for therapy due to the essential role in signaling pathways and often dysregulation in cancer. The surfaceome catalog includes 3758 proteins, which were categorized based on genetic alterations types and the influence in short-term survival in several tumors. Furthermore, we investigate gene signatures and their association with survival rate. As result, three genes (WNT5A, CNGA2, and IGSF9B) were proposed as a poor prognosis in breast cancer patients. The second chapter, it is focused on data derived from a previous article, published in 2017. Briefly, the original publication was associated with the identification of cancer-testis antigens (CTAs) and relation with prognosis in several tumor types. On the other hand, in this chapter, we present new putative tumor antigens from a genome-wide analysis. Next, we discussed strategies to prioritize cases and remove spurious results. In addition, we purpose CTAs combinations as a strategy to increase the effectiveness in anticancer vaccines development. As result, were found significant combinations among HEATR9, INSL3, GTSF1L, and HSF5, which cover in average 35% of patients. Finally, the third chapter discusses a work in progress, which involves proteins associated with post-transcriptional regulation and how those proteins affect anticancer drug response. In particular, our findings suggest an interesting discussion about RBPs (RNA-Binding proteins) expression and response to anticancer drugs. Also, were compared RBPs findings with other transcriptional-related genes, such as transcriptional factors and lincRNAs. In conclusion, this thesis considers three fundamental aspects of cancer research, especially in the development of our treatment and diagnosis strategies. Furthermore, two of these chapters are supported by international publications.

2017
Dissertações
1
  • IARA DANTAS DE SOUZA
  • MAPA METABÓLICO DA INTOXICAÇÃO POR CHUMBO

  • Orientador : RODRIGO JULIANI SIQUEIRA DALMOLIN
  • MEMBROS DA BANCA :
  • JOAO PAULO MATOS SANTOS LIMA
  • MAURO ANTONIO ALVES CASTRO
  • RODRIGO JULIANI SIQUEIRA DALMOLIN
  • VIVIANE SOUZA DO AMARAL
  • Data: 14/12/2017

  • Mostrar Resumo
  • Desde a antiguidade, o chumbo vem sendo utilizado pela humanidade em virtude das suas propriedades físico-químicas, como maleabilidade, ductilidade, resistência à corrosão, baixo ponto de fusão e baixa condutividade elétrica. Entretanto, além de sua importância econômica, o chumbo possui uma importância quanto à saúde humana, uma vez que causa intoxicação. Muitos efeitos da intoxicação pelo chumbo já foram relatados na literatura, afetando o organismo como um todo e produzindo sintomas no sistema cardiovascular, no sistema imune, nos ossos, no sistema reprodutivo, no sistema hematológico, no sistema renal, no sistema gastrointestinal e, principalmente, no sistema nervoso. Levantamentos epidemiológicos, estudos em humanos e em modelos animais mostraram que o chumbo é uma potente neurotoxina, não havendo níveis seguros de exposição. Embora haja evidências sobre como o chumbo afeta a homeostase em nível celular, a descrição das vias metabólicas afetadas na intoxicação por chumbo não está totalmente estabelecida. Par a esclarecer os efeitos da intoxicação por chumbo, o objetivo deste estudo é construir um mapa metabólico das vias celulares alteradas pela presença de chumbo e analisar quais proteínas são capazes de interagir com o chumbo. Encontramos um total de 23 proteínas, incluindo o tripeptídeo glutationa, as quais podem interagir diretamente com chumbo. Estas proteínas, juntamente com as informações das vias presentes no KEGG, permitiram a criação do mapa metabólico da intoxicação pelo chumbo. Nossas análises mostraram que o chumbo interage diversos componentes celulares, principalmente interferindo na função normal de proteínas as quais se ligam a metais essenciais, como zinco e cálcio.


  • Mostrar Abstract
  • Lead is an important heavy metal used worldwide in several applications, especially in industry. People exposed to lead can develop a wide range of symptoms associated with lead poisoning. Many effects of lead poisoningwere reported in the literature, showing a compromising of whole body health, with symptoms related to cardiovascular, immune, bone, reproductive, hematological, renal, gastrointestinal, and nervous system. However, the molecular lead targets as wellas the pathways affected by lead poisoning are not completely described. The aim of this study was to construct a map of metabolic pathways impaired in lead poisoning byevaluating which biomolecules are directly affected by lead. Through manual literature curation, we identified proteins which physically interact with lead and subsequently determined the metabolic pathways those proteins are involved with. At total, weidentified 23 proteins involved with heme synthesis, calcium metabolism, neurotransmission, among other biological systems, which helps to understand the wide range of lead poisoning symptoms.

SIGAA | Superintendência de Informática - | | Copyright © 2006-2022 - UFRN - sigaa05-producao.info.ufrn.br.sigaa05-producao