Banca de QUALIFICAÇÃO: THAÍS DE ALMEIDA RATIS RAMOS

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE : THAÍS DE ALMEIDA RATIS RAMOS
DATA : 04/04/2018
HORA: 14:00
LOCAL: BioME
TÍTULO:

Desenvolvimento e uso do CORAZON, ferramenta para normalização e agrupamento de dados genômicos, na análise funcional e evolutiva de transcritos


PALAVRAS-CHAVES:

Expressão gênica. Aprendizagem de máquina. Agrupamento. CORAZON.


PÁGINAS: 172
RESUMO:

A criação de enciclopédias de expressão gênica possibilita a compreensão de grupos de genes que  são  co-expressos  em  diferentes  tecidos  e  o  entendimento  de  grupos  gênicos  conforme suas funções e origem.  Devido à enorme quantidade de dados em larga escala,  gerados em projetos  de  transcriptômica,  houve  uma  demanda  intensa  em  usar  técnicas  fornecidas  pela inteligência artificial, que tornou-se amplamente utilizada na bioinformática. A aprendizagem não supervisionada é a tarefa de aprendizagem de máquina que analisa os dados fornecidos e determina  os  objetos  que  podem  ser  agrupados.  Foi  construída  uma  ferramenta  amigável chamada CORAZON (Correlation Analyses Zipper Online),  que implementa 3 algoritmos de aprendizagem  de  máquina  não  supervisionada  (mean  shift,  k-means  e  hierárquico),  6 metodologias  de  normalização  (Fragments  Per  Kilobase  Million  (FPKM),  Transcripts  Per Million (TPM), Counts Per Million (CPM), log base-2, normalização pela soma dos valores da instância e normalização pelo maior valor de atributo para cada instância) e uma estratégia para observar a influência dos atributos, para agrupamento de dados de expressão gênica. Os desempenhos dos algoritmos foram avaliados através de 5 modelos comumente usados  para validar metodologias de agrupamento, cada um composto por 50 conjuntos de dados gerados aleatoriamente. Os algoritmos apresentaram acurácia variando entre 92-100%. Em seguida, a ferramenta foi aplicada para agrupar tecidos, obter conhecimentos evolutivos e funcionais dos genes,  com  base  no  enriquecimento  de  processos  biológicos,  e  associar  com  fatores  de transcrição.  Para  selecionar  o  melhor  número  de  clusters  para  o  k-means  e  o  hierárquico, foram  utilizados  o  critério  de  informação  bayesiana  (BIC),  seguido  da  derivada  da  função discreta  e  a  Silhueta.  No  hierárquico  foi  adotado  o  método  do  Ward.  No  total,  3  bases  de dados  (Uhlen,  Encode  e  Fantom)  foram  analisadas  e,  em  relação  aos  tecidos,  foram observados  grupos  relacionados  a  glândulas,  tecidos  cardíacos,  musculares,  relacionados  ao sistema reprodutivo e grupos com um único tecido, como testículo, cérebro e medula óssea. Em relação aos grupos de genes, foram obtidos vários grupos com especificidades em suas funções:  detecção  de  estímulos  envolvidos  na  percepção  sensorial,  reprodução,  sinalização sináptica, sistema nervoso, sistema imunológico, desenvolvimento de sistemas e metabólicos. Também foi observado que geralmente grupos com mais de 80% de genes não codificantes, mais de 40% dos seus genes codificantes são recentes, originados em Mammalia e a minoria é do clado Eukaryota. Por outro lado, grupos com mais de 90% de genes codificantes, mais de 40% deles apareceram em Eukaryota e a minoria em Mammalia. Estes resultados mostram o potencial  dos métodos do CORAZON, que podem ajudar na análise de grande quantidade de dados  genômicos,  possibilitando  associações  dos  processos  biológicos  com  RNAs  não codificantes e codificantes agrupados juntos, bem como a possibilidade do estudo da história evolutiva. CORAZON está disponível gratuitamente em  http://biodados.icb.ufmg.br/corazon ou http://corazon.integrativebioinformatics.me.


MEMBROS DA BANCA:
Interno - 1513597 - JOAO PAULO MATOS SANTOS LIMA
Presidente - 059.501.268-07 - JOSÉ MIGUEL ORTEGA - USP
Externo à Instituição - THAIS GAUDENCIO DO REGO - UFPB
Externo ao Programa - 052.739.204-93 - VINICIUS RAMOS HENRIQUES MARACAJA COUTINHO - USP
Notícia cadastrada em: 09/03/2018 08:49
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2024 - UFRN - sigaa05-producao.info.ufrn.br.sigaa05-producao