Banca de DEFESA: MADEMERSON LEANDRO DA COSTA

Uma banca de DEFESA de DOUTORADO foi cadastrada pelo programa.
DISCENTE : MADEMERSON LEANDRO DA COSTA
DATA : 09/06/2017
HORA: 09:00
LOCAL: Núcleo de Pesquisa e Inovação em Tecnologia da Informação - NPITI
TÍTULO:

Uma Abordagem utilizando Aprendizagem por Reforço Hierárquica e Computação Paralela para o Problema dos k-servos.


PALAVRAS-CHAVES:

Aprendizagem por Reforço Hierárquica, Problemas de Otimização em Espaços Métricos, Computação Paralela.


PÁGINAS: 106
RESUMO:

Um sistema de tarefas em espaços métricos é um modelo abstrato para uma classe de problemas de otimização online, incluindo o problema de paginação de memória, listas de acesso, problemas na indústria do petróleo como o gerenciamento de sondas de produção terrestre (workover rigs) e de logística na produção de petróleo offshore, o problema dos K-Servos, dentre outros. A utilização da aprendizagem por reforço na solução destes problemas, embora tenha se mostrado eficiente, está restrita a uma classe simples de problemas, devido à maldição da dimensionalidade inerente ao método. Neste trabalho, apresenta-se uma solução que utiliza a aprendizagem por reforço, baseada em técnicas de decomposição hierárquica e computação paralela para solução de problemas de otimização em espaços métricos, com o objetivo de estender a aplicabilidade do método a problemas complexos na indústria petrolífera, contornando a restrição da sua utilização a problemas teóricos de menor porte. A dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, sendo diretamente proporcional ao número n de nós e k de servos, fazendo com que o crescimento da complexidade do problema se dê de maneira exponencial (𝐶𝑘𝑛≅𝑂(𝑛𝑘)). Para contorná-lo, o problema foi modelado com um processo de decisão em múltiplas etapas onde inicialmente utilizamos o algoritmo k-means como método de agrupamento visando decompor o problema em subproblemas de menor dimensão. Em seguida foi aplicado o algoritmo Q-learning nos subgrupos buscando-se atingir a melhor política de deslocamento dos servos. Nesta etapa, foram utilizadas técnicas de computação paralela para que os processos de aprendizado e armazenamento nos subgrupos fossem executados de forma paralela. Desta forma, buscou-se diminuir a dimensão do problema, como também, o tempo total de execução do algoritmo, viabilizando a aplicação do método proposto a grandes instâncias. Serão analisados aspectos ligados à qualidade da solução hierárquica obtida quando comparada com a aprendizagem por reforço clássica, e suas possíveis limitações. Além da análise do desempenho paralelo.


MEMBROS DA BANCA:
Presidente - 347628 - ADRIAO DUARTE DORIA NETO
Externo ao Programa - 350241 - JORGE DANTAS DE MELO
Externo ao Programa - 1673543 - SAMUEL XAVIER DE SOUZA
Externo à Instituição - FRANCISCO CHAGAS DE LIMA JUNIOR - UERN
Externo à Instituição - JOAO PAULO QUEIROZ DOS SANTOS - IFRN
Notícia cadastrada em: 12/05/2017 15:48
SIGAA | Superintendência de Tecnologia da Informação - (84) 3342 2210 | Copyright © 2006-2024 - UFRN - sigaa04-producao.info.ufrn.br.sigaa04-producao