Automações não-supervisionadas na Abordagem de Seleção Dinâmica de Atributos baseada na Fronteira de Pareto
Pré-processamento de dados, Seleção de Atributos, Análise de Dados, Algoritmos de Agrupamento, Técnicas não-supervisionadas.
Muitas estratégias de seleção de atributos foram desenvolvidas nas últimas décadas, usando diferentes critérios para selecionar as características mais relevantes. O uso da seleção dinâmica de atributos, entretanto, mostrou que o uso de múltiplos critérios simultaneamente para determinar o melhor subconjunto de atributos para instâncias similares pode fornecer resultados encorajadores. Embora o uso da seleção dinâmica tenha atenuado parte das limitações encontradas em métodos de seleção tradicionais, a utilização exclusiva de critério de avaliação supervisionados e a definição manual da quantidade de grupos a serem utilizados, conduzem a limitações de análises de problemas complexos em cenários não-supervisionados. Neste contexto, esta tese propõe três vertentes da abordagem de seleção dinâmica de atributos baseada na fronteira de pareto, no contexto de pré-processamento e uma vertente no contexto de classificação. A primeira está relacionada com a inclusão de critérios não-supervisionados na versão base do PF-DFS/M. A segunda (PF-DFS/P) e terceira (PF-DFS/A) vertentes são variações da versão base, onde incluem, respectivamente, a automatização parcial e total da definição da quantidade de grupos a serem utilizados no processo de pré-processamento através do uso de um comitê de índices de validação interno. A automatização do hiperparâmetro referente a quantidade grupos permite que, ao invés da escolha arbitrária, sejam utilizados mecanismos que possam auxiliar pesquisadores a lidar com bases de dados não-rotuladas, ou até mesmo a constituir uma análise sob bases rotuladas. A última vertente propõe a utilização de uma mecanismo de ponderação por agrupamento dinâmico para permitir que ao invés de considerar apenas um grupo de atributos para treinar classificadores e testar instâncias, cada instância possa selecionar uma porção de atributos baseada na proporção da similaridade com todos os grupos de atributos. Nas análises investigativas foram utilizados conjuntos de dados reais e artificiais. Os resultados encontrados nas análises empíricas empregadas nesta tese são promissores, demonstrando que o PF-DFS, com a automatização parcial e total da definição da quantidade de grupos a serem utilizados e a utilização da estratégias de ponderação por agrupamento dinâmico, são capazes de obter re-sultados superiores aos métodos de seleção de atributos utilizados como base comparativa, bem como quando comparado ao conjunto original de dados.