Uma Proposta de Automatização do processo de rotulagem de Instâncias em Algoritmos de Aprendizado Semissupervisionado
Aprendizado de máquina, Aprendizado semissupervisionado, Self-Training
O aprendizado semissupervisionado é um tipo de aprendizado de máquina que integra os
mecanismos de aprendizado supervisionado e não supervisionado, por isso é considerado o
meio termo entre eles dois. No aprendizado semissupervisionado, a maioria dos rótulos do
conjunto de treinamento são desconhecidos, mas há uma pequena parcela que possui rótulo.
O aprendizado semissupervisionado é atraente devido ao seu potencial de utilização
de dados rotulados e não rotulados para alcançar melhor desempenho do que o aprendizado
supervisionado. Este trabalho consiste em, um estudo no campo da aprendizagem
semissupervisionada e implementa mudanças na estrutura dos algoritmos self-training e
co-training. Na literatura, é comum o desenvolvimento de pesquisas que alteram a estrutura
destes algoritmos, no entanto, nenhuma delas propõe a variação na taxa de inclusão
de novas instâncias no conjunto de dados rotulados, que é o principal propósito deste
trabalho. Para atingir este objetivo, três métodos são propostos: FlexCon-G , FlexCon
e FlexCon-C . As principais diferenças entre estes métodos são: 1) a forma como eles
realizam o cálculo do novo valor da taxa de confiança mínima para inclusão de novas
instâncias; 2) a estratégia utilizada na escolha do rótulo de cada instância. Para avaliar
cada um destes métodos, foram realizados experimentos com 30 conjuntos de dados
com características diversificadas. Os resultados indicam que os três métodos propostos
e suas versões apresentam melhor desempenho que os métodos self-training e co-training
originais na maioria dos casos.