1. Seleção de variáveis com vistas à classificação de bateladas de produção em duas classes Identifying relevant variables for production batch categorization into quality levels
- Author
-
Michel José Anzanello
- Subjects
Seleção de variáveis ,PLS ,z vizinhos mais próximos ,Máquina de suporte vetorial ,Variable selection ,z-Nearest neighbors classification rule ,Support vector machine ,Industrial engineering. Management engineering ,T55.4-60.8 - Abstract
Bancos de dados caracterizados por elevado número de variáveis correlacionadas são usualmente encontrados em ambientes industriais, dificultando a identificação das variáveis de processo mais relevantes. A regressão por quadrados parciais mínimos (Partial Least Square - PLS) tem sido amplamente utilizada para a seleção de variáveis com propósitos de predição. No entanto, muitas aplicações práticas priorizam a correta categorização de lotes produtivos em classes, de acordo com determinada especificação do produto final. Neste artigo, a regressão PLS é integrada às ferramentas de classificação z vizinhos mais próximos (z-Nearest Neighbor) e máquina de suporte vetorial (Support Vector Machine) com visando a seleção de variáveis para fins de categorização de bateladas de produção em duas classes. Índices de Importância das Variáveis (IIV) baseados nos parâmetros da regressão PLS são desenvolvidos para o ordenamento das variáveis de processo, de acordo com sua relevância para a caracterização da variável de produto, e então integrados às ferramentas de classificação. O subconjunto de variáveis retidas é identificado através do monitoramento do perfil de acurácia gerado com a remoção sistemática das variáveis menos relevantes. Aplicada em três bancos de dados, a metodologia proposta reduziu o número de variáveis de processo necessárias para classificação de bateladas em 90,6% e elevou a acurácia média de classificação em 29,2%, quando comparada à aplicação de ferramentas de classificação na totalidade das variáveis.A large number of correlated process variables are usually found in industrial environments, making it difficult for engineers to identify the key variables. Partial Least Squares (PLS) has been successfully applied to select the most relevant process variables for predicting response variables. However, many practical applications are more interested in correctly categorizing the final product into classes. This paper addresses this classification issue by integrating Partial Least Square (PLS) regression to the z-nearest neighbor rule and support vector machine for the categorization of production batches into two quality levels. Indices based on PLS parameters are developed for evaluating variable importance. The classification methods are then applied to reduce noisy and irrelevant variables based on the importance indices. The best subset of variables is identified by monitoring accuracy profile variations while variables are removed. In three datasets, the suggested approach reduced the number of variables necessary for classification of production batches by 90.6 per cent, while yielding 29.2 per cent more accurate classifications.
- Published
- 2009
- Full Text
- View/download PDF