Regressão Lasso
- A regressão de lasso é o que chamamos de método de regressão penalizado, usado frequentemente em aprendizagem de máquina para selecionar um subconjunto de variáveis. É um método supervisionado de aprendizagem de máquina. Especificamente, LASSO é um método de Shrinkage e Seleção de Variáveis para modelos de regressão linear. LASSO, é na verdade um acrônimo para "Least Absolute Selection and Shrinkage Operator".
- LASSO impõe uma restrição na soma dos valores absolutos dos parâmetros do modelo, onde a soma tem uma constante especificada como um limite superior. Esta restrição faz com que os coeficientes de regressão para algumas variáveis encolham em direção a zero. Este é o processo de encolhimento. O processo de encolhimento permite uma melhor interpretação do modelo e identifica as variáveis mais fortemente associadas com a variável alvo correspondente. Esse é o processo de seleção das variáveis. Ele vai obter o subconjunto de preditores que minimiza o erro de predição.
- Então, por que usar Lasso em vez de apenas usar a regressão múltipla de mínimos quadrados comuns?
- Bem, primeiro, ele pode fornecer maior precisão de predição. Se a relação verdadeira entre a variável de resposta e os preditores é aproximadamente linear e você tiver um grande número de observações, as estimativas dos parâmetros de regressão OLS terão baixa tendência e baixa variância. No entanto, se você tiver um número relativamente pequeno de observações e um grande número de preditores, então a variância das estimativas de perímetro OLS será maior. Neste caso, a Regressão Lasso é útil porque o encolhimento do coeficiente de regressão pode reduzir a variância sem um aumento substancial da tendência.
- Em segundo lugar, a regressão lasso pode aumentar a interpretabilidade do modelo. Muitas vezes, pelo menos algumas das variáveis explicativas em uma análise de regressão múltipla de OLS não estão realmente associadas à variável resposta. Como resultado, muitas vezes acabamos com um modelo que é mais adequado e mais difícil de interpretar. Com a Regressão Lasso, os coeficientes de regressão para variáveis sem importância são reduzidos a zero, o que efetivamente os remove do modelo e produz um modelo mais simples que seleciona apenas os preditores mais importantes.
- Na Regressão Lasso, um parâmetro de ajuste chamado lambda é aplicado ao modelo de regressão para controlar a força da penalidade. À medida que o lambda aumenta, mais coeficientes são reduzidos a zero, sendo menos preditores selecionados e há mais encolhimento do coeficiente não nulo. Com Lasso Regression onde lambda é igual a zero, então temos uma análise de regressão OLS. A tendência aumenta e a variação diminui à medida que o lambda aumenta.
- Para demonstrar como a regressão do lasso funciona, vamos usar um exemplo a partir do conjunto de dados de propaganda em que nosso objetivo é identificar um conjunto de variáveis que melhor prediz o quanto os alunos se sentem conectados à sua escola.
- Usaremos o mesmo conjunto de dados de saude que usamos para a árvore de decisão nas aplicações de aprendizagem de máquina em random forest. A variável resposta ou alvo é uma variável quantitativa que mede a conexão escolar. Os valores de resposta variam de 6 a 38, onde valores mais altos indicam uma maior conexão com a escola.
- Há um total de 23 variáveis preditoras categóricas e quantitativas. Este é um número bastante grande de variáveis de previsão. Então usar análise de regressão múltipla OLS não seria o ideal, particularmente se o objetivo é identificar um menor subconjunto desses preditores que mais precisamente prevê a conexão escolar.
- Os preditores categóricos incluem gênero, raça e etnia. Embora os modelos de Regressão Lasso possam lidar com variáveis categóricas com mais de dois níveis, ao conduzir o gerenciamento de dados, criamos uma série de cinco variáveis binárias categóricas para raça e etnicidade, hispânico, branco, preto, nativo americano e asiático.
- Fizemos isso para melhorar a interpretação do modelo selecionado. O binário substitui variáveis para medir questões individuais sobre se o adolescente já havia usado álcool, maconha, cocaína ou inalantes. Outras variáveis categóricas incluem a disponibilidade de cigarros em casa, independentemente de os pais estarem ou não em assistência pública e qualquer experiência com a expulsão da escola.
- Finalmente, variáveis quantitativas preditivas incluem idade, problemas com álcool e uma medida de desvio, isso inclui comportamentos como vandalismo, outros danos materiais, mentir, roubar, fugir, dirigir sem permissão, vender drogas e ignorar a escola. Outra escala para a violência, uma para a depressão e outras para medir a auto-estima, a presença dos pais, as atividades parentais, a conexão com a família e a média de notas foram também incluídas.





