MLR: Machine Learning in R

#MLR:-Machine-Learning-in-R

Site de referência: https://mlr.mlr-org.com/

Aproveite para ver o tutorial básico neste link.

workflow

Vamos aprender o workflow com o BostonHousing. Descrição em na documentação do pacote mlbench.

Loading output library...

1. Criar a task

#1.-Criar-a-task
Loading output library...

2. Definir o learner

#2.-Definir-o-learner

Checar os learners disponíveis no site

3. Treinar o modelo

#3.-Treinar-o-modelo

Após os 2 primeiros passos, podemos definir a estratégia de resample e treinar o modelo.

Aqui vamos criar duas estratégias: Holdout e Cross Validation com 5 folds.

Para treinar, usamos a função resample().

3.1 Com ajuste de hiperparâmetros

#3.1-Com-ajuste-de-hiperparâmetros
Loading output library...

Definir a forma de busca, vamos usar random search. Mais detalhes no link.

Melhores hiperparâmetros:

Loading output library...

Agora é sua vez!

#Agora-é-sua-vez!

your_turn

Faça o mesmo com o conjunto de dados Soybean do pacote mlbench.

#Faça-o-mesmo-com-o-conjunto-de-dados-

Siga as instruções abaixo:

#Siga-as-instruções-abaixo:
  • Crie um holdout set e NÃO USE DURANTE O CROSS VALIDATION
  • Vamos comparar xgboost e svm
  • Crie um learner para cada tecninca
  • Use cv com 5 folds como técnica de amostragem (resample)
  • Use random search com 100 iterações como controle do ajuste de parâmetros
  • Encontre os melhores hiperparâmetros para cada técnica
  • Ao fim, treinaremos um modelo com os melhores e testaremos no conjunto separado no item 1 para comparar a performance dos dois

0. Criando dummy features (0 e 1 para categóricas)

#0.-Criando-dummy-features-(0-e-1-para-categóricas)
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...

Treine no conjunto de treino completo

#Treine-no-conjunto-de-treino-completo

Teste no conjunto de teste do passo 1

#Teste-no-conjunto-de-teste-do-passo-1

Acurácia dos dois modelos

#Acurácia-dos-dois-modelos
Loading output library...
Loading output library...

Matriz de confusão dos dois modelos

#Matriz-de-confusão-dos-dois-modelos
Loading output library...
Loading output library...

Junte treino e teste em um único df

#Junte-treino-e-teste-em-um-único-

Guardar os IDs para separar depois

#Guardar-os-IDs-para-separar-depois

Número de NA's por coluna

#Número-de-NA's-por-coluna
Loading output library...

Separar variaveis categoricas e numericas

#Separar-variaveis-categoricas-e-numericas
Loading output library...
Loading output library...

Tratar os faltantes de cada categoria

#Tratar-os-faltantes-de-cada-categoria
Loading output library...
Loading output library...
Loading output library...