TTE293
significativas (Faraway, 2005). La selección de variables es determinada en función al valor
p definido por Fisher (1925), permitiendo definir un grado de significancia sobre el fenómeno
o hecho estudiado cuando P < 0,05. Los autores Pearson y Neyman (1928) sintetizaron la
idea de Fisher (1925) en establecer dos hipótesis posibles: la nula y la alterna. El rechazo de
la hipótesis nula es determinado cuando el grado de significancia de una variable es alta con
P valor < 0,05, evidenciando que el fenómeno a un evento estudiado no ocurre de forma
aleatoria, y estableciendo un 95% de certeza o confiabilidad para el modelo.
RANDOM FOREST REGRESSION
Es una técnica de aprendizaje supervisado que genera múltiples arboles de decisión sobre un
conjunto de datos de entrenamiento, fue elaborado por Breiman (2001) y consiste en construir
un numero finito de árboles de regresión (Fig. 14) con el fin de obtener un modelo único
más robusto en comparación con los resultados de cada árbol por separado.
FIGURA 14. Modelo Random Forest basado de Breiman (2001).
La predicción de un árbol de regresión forma parte del nodo terminal para la observación
predicha. Una vez obtenido el vector promedio, se calcula la predicción con la media
ponderada de todas las observaciones de entrenamiento, bajo la siguiente ecuación:
33
Made with FlippingBook Online newsletter creator