TTE293

significativas (Faraway, 2005). La selección de variables es determinada en función al valor

p definido por Fisher (1925), permitiendo definir un grado de significancia sobre el fenómeno

o hecho estudiado cuando P < 0,05. Los autores Pearson y Neyman (1928) sintetizaron la

idea de Fisher (1925) en establecer dos hipótesis posibles: la nula y la alterna. El rechazo de

la hipótesis nula es determinado cuando el grado de significancia de una variable es alta con

P valor < 0,05, evidenciando que el fenómeno a un evento estudiado no ocurre de forma

aleatoria, y estableciendo un 95% de certeza o confiabilidad para el modelo.

RANDOM FOREST REGRESSION

Es una técnica de aprendizaje supervisado que genera múltiples arboles de decisión sobre un

conjunto de datos de entrenamiento, fue elaborado por Breiman (2001) y consiste en construir

un numero finito de árboles de regresión (Fig. 14) con el fin de obtener un modelo único

más robusto en comparación con los resultados de cada árbol por separado.

FIGURA 14. Modelo Random Forest basado de Breiman (2001).

La predicción de un árbol de regresión forma parte del nodo terminal para la observación

predicha. Una vez obtenido el vector promedio, se calcula la predicción con la media

ponderada de todas las observaciones de entrenamiento, bajo la siguiente ecuación:

33

Made with FlippingBook Online newsletter creator