Mostrando artículos por etiqueta: Árbol de Regresión y Clasificación CART ; ";
Menu

Deprecated: Non-static method JApplicationSite::getMenu() should not be called statically, assuming $this from incompatible context in /usr/home/maximainformacion/www/templates/gk_startup/lib/framework/helper.layout.php on line 113

Deprecated: Non-static method JApplicationCms::getMenu() should not be called statically, assuming $this from incompatible context in /usr/home/maximainformacion/www/libraries/cms/application/site.php on line 272

Ejemplo de Técnicas Avanzadas aplicadas a Métodos Clásicos

Comentario: Fisher llegó a la conclusión de que había dos grupos. Aplicando técnicas avanzadas como CART (Árbol de Regresión y Clasificación) llegamos a la conclusión de que son tres grupos en los que podemos dividir o clasificar las variedades de lirios en cuanto a las variables de longitud y anchura de pétalos en milímetros.

 

El árbol CART, es decir, la técnica avanzada que he utilizado aquí suele emplearse con numerosas variables (a veces, más de veinte, treinta), dos es poco por lo que al “podar el árbol” (es decir, llegar a estimadores más fiables) se queda igual el resultado, aún así, hay que hacerlo. El problema de los investigadores es que, si han llegado a conocer y aplicar esta técnica, ya que es relativamente reciente, se quedan en el Árbol que hemos hecho primero, no lo podan porque no saben, con lo cual si tienen varias variables, lo más probable (por no decir seguro) es que esté mal. Esta técnica Árbol de Regresión y Clasificación, suele utilizarse en Medicina, Economía y Biología.

 

**********

Para este ejemplo de Técnicas Actuales en Ciencias Biológicas he utilizado los datos de Fisher sobre lirios publicado en 1936. Utilizó datos de 150 lirios: 50 de la variedad Setosa (s), 50 de la variedad Versicolor (c), 50 de la variedad Virgínica (v). Observó cuatro variables dadas en mm: longitud de Sépalo, Anchura de Sépalo, Longitud de Pétalo, Anchura de Pétalo. Se incluyen cinco datos de cada variedad, ya que por su extensión la matriz de datos es demasiado grande.

 

En su trabajo original, y mediante un Análisis de Correspondencias, Fisher clasificaba los datos en dos poblaciones con la siguiente representación gráfica:

 

Podríamos aplicar varias TÉCNICAS AVANZADAS ACTUALES pero la más utilizada en Ciencias Biológicas en la actualidad es el Árbol de Regresión y Clasificación CART. Realizamos el CART con los datos de Fisher e interpretamos:

El Árbol de Clasificación nos informa de la jerarquía de las covariables consideradas. Si la Longitud del Pétalo (primera variable de las consideradas) es menor que 2’45mm el lirio es clasificado de la variedad Setosa (s), en el nodo de la izquierda. Si la longitud del Pétalo es mayor o igual que 2’45mm el lirio es clasificado como Virgínica (v) si la Anchura del Pétalo (segundo varible predictiva) es mayor o igual que 1’75mm y si la Anchura del Pétalo es menor que 1’75mm el lirio es clasificado como Versicolor (c).

Las dos variables predictoras únicas son Longitud de Pétalo y Anchura de Pétalo, y por este orden de importancia.

Pero no nos quedamos ahí y obtenemos su Árbol de Regresión:

n= 150

node), split, n, loss, yval, (yprob)

* denotes terminal node

1) root 150 100 c (0.33333333 0.33333333 0.33333333)

2) Lg.Peta.>=2.45 100 50 c (0.50000000 0.00000000 0.50000000)

4) An.Peta.< 1.75 54 5 c (0.90740741 0.00000000 0.09259259) *

5) An.Peta.>=1.75 46 1 v (0.02173913 0.00000000 0.97826087) *

3) Lg.Peta.< 2.45 50 0 s (0.00000000 1.00000000 0.00000000) *

 

Del Árbol de Clasificación anterior y este Árbol de Regresión deducimos lo siguiente:

  • Los lirios se sitúan 100 en el nodo de la izquierda (Lg. Pétalo ≥ 2’45mm) y 50 en el nodo de la derecha (Lg. Pétalo < 2’45mm).

  • Podemos predecir la información suministrada por los nodos terminales:

  • Nodo izquierdo: dentro de una Anchura de Pétalo < 1’75mm (dentro de una Lg. Pétalo ≥ 2’45mm) se han clasificado 54 individuos (serían las clasificadas como Virgínicas) y ha incluido 5 de la variedad Versicolor dentro de este grupo.

  • Nodo izquierdo: dentro de una Anchura de Pétalo ≥ 1’75mm se han clasificado 46 individuos (serían las clasificadas como Versicolor) y ha incluido 1 de la variedad Virgínica en este grupo.

  • Nodo derecho: dentro de una Longitud de Pétalo < 2’45mm se han clasificado 50 individuos todos de la variedad Setosa.

 

A continuación debemos podar el árbol. Eso sí, disponemos de pocas covariables y el árbol CART hasta aquí representado ya está bastante podado. Aún así, continuaremos.

Determinamos el parámetro de complejidad y sacamos una nueva representación:

Classification tree:

rpart(formula = Tp ~ Lg.Sepa. + An.Sepa. + Lg.Peta. + An.Peta.,

data = lirios, method = "class")

Variables actually used in tree construction:

[1] An.Peta. Lg.Peta.

Root node error: 100/150 = 0.66667

n= 150

CP nsplit rel error xerror xstd

1 0.50 0 1.00 1.13 0.052795

2 0.44 1 0.50 0.67 0.060888

3 0.01 2 0.06 0.08 0.027520

 

Obtenida la figura y los datos, podemos decir que con dos nodos finales, con un tamaño 2, obtenemos un buen compromiso entre reducción del error de ajuste del árbol y la interpretación del árbol ajustado. Esta elección corresponde a un valor en el parámetro de complejidad de 0’066.

Como podemos comprobar en los datos siguientes nos sale el mismo Árbol de Regresión que al principio con lo que ya estaba perfectamente recortado y aquí solo hemos confirmado, siempre necesario, tal solución:

n= 150

node), split, n, loss, yval, (yprob)

* denotes terminal node

1) root 150 100 c (0.33333333 0.33333333 0.33333333)

2) Lg.Peta.>=2.45 100 50 c (0.50000000 0.00000000 0.50000000)

4) An.Peta.< 1.75 54 5 c (0.90740741 0.00000000 0.09259259) *

5) An.Peta.>=1.75 46 1 v (0.02173913 0.00000000 0.97826087) *

3) Lg.Peta.< 2.45 50 0 s (0.00000000 1.00000000 0.00000000) *

 

Con lo que su representación CART será idéntica:

 

Autor: Tomás Salmerón (miembro del equipo Máxima Información)

Leer más ...
Suscribirse a este canal RSS

 

Web segura para tus comunicaciones y envíos

Contacta

Contacta Atención al ClienteEmail: info@maximainformacion.com

Tlf.: +34 958 327 046

Tlf.: +34 635 659 391

No tiene cuenta? Registrarse

Entrar en su cuenta