Super User ; ";
Menu

Deprecated: Non-static method JApplicationSite::getMenu() should not be called statically, assuming $this from incompatible context in /usr/home/maximainformacion/www/templates/gk_startup/lib/framework/helper.layout.php on line 113

Deprecated: Non-static method JApplicationCms::getMenu() should not be called statically, assuming $this from incompatible context in /usr/home/maximainformacion/www/libraries/cms/application/site.php on line 272

Definiciones Métodos Robustos y Métodos de Remuestreo

“La Estadística Robusta es resistente a los errores en los resultados, producidos por las desviaciones en los supuestos a cumplir en los diferentes contrastes (por ejemplo, de la normalidad)”.

“Los Métodos Estadísticos Robustos son insensibles a los efectos de los valores atípicos –outliers- (que pueden ser errores o datos contaminados)”.

“Los Métodos Estadísticos Robustos proporcionan un enfoque alternativo a los Métodos Estadísticos Clásicos. La intención es producir estimadores que no se vean afectados por pequeñas desviación del modelo”.

“Los Estadísticos Robustos buscan proporcionar métodos que emulen a los métodos estadísticos clásicos, pero que no son afectados por valores atípicos u otras pequeñas desviaciones de los supuestos del modelo. Estos métodos clásicos se basan en gran medida en unos supuestos que a menudo no se cumplen en la práctica. En particular, a menudo, se asume que los errores en los datos se distribuyen normalmente, al menos aproximadamente, o que el teorema del límite central se puede confiar en obtener estimaciones de distribución normal”.

“Robustez significa insensibilidad a pequeñas desviaciones de los supuestos”.

“Los Métodos Estadísticos Robustos y de Remuestreo se caracterizan por la insensibilidad de las inferencias realizadas con ellos, a la posible presencia de los datos anómalos o a posibles desviaciones en la distribución modelo supuesta”.

 

 

Definiciones Métodos de Remuestreo:

“Los Métodos de Remuestreo permiten realizar estimaciones de precisión de las muestras estadísticas, intercambiar marcadores de puntos de datos y validar modelos”.

Ejemplo de Técnicas Avanzadas aplicadas a Métodos Clásicos

Comentario: Fisher llegó a la conclusión de que había dos grupos. Aplicando técnicas avanzadas como CART (Árbol de Regresión y Clasificación) llegamos a la conclusión de que son tres grupos en los que podemos dividir o clasificar las variedades de lirios en cuanto a las variables de longitud y anchura de pétalos en milímetros.

 

El árbol CART, es decir, la técnica avanzada que he utilizado aquí suele emplearse con numerosas variables (a veces, más de veinte, treinta), dos es poco por lo que al “podar el árbol” (es decir, llegar a estimadores más fiables) se queda igual el resultado, aún así, hay que hacerlo. El problema de los investigadores es que, si han llegado a conocer y aplicar esta técnica, ya que es relativamente reciente, se quedan en el Árbol que hemos hecho primero, no lo podan porque no saben, con lo cual si tienen varias variables, lo más probable (por no decir seguro) es que esté mal. Esta técnica Árbol de Regresión y Clasificación, suele utilizarse en Medicina, Economía y Biología.

 

**********

Para este ejemplo de Técnicas Actuales en Ciencias Biológicas he utilizado los datos de Fisher sobre lirios publicado en 1936. Utilizó datos de 150 lirios: 50 de la variedad Setosa (s), 50 de la variedad Versicolor (c), 50 de la variedad Virgínica (v). Observó cuatro variables dadas en mm: longitud de Sépalo, Anchura de Sépalo, Longitud de Pétalo, Anchura de Pétalo. Se incluyen cinco datos de cada variedad, ya que por su extensión la matriz de datos es demasiado grande.

 

En su trabajo original, y mediante un Análisis de Correspondencias, Fisher clasificaba los datos en dos poblaciones con la siguiente representación gráfica:

 

Podríamos aplicar varias TÉCNICAS AVANZADAS ACTUALES pero la más utilizada en Ciencias Biológicas en la actualidad es el Árbol de Regresión y Clasificación CART. Realizamos el CART con los datos de Fisher e interpretamos:

El Árbol de Clasificación nos informa de la jerarquía de las covariables consideradas. Si la Longitud del Pétalo (primera variable de las consideradas) es menor que 2’45mm el lirio es clasificado de la variedad Setosa (s), en el nodo de la izquierda. Si la longitud del Pétalo es mayor o igual que 2’45mm el lirio es clasificado como Virgínica (v) si la Anchura del Pétalo (segundo varible predictiva) es mayor o igual que 1’75mm y si la Anchura del Pétalo es menor que 1’75mm el lirio es clasificado como Versicolor (c).

Las dos variables predictoras únicas son Longitud de Pétalo y Anchura de Pétalo, y por este orden de importancia.

Pero no nos quedamos ahí y obtenemos su Árbol de Regresión:

n= 150

node), split, n, loss, yval, (yprob)

* denotes terminal node

1) root 150 100 c (0.33333333 0.33333333 0.33333333)

2) Lg.Peta.>=2.45 100 50 c (0.50000000 0.00000000 0.50000000)

4) An.Peta.< 1.75 54 5 c (0.90740741 0.00000000 0.09259259) *

5) An.Peta.>=1.75 46 1 v (0.02173913 0.00000000 0.97826087) *

3) Lg.Peta.< 2.45 50 0 s (0.00000000 1.00000000 0.00000000) *

 

Del Árbol de Clasificación anterior y este Árbol de Regresión deducimos lo siguiente:

  • Los lirios se sitúan 100 en el nodo de la izquierda (Lg. Pétalo ≥ 2’45mm) y 50 en el nodo de la derecha (Lg. Pétalo < 2’45mm).

  • Podemos predecir la información suministrada por los nodos terminales:

  • Nodo izquierdo: dentro de una Anchura de Pétalo < 1’75mm (dentro de una Lg. Pétalo ≥ 2’45mm) se han clasificado 54 individuos (serían las clasificadas como Virgínicas) y ha incluido 5 de la variedad Versicolor dentro de este grupo.

  • Nodo izquierdo: dentro de una Anchura de Pétalo ≥ 1’75mm se han clasificado 46 individuos (serían las clasificadas como Versicolor) y ha incluido 1 de la variedad Virgínica en este grupo.

  • Nodo derecho: dentro de una Longitud de Pétalo < 2’45mm se han clasificado 50 individuos todos de la variedad Setosa.

 

A continuación debemos podar el árbol. Eso sí, disponemos de pocas covariables y el árbol CART hasta aquí representado ya está bastante podado. Aún así, continuaremos.

Determinamos el parámetro de complejidad y sacamos una nueva representación:

Classification tree:

rpart(formula = Tp ~ Lg.Sepa. + An.Sepa. + Lg.Peta. + An.Peta.,

data = lirios, method = "class")

Variables actually used in tree construction:

[1] An.Peta. Lg.Peta.

Root node error: 100/150 = 0.66667

n= 150

CP nsplit rel error xerror xstd

1 0.50 0 1.00 1.13 0.052795

2 0.44 1 0.50 0.67 0.060888

3 0.01 2 0.06 0.08 0.027520

 

Obtenida la figura y los datos, podemos decir que con dos nodos finales, con un tamaño 2, obtenemos un buen compromiso entre reducción del error de ajuste del árbol y la interpretación del árbol ajustado. Esta elección corresponde a un valor en el parámetro de complejidad de 0’066.

Como podemos comprobar en los datos siguientes nos sale el mismo Árbol de Regresión que al principio con lo que ya estaba perfectamente recortado y aquí solo hemos confirmado, siempre necesario, tal solución:

n= 150

node), split, n, loss, yval, (yprob)

* denotes terminal node

1) root 150 100 c (0.33333333 0.33333333 0.33333333)

2) Lg.Peta.>=2.45 100 50 c (0.50000000 0.00000000 0.50000000)

4) An.Peta.< 1.75 54 5 c (0.90740741 0.00000000 0.09259259) *

5) An.Peta.>=1.75 46 1 v (0.02173913 0.00000000 0.97826087) *

3) Lg.Peta.< 2.45 50 0 s (0.00000000 1.00000000 0.00000000) *

 

Con lo que su representación CART será idéntica:

 

Autor: Tomás Salmerón (miembro del equipo Máxima Información)

Reflexiones sobre el análisis estadístico

Para una buena parte de los psicólogos (investigadores), el análisis estadístico se presenta y precisa, tanto en el trabajo profesional como en la investigación, bien a nivel de interpretación de los resultados estadísticos en revistas o informes de colegas, bien en la producción de sus estudios estadísticos (Batanero, Godino y Vallecillos, 1992). Incluso en caso de colaboración con estadísticos profesionales no elimina la necesidad de conocimiento estadístico, pues el psicólogo (investigador) debe plantear su problema, describiendo sus variables, hipótesis y datos al experto en estadística e interpretar psicológicamente los resultados estadísticos que éste le proporciona (Barnett, 1988).

Schuyten (1990) señala dos tipos de competencias necesarias en el campo de la Psicología (Investigación):

  • Competencias requeridas para interpretar la literatura de investigación: conocer y comprender los métodos usuales en Psicología (o cualquier campo de estudio), su dominio de aplicación, las hipótesis en que se basan.

  • Competencias requeridas para el desarrollo de la investigación. Actualmente no es necesario una gran destreza de cálculo, gracias a los paquetes estadísticos, pero se requiere elegir adecuadamente la técnica apropiada e inferir (sacar conclusiones apropiadas de) los resultados de forma correcta.

 

Para ello se cuenta con la ayuda del programa gratuito R (Development Core Team). Eso sí, como dice García Pérez, (2011b, p. 11), “…todo software debe considerarse como una ayuda a la aplicación, muchas veces laboriosa, de los métodos estadísticos, y no como un fin en sí mismo. Los conceptos estadísticos, su correcta aplicación analizando si se verifican las suposiciones para las que fueron diseñados, y la adecuada interpretación de los resultados obtenidos con los métodos utilizados, es la base de la correcta utilización de los Métodos Estadísticos; el ordenador es una muy buena herramienta para conseguir los objetivos anteriores pero no debe sustituir un estudio detallado de las Técnicas Estadísticas…”.

A este respecto, Santisteban (1990, p. 469) comenta que un elemento común en las universidades es “…Introducir a los psicólogos (investigadores) en el manejo y aplicación de paquetes de programas estandarizados con objeto de que analicen sus datos y sean interpretados…”. La autora indica que debe tenerse cuidado de no caer en el supuesto de que el ordenador resuelve la enseñanza de la estadística por sí sólo.

Pasando al tema crucial de este proyecto, los investigadores de esta área de conocimiento que es la Psicología (o de cualquier otro campo de estudio e investigación), deben desarrollar sus conocimientos conceptuales, procedimentales y estratégicos respecto a la Estadística que se refiere. Es decir, su razonamiento estadístico. El modelo más conocido de razonamiento estadístico es el de Wild y Pfannkuch, (1999), Pfannkuch y Wild, (2004) siendo un sistema de procesos interconectados. Estos autores describen varios componentes, utilizados simultáneamente:

  1. El ciclo de investigación: planteamiento del problema, planificación, recogida de datos, análisis y obtención de conclusiones (PPDAC). Correspondientes a las fases del “método de investigación científica”. Crucial es la fase de Análisis, es decir, qué métodos ha elegido el investigador en su estudio y en qué se basa para ello, (donde suele fallar la mayoría).

  2. Los modos fundamentales de pensamiento estadístico. Estrategias a seguir para resolver el problema.

  3. El ciclo de interrogación. Razonamientos usados constantemente en la resolución de problemas estadísticos.

  4. Disposiciones del estadístico. Actitudes del estadístico como curiosidad, compromiso, creatividad, espíritu crítico…

 

Pero, aunque la Estadística ha jugado siempre un papel destacado en Psicología (y demás campos de estudio), su uso no siempre ha sido correcto o bien comprendido por los investigadores y, qué decir del proceso anteriormente descrito, de forma muy breve (Morrison y Henkel, 1970; Batanero, 2000; Batanero y Díaz, 2006; Fernández-Cano y Fernández, 2009). Ello ha ocasionado una situación peculiar (Díaz y de la Fuente, 2004) donde, por un lado, la estadística se usa mal y, por otro, la obtención de resultados estadísticamente significativos se ha convertido en un requisito frecuente para que los trabajos sean aceptados en las revistas científicas o congresos del área.

Errores frecuentes de estos investigadores son, por ejemplo, limitarse a mencionar el nivel de significación, sin incluir intervalos de confianza para los valores medios de las variables u otra información sobre los efectos producidos (Morrison y Henkel, 1970; Vallecillos, 1994; Borges, San Luis, Sánchez y Cañadas, 2001; Díaz, 2007). Otros investigadores emplean el contraste de hipótesis sin especificar cuál es la hipótesis alternativa, lo que es propio de la filosofía de Fisher. Hunter (1997) indica que la tasa de contrastes erróneamente aceptados en las revistas psicológicas (extrapolable a cualquier campo de estudio) es aproximadamente del 60%. Estes (1997) sugiere a este respecto, que no debe imponerse ningún método estadístico, sino que se debe favorecer la adaptación de la metodología al avance de la Psicología (o de cualquier campo de estudio). También indica que los esfuerzos por mejorar la práctica de la estadística en esta área podrían empezar con la mejora de su enseñanza.

Por su parte, la American Psychological Association creó una comisión específica llamada “The Task Force on Statistical Inference”. Después de un profuso estudio, publicaron sus conclusiones (Wilkinson, 1999). Se sugiere describir adecuadamente los datos, incluyendo las omisiones o no respuesta y asegurarse que los resultados estadísticamente significativos no se producen debido a anomalías o valores atípicos o a problemas en la selección de los datos. (Es decir, aplicar técnicas robustas y de remuestreo para confirmar las clásicas).

Por poner un ejemplo, la técnica del Análisis de Varianza, tan simple y compleja, a la vez, y la mayormente llevada a cabo por los investigadores, se basa en dividir la variabilidad total existente en un conjunto de datos, en diversas fuentes de variación, analizando, mediante un contraste de hipótesis, si la aportación relativa de cada una de estas fuentes de variación a la variación total, es significativa o no.

El Análisis de Varianza, como ya hemos dicho, ampliamente utilizado en diversos campos de investigación, tiene sus ventajas, como el poder de contraste con un estadístico F, la comparación de las medias de más de dos poblaciones y la posibilidad de estudiar el efecto de interacción entre factores. Pero también adolecen de una serie de limitaciones como la normalidad de las poblaciones a comparar, que tengan la misma varianza (homocedasticidad) y que sean independientes (García Pérez, 2011a).

Si falla alguna de estas suposiciones, se deben transformar los datos, utilizar métodos no paramétricos o utilizar métodos robustos, estos últimos bastante desconocidos por parte de los investigadores.

Los fallos más comunes en el Análisis de Varianza (Garrido García, 2008; Pimienta, 2005) son:

  • El inadecuado análisis u omisión de los supuestos de normalidad y homocedasticidad.

  • El inadecuado análisis o interpretación incorrecta de las interacciones de primer orden y segundo orden.

  • Como consiguiente al primer punto, elección errónea del Anova como técnica estadística para la investigación.

 

Se es consciente de la dificultad que se presenta. Aunque no se ha encontrado literatura en cuanto a estudios de investigación, puede tomarse la pequeña libertad de extrapolar los resultados obtenidos en el estudio de las tesis doctorales en España, tanto para la producción científica propia como de otros países. Según Torralbo y cols (2004) el 85% de los trabajos calcula estadístico descriptivo, se usa la prueba chi-cuadrado en el 34’8%; la t de Student en 20%; la bondad de ajuste en 12’6%; la z normal en 11’1%; y estadísticos no paramétricos un 5’2%, correlaciones bivariadas (36’3%), las propias de los índices de fiabilidad (29’6%) y el análisis factorial (23’7%). Aunque no dice si se aplican correctamente o no. Eso sí, Vallejo (2005) indica un aumento de las técnicas descriptivas, inferenciales y correlacionales a partir de los años 90.

Como indica Torralbo y Cols (2004), se usa con mayor frecuencia el Anova (48’1%), la prueba chi cuadrado (34’8%), análisis de factores y pruebas de fiabilidad y, con menor porcentaje, la t de student (20%).

Qué decir tiene que no se encuentra literatura, en investigación o tesis doctorales acerca del uso de técnicas avanzadas o técnicas robustas o de remuestreo. Dificultades que los investigadores van a encontrar a la hora de publicar sus trabajos ya que las revistas nacionales e internacionales están comenzando a exigir aplicar contrastes robustos a las investigaciones llevadas a cabo para su publicación.

 

Bibliografía.

Barnett, V. (1988) Statistical Consultancy. A Basis for Teaching and Research. En R. Davison y J. Swift (Eds.), Proceedings of the Second International Conference in Teaching Statistics (pp. 303-307). Victoria: University of Victoria.

Batanero, C. (2000). Controversies Around The Role Of Statistical Tests In Experimental Research. Mathematical Thinking and Learning, 2(1-2), 75-98.

Batanero, C. y Díaz, C. (2006). Methodological and Didactical Controversies Around Statistical Inference. Proceedings of 38th Conference of The French Statistical Conference. Paris: SFDE. CDROM.

Batanero, C., Godino, J. D. y Vallecillos, A. (1992). El análisis de datos como útil y objeto de la didáctica de la matemática. Educación Matemática, 4(1), 46-53.

Borges, A., San Luis, C., Sánchez, J. A. y Cañadas, I. (2001). El juicio contra la hipótesis nula: muchos testigos y una sentencia virtuosa. Psicothema, 13(1), 174-178.

Díaz, C. (2007). Viabilidad de la enseñanza bayesiana en el análisis de datos en psicología. Tesis doctoral. Universidad de Granada.

Díaz, C y de la Fuente, I. (2004). Controversias en el uso de la inferencia en la investigación experimental. Metodología de las Ciencias del Comportamiento. Volumen especial 2004, 161-167.

Estes, W. K. (1997). Significance Testing in Psychological Research: Some Persisting Issues. Psychological Science, 8(1), 18-20.

Fernández-Cano, A. y Fernández, G. I. (2009). Críticas y alternativas a la significación estadística en el contraste de hipótesis. Madrid: La Muralla.

García Pérez, A. (2011a). Estadística aplicada. Conceptos básicos. Madrid: UNED.

García Pérez, A. (2011b). Estadística aplicada con R. Madrid: UNED.

Garrido García, J. (2008). La interacción entre factores en el análisis de varianza: errores de interpretación. Tesis doctoral. Universidad Autónoma de Madrid.

Hunter, J. E. (1997). Needed: A Ban on the Significance Test. Psychological Science, 8(1), 3-7.

Morrison, D. E. y Henkel, R. E. (Eds.). (1970). The Significance Tests Controversy. A Reader. Chicago: Aldine.

Pfannkuch, M. & Wild, C. (2004). Towards an Understanding of Statistical Thinking. En D. Ben-Zvi & J. B. Gardfield (Eds.). The Challenge of Developing Statistical Literacy, Reasoning and Thinking (pp. 17-46). Dordrecht, The Netherlands: Kluwer Academic Publishing.

Pimienta, R. (2005). O uso da estadística no projecto de investigaÇão em fisioterapia. Trabajo de investigación tutelado. Universidad de Santiago de Compostela.

Santisteban, R. C. (1990). La estadística en psicología. Estadística española, 31(122), 461-501.

Schuyten, G. (1990). Statistical Thinking in Psychology and Education. Presentado en ICOTS III. University of Otago.

Torralbo, R. M., Vallejo, R. M., Fernández, C. A. y Rico, R.L. (2004). Análisis metodológico de la producción española de tesis doctorales en educación matemática (1976-1998). Relieve, 10(1), 41-59. (ver bibliografía web).

Vallecillos, A. (1994). Estudio teórico experimental de errores y concepciones sobre el contraste de hipótesis en estudiantes universitarios. Tesis doctoral. Universidad de Granada.

Vallejo, R. M. (2005). Estudio longitudinal de la producción española de tesis doctorales en educación matemática (1975-2002). Tesis doctoral. Universidad de Granada.

Wild, C. y Pfannkuch, M. (1999). Statistical Thinking in Empirical Enquire (con discussion). International Statistical Review, 67(3), 223-265.

Wilkinson, L. (1999). Statistical Methods in Psychology Journals: Guidelines and Explanations. American Psychologist, 54, 594-604.

 

Bibliografía web

http://www.cran.r-project.org/ (software R)

http://www..uv.es/RELIEVE/v10n1/RELIEVEv10n1_3.htm (Torralbo, R. M., Vallejo, R. M., Fernández, C. A. y Rico, R.L.)

Suscribirse a este canal RSS

 

Web segura para tus comunicaciones y envíos

Contacta

Contacta Atención al ClienteEmail: info@maximainformacion.com

Tlf.: +34 958 327 046

Tlf.: +34 635 659 391

No tiene cuenta? Registrarse

Entrar en su cuenta