Componentes principales con Arcgis parte 1
El Análisis de Componentes Principales (ACP) es una técnica de la estadística multivariada que permite la síntesis de la información, o reducción del variables.
Esta técnica permite reducir un determinado de datos a un número menor de variables teniendo en cuenta la correlación existente entre ellas y perdiendo la menor cantidad de información posible. Los componentes principales o factores obtenidos obedecen a una combinación lineal de las variables originales, y además son independientes entre sí.
Para estudiar las relaciones que se presentan entre el conjunto de N variables correlacionadas entre sí, se transforman el conjunto original de variables en otro conjunto de nuevas variables incorreladas entre sí, al cual se le llama componentes principales. Se busca un conjunto de M variables que sean combinaciones lineales de las N originales (donde se cumple que M<N), recogiendo la mayor parte de la información o variabilidad de los datos. Si no existe una correlación entre las variables originales, entonces no tiene sentido realizar un análisis de componentes principales.
Para el cálculo de componentes principales se parte de una serie de variables (X1, X2, ..., Xn) sobre un grupo de objetos, y a partir de ellas, se obtiene un nuevo conjunto de variables Y1, Y2, ..., Ym, no correlacionadas entre sí, cuyas varianzas van decreciendo progresivamente. Cada Yj (donde j = 1, . . . , m) es una combinación lineal de las variables X1, X2, ..., Xn originales, es decir:
El Componente Yj = aj1X1 + aj2X2 + ... + ajpXp
siendo a1j , a2j , ..., apj constantes.
En el caso de la teledetección, dos bandas situadas muy cerca en el espectro electromagnético tendrán una elevada correlación. Así, en el caso de landsat TM, las tres bandas del visible (muy próximas) aparecen muy correlacionadas, las bandas del infrarrojo cercano (más distantes) aparecen algo menos correlacionadas, y el infrarrojo térmico muy incorrelacionado (en definitiva se trata de una banda de naturaleza completamente diferente). Por tanto la dimensionalidad de una imagen de satélite es inferior al número de bandas (Herramientas de Teledetección aplicadas a la gestión de los recursos hídricos).
La interpretación de los factores que componen el ACP, será deducida tras observar la relación de los factores con las variables iniciales (habrá, pues, que estudiar tanto el signo como la magnitud de las correlaciones). Esto no siempre es fácil, y será de vital importancia el conocimiento que se tenga sobre el tema que se esté analizando. El análisis de ACP en ArcGis deberá proporcionarnos.
- Los mapas de los valores de los componentes, puesto que la varianza de los primeros componentes es mayor que las de los últimos los primeros componentes aparecerán con mayor contraste que los últimos.
- Los valores propios para determinar el porcentaje de varianza explicada por cada componente.
- La matriz de vectores propios que nos permitirá determinar cuál es el peso de cada variable en cada componente.
Veamos como es el procedimiento para aplicar el Análisis de Componentes Principales en ArcGis.
Utilizaremos las 6 bandas que componen la siguiente imagen que muestra parte de los departamento de Sucre, bolívar y atlántico en Colombia.
Paso 1. Vamos a Arctoolbox – Spatial Analyst Tools – Multivariate y finalmente Principal Components, se abre una ventana donde rellenamos la siguiente información.
Input raster bands: Introducimos cada una de las bandas que componen la imagen.
Output multiband raster: Indicamos la ruta y el nombre del archivo de salida.
Number of Principal components (optional): Nos permite el numero de components principales que deseamos calcular, no se debe olvidar que el objeto de componentes es obtener un número menor de variables. Para efecto de este ejercicio indicaremos que 6 componentes.
Output data file (optional): Nos permite indicar el nombre de un archivo en formato txt o asc que guardará los parámetros de los componentes principales.
El resultado obtenido es el siguiente.
Esta imagen es en realidad una composición de los tres primeros componentes, vemos que en color verde se resaltan las zonas ocupadas por agua, en morado la zonas con abundante vegetanción y en color naranaja a café las zona aridas o con poca vegetación. Es típico de la combinación de los primeros componente diferenciar los aspectos antes señalados.
La segunda parte del tutorial la encuentras en Componentes principales con Arcgis parte 2