Análisis geoestadístico con ArcGIS parte 2. Análisis exploratorio de los datos

Según Matheron (1992), la Geoestadística es la aplicación de la teoría de las variables regionalizadas a la estimación de los depósitos. A su vez una variable regionalizada, es una variable distribuida en el espacio de forma que presenta una estructura espacial de correlación. En fin cuando hablemos de Geoestadística se debe pensar en la variable y su relación espacial.

Ejemplo de variables regionalizadas en hidrogeología son la trasmisividad y conductividad hidráulica, la porosidad y el nivel piezométrico; a este último hacemos referencia en el presente artículo.

La mayoría de los métodos geoestadísticos sólo son óptimos si la variable de estudio sigue una distribución normal. Recordemos que la distribución normal tiene las siguientes propiedades:

  • Tiene una única moda, que coincide con su media y su mediana.
  • La curva normal es asintótica al eje de abscisas.
  • Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.
  • Cuanto mayor sea la desviación estándar, más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.
  • El coeficiente de sesgo es igual a cero (0).
  • La curtosis es igual a cero (0).

Para determinar si la variable sigue una distribución se deben aplicar alguna de las pruebas de normalidad como Prueba X², Kolmogorov, cálculo del coeficiente de asimetría, curtosis, mediana, mediana y la moda y su comparación de con los de la distribución normal.

Si a través de estas pruebas se concluye que la variable puede ser aceptada o se aproxima a una distribución normal, el problema se simplifica y se puede continuar con el análisis geoestadístico; de lo contrario, es necesario realizar una transformación de los datos que puede ser de raíz cuadrada o logarítmica (Carrera, 1990) y hacer nuevamente las verificaciones.

Este es un tema extenso y la idea de estos artículos es hacerlos algo prácticos, por ello al final dejaré bibliografía a la cual se puede consultar.

Para resumir, los pasos a seguir en el análisis exploratorio de los datos son los siguientes.

  1. Organizar los datos de menor a mayor.
  2. Calcular la tabla de frecuencia.
  3. Realizar el histograma de frecuencias.
  4. Calcular los parámetros geoestadístico.
  5. Verificación de la normalidad con respecto a la media, moda y mediana.
  6. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de sesgo).
  7. Verificación de la normalidad con respecto al coeficiente de variación.
  8. Realización de la transformación de los datos, si es necesario.
  9. Recalculo de los parámetros estadísticos  y comparación para verificar la normalidad de los datos.

Los pasos 1 al 4 fueron realizados en el tutorial  “Módulo de Geostadística Analyst con ArcGIS parte 1. Estadística descriptiva”, aquí se continuará con los pasos siguientes

Se continua con el ejemplo de los datos del monitoreo de niveles piezométricos que se muestran en la siguiente tabla.

Pozo

 X

 Y

 NP

1

 1.038.638

 1.368.620

        2,0076

2

 1.034.835

 1.344.198

        2,1313

3

 1.039.637

 1.368.963

        2,2000

4

 1.039.628

 1.368.960

        2,2100

5

 1.042.236

 1.377.584

        2,4449

6

 1.039.030

 1.370.440

        2,4946

7

 1.036.835

 1.354.454

        2,8554

8

 1.043.217

 1.357.777

        2,9876

9

 1.040.082

 1.373.095

        3,2347

10

 1.039.392

 1.374.231

        3,2930

11

 1.040.434

 1.368.119

        3,3317

12

 1.039.720

 1.368.500

        3,3506

13

 1.042.060

 1.376.470

        3,4291

14

 1.041.545

 1.369.212

        3,6896

15

 1.042.045

 1.371.752

        3,7990

16

 1.040.269

 1.377.908

        3,9651

17

 1.040.731

 1.371.643

        3,9980

18

 1.042.360

 1.376.070

        4,2921

19

 1.040.390

 1.376.776

        4,4900

20

 1.035.335

 1.356.941

        4,5286

21

 1.047.035

 1.371.548

        4,6227

22

 1.042.020

 1.370.310

        4,6637

23

 1.033.716

 1.352.675

        5,0499

24

 1.042.570

 1.377.470

        5,1009

25

 1.035.564

 1.343.433

        5,2438

26

 1.042.520

 1.368.530

        5,3826

27

 1.042.932

 1.368.255

        5,8690

28

 1.044.694

 1.371.405

        6,0000

29

 1.041.841

 1.363.397

        6,1496

30

 1.040.838

 1.356.677

        8,0054

31

 1.044.135

 1.364.301

        8,0724

32

 1.046.740

 1.377.526

        8,0827

33

 1.046.626

 1.374.772

        9,0188

34

 1.042.604

 1.360.903

        9,2078

35

 1.039.466

 1.348.279

      10,1156

36

 1.041.429

 1.333.870

      10,2553

37

 1.045.207

 1.363.183

      10,8373

38

 1.044.733

 1.360.337

      11,5066

39

 1.048.893

 1.374.744

      11,8241

40

 1.040.383

 1.355.006

      12,2268

41

 1.042.263

 1.354.636

      12,3280

42

 1.039.411

 1.336.953

      12,8004

43

 1.048.342

 1.369.941

      14,6244

44

 1.046.214

 1.355.644

      14,9301

45

 1.044.935

 1.336.931

      16,6351

46

 1.041.256

 1.339.628

      18,1630

47

 1.048.313

 1.360.466

      19,1410

48

 1.044.224

 1.348.328

      24,0632

49

 1.044.765

 1.341.254

      24,2354

50

 1.046.735

 1.356.327

      25,5698

51

 1.045.454

 1.346.959

      27,1534

52

 1.050.523

 1.361.111

      30,0800

53

 1.052.106

 1.361.728

      35,3188

Los parámetros estadísticos calculados anteriormente se resumen en la siguiente tabla.

Parámetro

Datos no agrupados

Observaciones

Media

9.3776


Mediana

5.869


Moda

4.378

Se tomó la moda calculada a través de la ecuación datos agrupados.

Desviación estándar

8.0421


Varianza

64.675


Coeficiente de Variación

85.8%


Curtosis

1.38


Sesgo o asimetría

1.46


5. Verificación de la normalidad con respecto a la media, moda y mediana.

Para que la distribución sea normal o se aproxime, la media, la moda y la mediana deben ser similares, se acepta una diferencia de una unidad entre ella.

Para el ejemplo de estudio tenemos.

Media = 9.3776
Mediana  = 5.869
Moda = 4.378

Se observa la media, la mediana y la moda son diferentes, por lo cual los datos no cumplen el criterio de verificación con respecto a estos parámetros.

6. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de sesgo).

Como el coeficiente de sesgo permite verificar la normalidad de los datos, en caso de existir asimetría horizontal, es decir los datos no se ajustan a una distribución normal,  Wester-Oliver proponen evaluar lo siguiente.

  • 0<|CS|<0.5, se acepta la función de distribución de probabilidad como normal, se puede aplicar el  método geoestadístico a los datos.
  • 0.5<|CS|<1, es necesario realizar una transformación de datos (normalización) de tipo raíz cuadrada.
  • |CS|>1, es necesario hacer una transformación de tipo logarítmico (ln o log)

En nuestro caso CS = 1.46, valor mayor que 1, por lo tanto es necesario aplicar una transformación de tipo logarítmico a los datos.

7. Verificación de la normalidad con respecto al coeficiente de variación.

Tanto la función de distribución de los datos como la varianza son funciones de la media la cual es altamente sensible a los valores extremos. En consecuencia se debe tener conocimiento de la afectación de estos valores extremos sobre la media, para ello se calcula el coeficiente de variación. En todo caso se debe verificar lo siguiente.

  • Si CV < 100, no hay problema con los valores extremos de los datos
  • Si 100<CV<=200, Los efectos causados por los valores extremos de los datos son tolerables
  • Si CV>200, se tiene problemas severos con los valores extremos de los datos.

Esto es importante, pues en caso de que los valores extremos de los datos afecten a la muestra o a la distribución de los mismos, se deberá analizar si es conveniente eliminarlos en caso que obedezcan a un error en la medición o hacer una transformación de los datos para reducir su influencia en la muestra.

En nuestro caso CV = 85.8 < 100, lo cual indica que no hay problemas con valores extremos.

En resumen, la función de distribución de los datos no se asemeja a una distribución normal dado que la media, la mediana y la moda son diferentes y además el CS>1. De acuerdo a los cálculos anteriores, es necesario realizar una transformación logarítmica (la cual consiste en tomar el dato y sacarle el logaritmo ya sea en base 10 o logaritmo natural), una vez realizada la transformación se vuelven a calcular todos los parámetros para realizar las respectivas verificaciones.

8. Realización de la transformación de los datos, si es necesario.

Transformación de los datos (ln).

Pozo

 X

 Y

 NP

ln

1

 1.038.638

 1.368.620

     2,0076

0,697

2

 1.034.835

 1.344.198

     2,1313

0,757

3

 1.039.637

 1.368.963

     2,2000

0,788

4

 1.039.628

 1.368.960

     2,2100

0,793

5

 1.042.236

 1.377.584

     2,4449

0,894

6

 1.039.030

 1.370.440

     2,4946

0,914

7

 1.036.835

 1.354.454

     2,8554

1,049

8

 1.043.217

 1.357.777

     2,9876

1,094

9

 1.040.082

 1.373.095

     3,2347

1,174

10

 1.039.392

 1.374.231

     3,2930

1,192

11

 1.040.434

 1.368.119

     3,3317

1,203

12

 1.039.720

 1.368.500

     3,3506

1,209

13

 1.042.060

 1.376.470

     3,4291

1,232

14

 1.041.545

 1.369.212

     3,6896

1,306

15

 1.042.045

 1.371.752

     3,7990

1,335

16

 1.040.269

 1.377.908

     3,9651

1,378

17

 1.040.731

 1.371.643

     3,9980

1,386

18

 1.042.360

 1.376.070

     4,2921

1,457

19

 1.040.390

 1.376.776

     4,4900

1,502

20

 1.035.335

 1.356.941

     4,5286

1,510

21

 1.047.035

 1.371.548

     4,6227

1,531

22

 1.042.020

 1.370.310

     4,6637

1,540

23

 1.033.716

 1.352.675

     5,0499

1,619

24

 1.042.570

 1.377.470

     5,1009

1,629

25

 1.035.564

 1.343.433

     5,2438

1,657

26

 1.042.520

 1.368.530

     5,3826

1,683

27

 1.042.932

 1.368.255

     5,8690

1,770

28

 1.044.694

 1.371.405

     6,0000

1,792

29

 1.041.841

 1.363.397

     6,1496

1,816

30

 1.040.838

 1.356.677

     8,0054

2,080

31

 1.044.135

 1.364.301

     8,0724

2,088

32

 1.046.740

 1.377.526

     8,0827

2,090

33

 1.046.626

 1.374.772

     9,0188

2,199

34

 1.042.604

 1.360.903

     9,2078

2,220

35

 1.039.466

 1.348.279

   10,1156

2,314

36

 1.041.429

 1.333.870

   10,2553

2,328

37

 1.045.207

 1.363.183

   10,8373

2,383

38

 1.044.733

 1.360.337

   11,5066

2,443

39

 1.048.893

 1.374.744

   11,8241

2,470

40

 1.040.383

 1.355.006

   12,2268

2,504

41

 1.042.263

 1.354.636

   12,3280

2,512

42

 1.039.411

 1.336.953

   12,8004

2,549

43

 1.048.342

 1.369.941

   14,6244

2,683

44

 1.046.214

 1.355.644

   14,9301

2,703

45

 1.044.935

 1.336.931

   16,6351

2,812

46

 1.041.256

 1.339.628

   18,1630

2,899

47

 1.048.313

 1.360.466

   19,1410

2,952

48

 1.044.224

 1.348.328

   24,0632

3,181

49

 1.044.765

 1.341.254

   24,2354

3,188

50

 1.046.735

 1.356.327

   25,5698

3,241

51

 1.045.454

 1.346.959

   27,1534

3,302

52

 1.050.523

 1.361.111

   30,0800

3,404

53

 1.052.106

 1.361.728

   35,3188

3,564

9. Recalculo de los parámetros estadísticos  y comparación para verificar la normalidad de los datos.

a. Organizar los datos de menor a mayor.

Ya están organizados en la tabla anterior

b. Calcular la tabla de frecuencia.

No

Intervalo

Marca de clase

frecuencia absoluta

frecuencia absoluta acumulada

frecuencia relativa

frecuencia relativa acumulada

1

0,6969

- 1,0569

0,88

7

7

0,13

0,13

2

1,0569

- 1,4153

1,24

10

17

0,19

0,32

3

1,4153

- 1,7737

1,59

10

27

0,19

0,51

4

1,7737

- 2,1321

1,95

5

32

0,09

0,60

5

2,1321

- 2,4905

2,31

7

39

0,13

0,74

6

2,4905

- 2,8489

2,67

6

45

0,11

0,85

7

2,8489

- 3,2073

3,03

4

49

0,08

0,92

8

3,2073

- 3,5657

3,39

4

53

0,08

1,00

c. Realizar el histograma de frecuencias

d. Calcular los parámetros geoestadístico.

Los parámetros estadísticos se realizarán por la metodología de datos no agrupados a excepción de la moda, para ello se utilizará Excel.

Pozo

 NP

ln

Media

(xi-media)2

(xi-media)4

(xi-media)³

1

     2,0076

0,697

1,92

1,508

2,273

-1,851

2

     2,1313

0,757

1,92

1,364

1,862

-1,594

3

     2,2000

0,788

1,92

1,291

1,668

-1,468

4

     2,2100

0,793

1,92

1,281

1,641

-1,450

5

     2,4449

0,894

1,92

1,063

1,129

-1,095

6

     2,4946

0,914

1,92

1,022

1,044

-1,033

7

     2,8554

1,049

1,92

0,767

0,588

-0,671

8

     2,9876

1,094

1,92

0,690

0,475

-0,573

9

     3,2347

1,174

1,92

0,564

0,318

-0,423

10

     3,2930

1,192

1,92

0,537

0,289

-0,394

11

     3,3317

1,203

1,92

0,520

0,271

-0,375

12

     3,3506

1,209

1,92

0,512

0,262

-0,367

13

     3,4291

1,232

1,92

0,480

0,230

-0,332

14

     3,6896

1,306

1,92

0,384

0,147

-0,238

15

     3,7990

1,335

1,92

0,348

0,121

-0,205

16

     3,9651

1,378

1,92

0,300

0,090

-0,164

17

     3,9980

1,386

1,92

0,291

0,084

-0,157

18

     4,2921

1,457

1,92

0,219

0,048

-0,103

19

     4,4900

1,502

1,92

0,179

0,032

-0,076

20

     4,5286

1,510

1,92

0,172

0,029

-0,071

21

     4,6227

1,531

1,92

0,155

0,024

-0,061

22

     4,6637

1,540

1,92

0,148

0,022

-0,057

23

     5,0499

1,619

1,92

0,093

0,009

-0,029

24

     5,1009

1,629

1,92

0,087

0,008

-0,026

25

     5,2438

1,657

1,92

0,072

0,005

-0,019

26

     5,3826

1,683

1,92

0,058

0,003

-0,014

27

     5,8690

1,770

1,92

0,024

0,001

-0,004

28

     6,0000

1,792

1,92

0,018

0,000

-0,002

29

     6,1496

1,816

1,92

0,012

0,000

-0,001

30

     8,0054

2,080

1,92

0,024

0,001

0,004

31

     8,0724

2,088

1,92

0,027

0,001

0,004

32

     8,0827

2,090

1,92

0,027

0,001

0,004

33

     9,0188

2,199

1,92

0,075

0,006

0,021

34

     9,2078

2,220

1,92

0,087

0,008

0,026

35

   10,1156

2,314

1,92

0,152

0,023

0,059

36

   10,2553

2,328

1,92

0,162

0,026

0,065

37

   10,8373

2,383

1,92

0,210

0,044

0,096

38

   11,5066

2,443

1,92

0,268

0,072

0,139

39

   11,8241

2,470

1,92

0,297

0,088

0,162

40

   12,2268

2,504

1,92

0,335

0,112

0,194

41

   12,3280

2,512

1,92

0,345

0,119

0,202

42

   12,8004

2,549

1,92

0,390

0,152

0,244

43

   14,6244

2,683

1,92

0,574

0,330

0,435

44

   14,9301

2,703

1,92

0,606

0,367

0,472

45

   16,6351

2,812

1,92

0,786

0,618

0,697

46

   18,1630

2,899

1,92

0,950

0,902

0,926

47

   19,1410

2,952

1,92

1,055

1,112

1,083

48

   24,0632

3,181

1,92

1,577

2,487

1,981

49

   24,2354

3,188

1,92

1,595

2,544

2,015

50

   25,5698

3,241

1,92

1,733

3,004

2,282

51

   27,1534

3,302

1,92

1,895

3,592

2,609

52

   30,0800

3,404

1,92

2,187

4,785

3,235

53

   35,3188

3,564

1,92

2,688

7,226

4,407


suma

102,02


32,205

40,295

8,510

e. Verificación de la normalidad con respecto a la media, moda y mediana.

Media = 1.92
Mediana  = 1.77
Moda = 1.41

La diferencia entre la media, la mediana y la moda es menor que 1, por  lo tanto la distribución de los datos cumple con esta condición.

f. Verificación de la normalidad con respecto a la asimetría horizontal (coeficiente de sesgo).

CS = 0.34 se cumple que 0<|CS|<0.5.

g. Verificación de la normalidad con respecto al coeficiente de variación.

CV = 41%, se cumple que CV<100

Por tanto la distribución de los datos se puede aceptar como normal, dado que la moda, la mediana y la media son similares; CS está entre 0 y 0.5 y CV<100. Por ello se puede continuar con el análisis geoestadístico.

La tercera parte de esta trilogía que corresponde a la herramienta Geostadistical Analyst la puedes consultar aquí.