Chapter 7 Muestreo aplicado

El muestreo es una técnica estadística que permite extraer individuos de una población con la condición de representar en pequeño la ocurrencia en la población, desde parámetros hasta características particulares de interés.

Hay dos tipos de muestreo:

Probabilístico.
No Probabilístico.

El primero requiere un ingrediente aleatorio y el no probabilístico es completamente dirigido, realizado en forma personalizada por el observador.

7.1 Estimar una respuesta cuantitativa

En el caso de de muestreo probabilístico, en un muestreo aleatorio, el tamaño de la muestra si es obtenida bajo los criterios de confianza, tolerancia y variabilidad, esta será considerada como una muestra con tamaño óptimo.

\[n_0 = \frac{t_{0.05}^2*S^2}{\text{tol}^2}\]

\(n_0\): tamaño de muestre preliminar.

\(t_{0.05}\): es el valor del cuantil de t al 95 % de confianza, en la práctica es 1.96. El valor de puede cambiar a gusto o necesidad del investigador.

\(S^2\): Variancia estimada de la población o rando al cuadrado para un número pequeño (muestra preliminar) para la estiamción correspondiente.

tol: Tolerancia, expresado en diferencia a considerar entre el valor real o verdadero y el posible valor determinado.

\[n_1 = \frac{n_0}{1+\frac{n_0}{N}}\]

Aplicar en el inventario de Isabelita, estimar el diámetro (DAP) de la especie SHIHUAHUACO.

data("Isabelita")
SHI <- subset(Isabelita, especie == "SHIHUAHUACO")
head(SHI[,1:10])

     este   norte  N bloque faja estrada codigo     especie dap altura
7  402324 8764725  7      I    1      66      2 SHIHUAHUACO 1.7     15
15 402301 8764615 15      I    1      64      5 SHIHUAHUACO 1.0     16
22 402291 8764270 22      I    1      59     74 SHIHUAHUACO 0.6     12
39 402291 8764362 39      I    1      50     16 SHIHUAHUACO 1.4     14
40 402291 8764270 40      I    1      49     77 SHIHUAHUACO 0.9     13
42 402291 8763675 42      I    1      45     79 SHIHUAHUACO 1.2     14

7.1.1 Muestreo piloto para tener una idea de la variación

set.seed(123)
n0 <- sample(1:949,6)
n1 <- SHI[n0,]
r <- max(n1$dap)-min(n1$dap)
r

[1] 0.7

Es un estimado de la desviación de los datos (rango), al cuadrado será un estimado de la variancia. El rango se debe utilizar cuando se tiene como máximo 10 observaciones en la muestra preliminar.

set.seed(123)
n0 <- sample(1:nrow(SHI),50)
n1 <- SHI[n0,]
sd <- sd(n1$dap)
sd

[1] 0.2842822

Se elige a la desviación estándar (\(s\)), como un estimador de la desviación de los datos cuando se tiene más de 10 observaciones en la muestra preliminar. La desviación estándar al cuadrado de la muestra preliminar nos dará una proyección de la variancia de la población.

Se fija un \(95\%\) de confianza (1.96) y una tolerancia, por ejemplo, de \(1.2*0.1=0.12\) y la variancia es \(s^2\).

xhat <- mean(n1$dap)
# xhat
tol <- xhat*0.1
# tol
N <- nrow(SHI)
n <- qnorm(0.975)^2*sd^2/tol^2
n <- round(n+0.5,0)
n <- n/(1+n/N)
n <- round(n+0.5,0)
cat("Tamaño de muestra ótpimo para DAP:", n, "\n")

Tamaño de muestra ótpimo para DAP: 27

Estimar DAP

n0 <- sample(1:nrow(SHI),n)
muestra <- SHI[n0,]
summary(muestra$dap)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  0.600   0.900   1.000   1.069   1.200   1.700

7.2 Estimar una respuesta cualitativa

El interés pueder ser, conocer el número y las especies que hay en la localidad en base a una muestra.

Utilizando la misma fórmula de tamaño de muestra, se realiza las siguientes aproximaciones:

\(S^2\) aproximado de la variancia poblacional de una proporción entre dos alternativas y la máxima variancia es 0.5*0.5 = 0.25 = p(1-p).

Tol es reemplazada por el margen de error a cometer en la estimación. Si es \(10\%\) significa que la tolerancia es \(0.1\)

\[n = \frac{t_{0.05}^2*S^2}{tol^2}\]

En el caso de población finita (N), se realiza una corrección:

\[n = \frac{n_0}{1+\frac{n_0}{N}}\]

Aplicación en el inventario Isabelita, estimar el número y las especies que existen utilizando una muestra óptima.

n <- qnorm(0.975)^2*0.5^2/0.05^2
N <- nrow(Isabelita)
n <- n/(1+n/N)
n <- round(n+0.5,0)
cat("Tamaño de muestra óptimo para estimar el número de especies:", n, "\n")

Tamaño de muestra óptimo para estimar el número de especies: 359

n0 <- sample(1:N,n)
muestra <- Isabelita[n0,]
table(muestra$especie) -> tabla
cat("Total de especies en la muestra:", length(tabla), "\n")

Total de especies en la muestra: 20

tabla


    ANACASPI AZUCAR HUAYO     CACHIMBO     CAPIRONA      CATAHUA      CATUABA 
          19           13            5            2           14            8 
       CEDRO      COPAIBA    ESTORAQUE     ISHPINGO       ITAUBA       LUPUNA 
           1            6           26           19            9            1 
 PALO BASTON         PONA    PUMAQUIRO QUILLOBORDON     QUINILLA  SHIHUAHUACO 
          15          128            2            4           18           59 
     TAHUARI  YACUSHAPANA 
           5            5