Actualización del paquete R earth (enero de 2021)

Esta es una actualización de la publicación anterior sobre el paquete "earth" R-Language de Stephen Milborrow que se actualizó en septiembre de 2020, junto con varios paquetes asociados. Algunas cosas han cambiado y ahora es bastante fácil obtener todos los gráficos para todas las funciones básicas.

Use los datos de la publicación anterior, que puede descargar de GitHub (no ha cambiado):

https://github.com/wcraytor/MLS_DATA

Lea la publicación anterior para obtener más información sobre el conjunto de datos. Instale y abra R (no use R-Studio). Asegúrese de que estén instalados los siguientes paquetes:

          • Fórmula
          • trama
          • EnseñanzaDemos
          • gam
          • mgcv
          • mda
          • MASA
          • tierra

Luego, asumiendo que ha descargado los datos a su carpeta "c: \ data \", ejecute:

      1.   biblioteca (tierra)
      2.   biblioteca (plotmo)
      3.   MyData = read.csv ("c: \ data \ MyData.csv", encabezado = VERDADERO)
      4.   MyData $ "Filteredaddress" <- NULL # ¡¡Importante!! Esto asegura que la dirección se elimine de la entrada. Deletrea exactamente lo mismo, con el mismo caso.
      5.   x = data.frame (MyData [, 1: (ncol (MyData) -1)])
      6.   y = MyData [, ncol (MyData)]
      7.   b = earth (x, y, nprune = 25) # 25 funciones básicas como máximo
      8.   resumen (b, dígitos = 2, estilo = "pmax")
      9.   plotmo (b) # esto crea la trama

Deberías conseguir:

y = # o el precio de venta
    6.1e + 05 #Valor base de $ 610,000
+ 234 * pmáx (0, 1887 - Edad de venta) 
  - 455 * pmáx (0, Edad de venta - 1887) 

  + 591 * pmáx (0, Edad de venta - 2164)
  - 435 * pmáx (0, Edad de venta - 4498) 
  + 239 * pmáx (0, Edad de venta - 5439)
  + 49318 * pmax (0, AreaID - 652) 
  + 14475 * pmáx (0, 654 - AreaID) 
  - 66058 * pmax (0, AreaID - 654) 
  - 120 * pmax (0, 1450 - LivingSqFt) # o -120 / sf desde la base para GLA por debajo de 1450 sf
  + 148 * pmáx (0, LivingSqFt - 1450) # o $ 148 a la base para GLA> 1450 pies cuadrados
  - 6.9 * pmax (0, 15041 - LotSize) # o - $ 6.90 / sf desde la base para un tamaño de lote menor de 15,041sf 
  + 6.2 * pmax (0, LotSize - 15041) # o $ 6.20 / sf a la base para> 15,041sf
  - 22086 * pmax (0, 2 - Garaje) # $ 22,086 / auto desde la base para garaje para menos de 2 autos
  + 85767 * pmáx (0, garaje - 2) # $ 85,767 a la base para garaje para más de 2 automóviles

Se seleccionaron 15 de 16 términos y 5 de 9 predictores (nprune = 25)
Condición de terminación: alcanzado nk 21
Importancia: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Age-unused,…
Número de términos en cada grado de interacción: 1 14 (modelo aditivo)

GCV 6.1e + 09 RSS 9.4e + 12    GRSq 0.82 RSq 0.83

Nota 1: La gran contribución de valor de $ 85,767 / automóvil para garajes de más de 3 automóviles probablemente sea colineal con la calidad de la construcción, ya que los garajes de más de 3 automóviles están asociados con viviendas de mayor calidad. Por lo tanto, debe tratar de mantener los garajes de 2 y 3 automóviles separados en las composiciones o encontrar una manera de lidiar con los ajustes de condición. Esto puede ser un problema o no, dependiendo de los puntajes residuales y su relación con la calidad real (algo que debe inspeccionar visualmente y decidir).

Nota 2: Variables como AreaID probablemente deberían tratarse como variables categóricas. Y esto se puede hacer con la Tierra.  

EarthPlot-1


Traducir »