Esta es una actualización de la publicación anterior sobre el paquete "earth" R-Language de Stephen Milborrow que se actualizó en septiembre de 2020, junto con varios paquetes asociados. Algunas cosas han cambiado y ahora es bastante fácil obtener todos los gráficos para todas las funciones básicas.
Use los datos de la publicación anterior, que puede descargar de GitHub (no ha cambiado):
https://github.com/wcraytor/MLS_DATA
Lea la publicación anterior para obtener más información sobre el conjunto de datos. Instale y abra R (no use R-Studio). Asegúrese de que estén instalados los siguientes paquetes:
- Fórmula
- trama
- EnseñanzaDemos
- gam
- mgcv
- mda
- MASA
- tierra
Luego, asumiendo que ha descargado los datos a su carpeta "c: \ data \", ejecute:
- biblioteca (tierra)
- biblioteca (plotmo)
- MyData = read.csv ("c: \ data \ MyData.csv", encabezado = VERDADERO)
- MyData $ "Filteredaddress" <- NULL # ¡¡Importante!! Esto asegura que la dirección se elimine de la entrada. Deletrea exactamente lo mismo, con el mismo caso.
- x = data.frame (MyData [, 1: (ncol (MyData) -1)])
- y = MyData [, ncol (MyData)]
- b = earth (x, y, nprune = 25) # 25 funciones básicas como máximo
- resumen (b, dígitos = 2, estilo = "pmax")
- plotmo (b) # esto crea la trama
Deberías conseguir:
y = # o el precio de venta
6.1e + 05 #Valor base de $ 610,000
+ 234 * pmáx (0, 1887 - Edad de venta)
- 455 * pmáx (0, Edad de venta - 1887)
+ 591 * pmáx (0, Edad de venta - 2164)
- 435 * pmáx (0, Edad de venta - 4498)
+ 239 * pmáx (0, Edad de venta - 5439)
+ 49318 * pmax (0, AreaID - 652)
+ 14475 * pmáx (0, 654 - AreaID)
- 66058 * pmax (0, AreaID - 654)
- 120 * pmax (0, 1450 - LivingSqFt) # o -120 / sf desde la base para GLA por debajo de 1450 sf
+ 148 * pmáx (0, LivingSqFt - 1450) # o $ 148 a la base para GLA> 1450 pies cuadrados
- 6.9 * pmax (0, 15041 - LotSize) # o - $ 6.90 / sf desde la base para un tamaño de lote menor de 15,041sf
+ 6.2 * pmax (0, LotSize - 15041) # o $ 6.20 / sf a la base para> 15,041sf
- 22086 * pmax (0, 2 - Garaje) # $ 22,086 / auto desde la base para garaje para menos de 2 autos
+ 85767 * pmáx (0, garaje - 2) # $ 85,767 a la base para garaje para más de 2 automóviles
Se seleccionaron 15 de 16 términos y 5 de 9 predictores (nprune = 25)
Condición de terminación: alcanzado nk 21
Importancia: SaleAge, LivingSqFt, LotSize, AreaID, Garage, Age-unused,…
Número de términos en cada grado de interacción: 1 14 (modelo aditivo)
GCV 6.1e + 09 RSS 9.4e + 12 GRSq 0.82 RSq 0.83
Nota 2: Variables como AreaID probablemente deberían tratarse como variables categóricas. Y esto se puede hacer con la Tierra.