Análisis realizado en RStudio
Gráficos básicos de la base de datos Adultos
De las personas encuestadas se puede ver que la edad promedio es de 39 años (28 - 48) siendo su mayoría personas menores de 50 años y siendo residentes de Estados Unidos los cuales tiene al menos 10 anos de educación y presentando la mayoría un nivel educativo HS-grad. Las ocupaciones mas utilizadas por los encuestados son reparación artesanal, Ejecutivo-gerencial, Prof-especialidad y Ventas, pertenecientes al área privada.
La mayoría de las personas encuestados fueron hombres de raza blanca con un ingreso menos a los 50k.
En los gráficos observados que de los encuestados la mayoría están casados por el civil siendo los encuestados los esposos y tiene una ganancia promedia de 1079 con una perdida promedia de 87.5 con un promedia de 41 (40 - 45) horas de trabajo.
Código
library(ggplot2)
library(plyr)
library(ROCR)
library(corrplot)
library(caret)
library(rworldmap)
library(data.table)
# Análisis exploratorio
#con parámetros gráficos
par(mfrow=c(3,5))
par(mfrow=c(2,3))
# 1 Gráficos
# g8 Barras para Estado civil
tdatosec<-prop.table(table(baseA$Ecivil))*100
tdatosec
g8=barplot(tdatosec,las=2,main='Estado Civil',cex.main=1.5,cex.axis=1,cex.names=0.4,col=rainbow(7))
# g3 Histograma para Muestra
g3=hist(x=baseA$Muestra,las=2,xmuestra='Muestra',main='Muestra',cex.main=1.5,cex.axis=1,col=rainbow(9))
# g6 Barras para Relaciones
tdatosr<-prop.table(table(baseA$Estatus))*100
tdatosr
g6=barplot(tdatosr,las=2,main='Relaciones',cex.main=1.5,cex.axis=1,cex.names=0.9,col=rainbow(6))
# g11 Histograma para Ganancias
hist(x=baseA$Ganancias,las=2,xgan='Ganancias',main='Ganancias',
cex.main=1.5,cex.axis=1,col=rainbow(16))
# g12 Histograma para Pérdidas
hist(x=baseA$Perdidas,las=2,xper='Perdidas',main='Pérdidas',
cex.main=1.5,cex.axis=1,col=rainbow(16))
# g14 Histograma para Horas trabajo
hist(x=baseA$MediaH,las=2,xmediash='MediaH',adj=1,main='Horas ',cex.main=1.5,cex.axis=1,col=rainbow(16))
par(mfrow=c(1,3))
# g7 Pastel para Sexo
tdatoss<-prop.table(table(baseA$Sexo))*100
pct=round(tdatoss,digits=0)
pct
lbls=paste(pct,'%',sep='')
color<-c('red','blue')
pie(x=pct,main='Sexo',cex.main=1.5,line=0.25,labels=lbls,cex=1,
col=color)
legend('topright',c('Female','Male'),cex=0.9,fill=color)
# g9 Barras para Raza
tdatosra<-prop.table(table(baseA$Raza))*100
pct=round(tdatosra,digits=0)
pct
lbls=paste(pct,'%',sep='')
color<-c('red','blue','darkred','chartreuse','mediumvioletred')
pie(x=pct,main='Raza',cex.main=1.5,line=0.25,labels=lbls,cex=1,
col=color)
legend('topright',c('Amer-Indian-Eskimo','Asian-Pac-Islander','Black','Other','White'),cex=0.6,fill=color)
# g15 Pastel para Ingreso
tdatosi<-prop.table(table(baseA$RangoI))*100
pcti=round(tdatosi,digits=0)
pcti
lblsi=paste(pcti,'%',sep='')
color<-c('turquoise','salmon')
pie(x=pcti,main='Ingreso',cex.main=1.5,line=1,labels=lblsi,cex=1,
col=color)
legend('topright',c('<=50K','>50K'),cex=0.9,fill=color)
par(mfrow=c(2,3))
# g1 Histograma para Edad
par(mar=rep(2,4))
hist(x=baseA$Edad,las=2,xedad='Edad',main='Edad',cex.main=1.5,cex.axis=1,col=rainbow(14))
# g2 Barras para Clase
tdatosc<-prop.table(table(baseA$Clase))*100
tdatosc
g2=barplot(tdatosc,las=2,main='Clase',cex.main=1.5,cex.axis=1,cex.names=0.4,col=rainbow(9))
# g5 Histograma para Número de años de educación
hist(x=baseA$NumE,las=2,xnumE='Años Edu.',main='Años Edu.',cex.main=1.5,cex.axis=1,col=rainbow(16))
# g10 Barras para Ocupación
tdatoso<-prop.table(table(baseA$Ocupacion))*100
tdatoso
g10=barplot(tdatoso,las=2,main='Ocupación',cex.main=1.5,cex.axis=1,
cex.names=0.4,col=rainbow(15))
# g13 Barras para País
tdatosp<-prop.table(table(baseA$Pais))*100
tdatosp
g13=barplot(tdatosp,las=2,main='País',adj=1,cex.main=1.5,cex.axis=1,cex.names=0.4,col=rainbow(34))
# g4 Barras para Nivel educativo
tdatosne<-prop.table(table(baseA$NivelE))*100
tdatosne
g4=barplot(tdatosne,las=2,main='Nivel Est.',cex.main=1.5,cex.axis=1,cex.names=0.4,col=rainbow(17))
Opmerkingen