# Para exemplificar, vamos instalar a biblioteca carData, que permite que o usuário acesse um conjunto
# diverso de dados.
install.packages("carData")

Installing package into ‘/home/helson/R/x86_64-pc-linux-gnu-library/3.6’
(as ‘lib’ is unspecified)


library(carData)
head(Chile)


library(readr)
despesas_veiculo <- read_fwf("https://trello-attachments.s3.amazonaws.com/5f762ac8ad3ca64b6a8db0a4/5f7a5dfdd62c9a41a4842e3a/0fd57b9c5b06920f6a02f00fb09dc308/T_DESPESA_VEICULO_S.txt",
                            fwf_cols(tipo_registro = c(1, 2), codigo_uf = c(3,4), numero_sequencial = c(5,7),
                                    dv_sequencial = c(8,8), num_domicilio = c(9,10), 
                                     despeza_deflacionado = c(83,98)))
head(despesas_veiculo)

── Column specification ────────────────────────────────────────────────────────
cols(
  tipo_registro = col_double(),
  codigo_uf = col_double(),
  numero_sequencial = col_character(),
  dv_sequencial = col_double(),
  num_domicilio = col_character(),
  despeza_deflacionado = col_character()
)


dados <- read.csv("http://dados.al.gov.br/dataset/1870ba20-2c86-4c97-ab39-cf1bc0aebc61/resource/a766e1b6-1f06-4bc6-ad9e-9a78bea9c756/download/estadiosdefutebol.csv", sep = ",")
head(dados)


library(readxl)
dt <- read_xls("~/trabalhos/CURSO_R_PPGER/Aula2/whostat2005_mortality.xls", skip = 1, col_names= T)
head(dt)

New names:
* `` -> ...3
* `` -> ...5
* `` -> ...7
* `` -> ...9
* `` -> ...11


# Renomeando as colunas com letras do alfabeto
names(dt) <- letters[1:length(dt)]
head(dt)


dt <- read_xls("~/trabalhos/CURSO_R_PPGER/Aula2/whostat2005_mortality.xls", range = "C20:D50", col_names = F)
head(dt)

New names:
* `` -> ...1
* `` -> ...2


dt1 <- read_excel("~/Documentos/repositorios/ds-py-public/data/pesquisa_familiar.xlsx")
head(dt1)


library(openxlsx)
dt1 <- read.xlsx("~/Documentos/repositorios/ds-py-public/data/pesquisa_familiar.xlsx")
head(dt1)


install.packages("readODS")
library(readODS)

Installing package into ‘/home/helson/R/x86_64-pc-linux-gnu-library/3.6’
(as ‘lib’ is unspecified)


exemplo <- read_ods("exemplo.ods")
head(exemplo)


install.packages("rgdal")
library(rgdal)

Loading required package: sp

rgdal: version: 1.5-16, (SVN revision 1050)
Geospatial Data Abstraction Library extensions to R successfully loaded
Loaded GDAL runtime: GDAL 3.0.4, released 2020/01/28
Path to GDAL shared files: /usr/share/gdal
GDAL binary built with GEOS: TRUE 
Loaded PROJ runtime: Rel. 6.3.1, February 10th, 2020, [PJ_VERSION: 631]
Path to PROJ shared files: /usr/share/proj
Linking to sp version:1.3-2
To mute warnings of possible GDAL/OSR exportToProj4() degradation,
use options("rgdal_show_exportToProj4_warnings"="none") before loading rgdal.


shape <- readOGR("/media/helson/DOCUMENTOS/shapefiles/BR_MUN1997_NE_region.shp")

Warning message in OGRSpatialRef(dsn, layer, morphFromESRI = morphFromESRI, dumpSRS = dumpSRS, :
“Discarded ellps South_American_1969 in CRS definition: +proj=longlat +a=6378160 +rf=298.249997276159 +no_defs”
Warning message in OGRSpatialRef(dsn, layer, morphFromESRI = morphFromESRI, dumpSRS = dumpSRS, :
“Discarded datum D_SA1969 in CRS definition: +proj=longlat +a=6378160 +rf=298.249997276159 +no_defs”
Warning message in showSRID(wkt2, "PROJ"):
“Discarded ellps South_American_1969 in CRS definition: +proj=longlat +a=6378160 +rf=298.249997276159 +no_defs”
Warning message in showSRID(wkt2, "PROJ"):
“Discarded datum D_SA1969 in CRS definition”

OGR data source with driver: ESRI Shapefile 
Source: "/media/helson/DOCUMENTOS/shapefiles/BR_MUN1997_NE_region.shp", layer: "BR_MUN1997_NE_region"
with 1787 features
It has 21 fields


install.packages('rjson')
library(rjson)

Installing package into ‘/home/helson/R/x86_64-pc-linux-gnu-library/3.6’
(as ‘lib’ is unspecified)


df <- fromJSON(file = "example1.json")
df


df <- as.data.frame(df)
df


install.packages("XML")
library(XML)


# Tendo instalado a biblioteca, usaremos a função xmlParse para importar os dados para o R
emprego <- xmlParse(file = "~/trabalhos/CURSO_R_PPGER/Aula2/emprego.xml")
# Em seguida, utilizaremos a função xmlToDataFrame para transformar os dados importados em um data frame.
tst <- xmlToDataFrame(emprego)
tst


install.packages("sparklyr")
library(sparklyr)


# Inicialmente é necessário criar uma conexão entre o R e o disco de armazenamento do dispositivo
# É preciso ter o java 8 instalado
sc <- spark_connect(master = "local")


dados <- carData::Migration
head(dados)


# Selecionando apenas as colunas source e pops66
dados1 <- subset(dados, select = c(source, pops66))
head(dados1)


# Excluindo apenas as colunas source e pops66
dados1 <- subset(dados, select = - c(source, pops66))
head(dados1)


# Suponha que queremos analisar a migração apenas para as cidades com mais de 1.000.000 de habitantes em 1971
dados1 <- subset(dados, popd71 > 1000000)
head(dados1)


install.package("plyr")
library(plyr)


# Para demonstrar vamos criar um banco de dados chamado d
d <- data.frame(year = rep(2000:2002, each = 3),count = round(runif(9, 0, 20)))
d


ddply(d, "year", summarise, total.count = sum(count))


ddply(d, "year", transform, total.count = sum(count))
# obs: c("year", "outra variavel") para agrupar por mais de uma variável


df <- data.frame(sexo = rbinom(50, 1, .4), idade = round(runif(50, 15, 80)), salario = round(runif(50, 750, 3500),2),
                ID = 1:50)
df1 <- data.frame(escolaridade = round(runif(80, 0, 10)),
                ID = 80:1)


# Podemos usar a função *join* para unir df e df1 de acordo com a variável ID
join(x = df, y = df1, type = "left", match = "all")

Joining by: ID


# Quem ganha mais, homens ou mulheres?


# Instalando as bibliotecas
install.packages("dplyr")
install.packages("tidyr")
# Ou, alternativamente,
install.packages("tidyverse")


# Liberando as bibliotecas
library(dplyr)
library(tidyr)
# Ou, alternativamente,
#library(tidyverse)

Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union


dados <- carData::Migration
head(dados)


# Primeira maneira
dados <- dados %>% mutate(pop_adicional = popd71 - popd66, taxa_cres6671 = pop_adicional/popd66)
head(dados)


# Criando uma variável binária com valor 1 caso a província de destino seja "NFLD" e zero caso contrário
dados <- dados %>% 
mutate(NFLD = ifelse(destination == "NFLD", 1, 0))
head(dados)


# 1. Preservando todas as informações da tabela (função mutate)
df <- dados %>% group_by(destination) %>% mutate(media_migrantes = mean(migrants))
head(df)


# 2. Deixando apenas as informações desejadas (função summarise)
dados %>% group_by(destination) %>% summarise(media_migrantes = mean(migrants))

`summarise()` ungrouping output (override with `.groups` argument)


dados %>% mutate_all(mean)


dados %>% mutate_at(vars(migrants, distance), funs(mean, sd))


df <- dados %>% filter(popd71>1000000)
head(df)
# Busque como se faz para filtrar linhas usando múltiplos filtros


df <- dados %>% select(source, destination, migrants)
head(df)


df <- dados %>% select(-source, -destination, -migrants)
head(df)


library("IRdisplay")
display_png(file="joins.png", width = 500)


df1 = data.frame(id = 1:10, v1 = rnorm(10, 5, 2))
df2 = data.frame(id = 12:1, v2 = rnorm(12, 30, 60))


anti_join(df1, df2, by = "id")


anti_join(df2, df1, by = "id")


left_join(df1, df2, by="id")


right_join(df1, df2, by="id")


inner_join(df1, df2, by="id")


full_join(df1, df2, by="id")


df <- data.frame(id = 1:10, jan2020 = rnorm(10, 0, 1), fev2020 = rnorm(10, 0, 2), 
                 mar2020 = rnorm(10, 0, 3), abr2020 = rnorm(10, 0, 5), mai2020 = rnorm(10, 0, 4))
df


df1 <-  gather(df, key = "tempo", value = "nova_variavel", -id)
head(df1)


df2 <- spread(df1, tempo, -id)
head(df2)


df = data.frame(v1 = c("São Luis-MA", "Teresina", "Fortaleza-CE", "Natal-RN", "João Pessoa-PB",
                      "Recife-PE", "Maceió-AL", "Aracaju-SE", "Salvador-BA"), CODUF = 21:29)
df


df <- df %>% separate(v1, into = c("Capital", "Estado"), sep = "-")
df

Warning message:
“Expected 2 pieces. Missing pieces filled with `NA` in 1 rows [2].”


#instale o pacote
install.packages("lubridate")


library(lubridate)

Attaching package: ‘lubridate’


The following objects are masked from ‘package:base’:

    date, intersect, setdiff, union


data <- "20/10/2020"
data <- as_date(data)
class(data)

Warning message:
“All formats failed to parse. No formats found.”


dmy("22051991")


dmy("22/05/1991")


dmy_hms("22/05/1991-20:35:00")

[1] "1991-05-22 20:35:00 UTC"


second(dmy_hms("22/05/1991-20:35:00"))


mday(dmy_hms("22/05/1991-20:35:00"))


month(dmy_hms("22/05/1991-20:35:00"))


today()


now()

[1] "2020-10-10 18:40:47 -03"


int <-dmy("01-01-2020") %--% dmy("31-10-2020")


int/ddays() # checando a quantidade de dias no intervalo de tempo


int/dminutes() # checando a quantidade de minutos no intervalo de tempo


int/dhours() # checando a quantidade de horas no intervalo de tempo


int/seconds() # checando a quantidade de segundos no intervalo de tempo


# Instalando a biblioteca
install.packages("stringr")


# Liberando a biblioteca
library(stringr)


str_length("Programa de Pós-Graduação em Economia Rural")


str_to_upper("Programa de Pós-Graduação em Economia Rural")


str_to_lower("Programa de Pós-Graduação em Economia Rural")


str_trim("Programa de Pós-Graduação em Economia Rural           ")


s <- c("01-Feminino", "02-Masculino", "03-Indefinido")
str_sub(s, start = 4) # obter do quarto até o último caractere


# Imagine que você precisa extrair apenas os dois últimos caracteres de uma string
str_sub(c("Fortaleza-CE", "Natal-RN", "Recife-PE"))


# Em outros casos, o usuário pode querer obter apenas os caracteres em uma posição específica da string
str_sub("--CE--", 3, 4)


str_c("Fortaleza", "-", "CE")


str_detect("Programa de Pós-Graduação em Economia Rural", pattern = "Rural")


str_detect("Programa de Pós-Graduação em Economia Rural", pattern = "^Rural") 
# reconhece apenas o que começa exatamente em "Rural"


str_detect("Programa de Pós-Graduação em Economia Rural", pattern = "Economia?Rural") 
# reconhece tudo que tenha “Economia Rural”, com ou sem espaço antes entre o "a" e o "R"


str_detect("Programa de Pós-Graduação em Economia Rural", pattern = "Rural$") 
# reconhece apenas o que termina exatamente em "Rural"


capitais <- c("São Luis-MA", "Teresina-PI", "Fortaleza-PE")
str_replace(capitais, "Fortaleza-PE","Fortaleza-CE")


string <- "Hoje o dia está ensolarado. Porám, não irei para a praia."
str_split(string, fixed('.'))


strings <- c("Capital do Ceará", "Capital de Pernambuco", "Distrito Federal")
str_subset(strings, 'Capital')

	region	population	sex	age	education	income	statusquo	vote
	<fct>	<int>	<fct>	<int>	<fct>	<int>	<dbl>	<fct>
1	N	175000	M	65	P	35000	1.00820	Y
2	N	175000	M	29	PS	7500	-1.29617	N
3	N	175000	F	38	P	15000	1.23072	Y
4	N	175000	F	49	P	35000	-1.03163	N
5	N	175000	F	23	S	35000	-1.10496	N
6	N	175000	F	28	P	7500	-1.04685	N

tipo_registro	codigo_uf	numero_sequencial	dv_sequencial	num_domicilio	despeza_deflacionado
<dbl>	<dbl>	<chr>	<dbl>	<chr>	<chr>
13	11	001	9	01	0000000083512.16
13	11	001	9	01	0000000077438.54
13	11	001	9	04	0000000021088.93
13	11	001	9	05	0000001623847.48
13	11	001	9	05	0000000105444.64
13	11	002	7	03	0000001964270.03

	Name	Cidade	Propriedade	Capacidade	Obs.	Longitude	Latitude
	<fct>	<fct>	<fct>	<fct>	<fct>	<dbl>	<dbl>
1	Estádio José Gomes da Costa	Murici	Particular	3.000 Pessoas	Atende ao Murici Futebol Clube	-35.94412	-9.312147
2	Estádio Olival Elias de Moraes	Boca da Mata	Particular	2.500 pessoas		-36.21095	-9.643294
3	Estádio Edson Matias	Olho D'Agua das Flores	Particular	3.000 Pessoas		-37.29390	-9.530301
4	Estádio Alfredo Leahy	Penedo	Municipal	2.000 pessoas.		-36.57129	-10.285275
5	Estádio Adalberto Cavalcante	Porto Real do Colégio		2.000 Pessoas	Também conhecido como"a toca do jacaré"	-36.83224	-10.188196
6	Estádio Governador Arnon de Mello	Santana de Ipanema	Ipanema Atlético Clube	3.000 pessoas		-37.25031	-9.364155

Country	WHO region	...3	Life expectancy	...5	Healthy life expectancy (HALE)	...7	Probability of dying per 1000 population	...9	Probability of dying per 1000 live births	...11	Maternal
<chr>	<chr>	<lgl>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>	<chr>
NA	NA	NA	Male	female	Male	female	Male	female	Male	female	NA
Afghanistan	EMR	NA	41	42	35.299999999999997	35.799999999999997	510	NA	257	60	1900
Albania	EUR	NA	69	75	59.5	63.299999999999997	167	448	21	12	55
Algeria	AFR	NA	69	72	59.700000000000003	61.600000000000001	155	92	41	20	140
Andorra	EUR	NA	78	84	69.799999999999997	74.599999999999994	107	125	5	4	...
Angola	AFR	NA	38	42	31.600000000000001	35.100000000000001	584	41	260	54	1700

a	b	c	d	e	f	g	h	i	j	k	l	m	n
<dbl>	<lgl>	<chr>	<chr>	<lgl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<dbl>	<chr>
1	NA	Afghanistan	EMR	NA	41	42	35.3	35.8	510	448	257	60	1900
2	NA	Albania	EUR	NA	69	75	59.5	63.3	167	92	21	12	55
3	NA	Algeria	AFR	NA	69	72	59.7	61.6	155	125	41	20	140
4	NA	Andorra	EUR	NA	78	84	69.8	74.6	107	41	5	4	...
5	NA	Angola	AFR	NA	38	42	31.6	35.1	584	488	260	54	1700
6	NA	Antigua and Barbuda	AMR	NA	70	75	60.1	63.6	193	122	12	8	...

	source	pops66
	<fct>	<int>
1	PEI	108535
2	NS	756039
3	NB	616788
4	QUE	5780845
5	ONT	6960870
6	MAN	963066

year	count
<int>	<dbl>
2000	12
2000	15
2000	10
2001	3
2001	7
2001	13
2002	5
2002	12
2002	20

destination	media_migrantes
<fct>	<dbl>
ALTA	13905.0000
BC	21236.1111
MAN	6266.1111
NB	4076.6667
NFLD	1496.1111
NS	5098.3333
ONT	26621.1111
PEI	938.8889
QUE	8631.6667
SASK	4003.3333

id	v2
<int>	<dbl>
11	18.276553
11	66.688847
11	60.117731
11	95.979119
11	106.518942
11	-2.430858

v1	CODUF
<fct>	<int>
São Luis-MA	21
Teresina	22
Fortaleza-CE	23
Natal-RN	24
João Pessoa-PB	25
Recife-PE	26
Maceió-AL	27
Aracaju-SE	28
Salvador-BA	29

A tibble: 6 × 9
ano	id_dom	individuo	sexo	idade	anos_estudo	renda_trabalho	consumo_vite	obeso
<dbl>	<dbl>	<dbl>	<chr>	<dbl>	<dbl>	<dbl>	<dbl>	<chr>
2014	1	2	M	35	3	724	6.88	F
2014	5	2	F	21	0	790	9.60	F
2014	3	1	F	32	5	1200	8.69	T
2014	6	2	F	52	7	1800	10.78	T
2014	7	1	M	27	7	1800	12.14	T
2014	1	1	F	52	11	2400	5.53	F

A data.frame: 6 × 9
	ano	id_dom	individuo	sexo	idade	anos_estudo	renda_trabalho	consumo_vite	obeso
	<dbl>	<dbl>	<dbl>	<chr>	<dbl>	<dbl>	<dbl>	<dbl>	<chr>
1	2014	1	2	M	35	3	724	6.88	F
2	2014	5	2	F	21	0	790	9.60	F
3	2014	3	1	F	32	5	1200	8.69	T
4	2014	6	2	F	52	7	1800	10.78	T
5	2014	7	1	M	27	7	1800	12.14	T
6	2014	1	1	F	52	11	2400	5.53	F

A data.frame: 6 × 4
	data	v1	v2	v3
	<chr>	<dbl>	<dbl>	<dbl>
1	01/01/19	0.1	5	-0.3
2	01/02/19	0.7	2	-0.5
3	01/03/19	0.9	4	0.0
4	01/04/19	1.1	7	0.2
5	01/05/19	1.7	6	0.7
6	01/06/19	1.9	3	0.5

A data.frame: 5 × 2
Idade	Escolaridade
<fct>	<fct>
20	7
25	5
30	6
40	7
50	4

Universidade Federal do Ceará¶

Departamento de Economia Agrícola¶

Programa de pós-graduação em Economia Rural¶

Introdução à análise de dados em R¶

Organizador: Professor Edward Martins Costa¶

Ministrante: Helson Gomes de Souza¶

Aula 2¶

Manipulação de dados¶

Instalando bibliotecas¶

Liberando bibliotecas¶

1. Importação de dados¶

1.1 Importando dados com coluna fixa¶

1.2 Importando dados em formato .csv¶

O R disponibiliza uma função nativa para importação de dados em formato .csv¶

1.3 Importando dados em formato .xls¶

1.4 Importando dados no formato .xlsx¶

1.5 Importando arquivos no formato .ods¶

1.6 Lendo arquivos no formato .shp¶

1.7 Importando dados no formato .json¶

1.8 Importando dados no formato .xml¶

2. Usando o Sparklyr¶

2.1 Dasos em formato .csv¶

2.2 Dados em formato .json¶

3. Variáveis e subseting¶

3.1 Usando a função subset para selecionar colunas¶

3.2 Usando a função subset para filtrar os valores de uma coluna¶

4. Manipulação de dados com plyr¶

4.1 summarise¶

4.2 transform¶

4.3 mutate¶

4.4 Unindo duas bases de dados de acordo com um código de ligação¶

5. Dplyr e Tidyr¶

5.1 Função pip¶

5.2 Criando variáveis com a função mutate¶

5.2.1 Criando uma variável condicional¶

5.3 Criando variáveis a partir de um agrupamento¶

5.4 Filtrando linhas em um data frame¶

5.5 Selecionando colunas em um data frame¶

5.6 Unindo data frames¶

5.7 Transformando dados estendidos em dados empilhados¶

5.8 Transformando dados empilhados em estendidos¶

5.9 Transformando uma coluna em duas com base em um separador comum¶

6. Lubridate¶

6.1 Intervalos¶

7. Stringr¶

7.1 Verificando a quantidade de caracteres em um objeto string¶

7.2 Transformando caracteres minúsculos em maiúsculos¶

7.3 Transformando caracteres maiúsculos em minúsculos¶

7.4 Removendo os espaços excedentes antes e depois da string¶

7.5 Obtendo uma parte fixa de uma string¶

7.6 Concatenando duas strings¶

7.7 Checando a presença de um character em um texto¶

7.7.1 Algumas variações¶

7.8 Substituindo um padrão específico por outro padrão¶

7.9 Separando uma string em várias partes de acordo com um separador comum¶

7.10 Selecionando apenas as strings que contém um caracter em específico¶

8. Exercícios¶

1 - strings¶

2 - Lubridate¶

3 - Dplyr e tidyr¶