Universidade Federal do Ceará

Departamento de Economia Agrícola

Programa de pós-graduação em Economia Rural

Introdução à análise de dados em R

Organizador: Professor Edward Martins Costa

Ministrante: Helson Gomes de Souza

Aula 1

Introdução geral

O que é R?

R é uma linguagem de programação baseada em C++ com foco na manipulação, análise e visualização de dados. A linguagem foi criada em 1993 pelo departamento de Estatística da Universidade de Auckland, Nova Zelândia.

Por que R?

1 - Open source.

2 - Linguagem simples e de fácil compreensão.

3 - Possui uma grande comunidade usuária.

4 - Grande número de blogs, foruns e páginas dedicadas à linguagem R.

5 - Facilidade de encontrar sugestões para perguntas referentes às dificuldades de uso da linguagem.

6 - Múltiplos frames.

7 - Multiplos ambientes de execução.

8 - Visualização fácil.

Por exemplo:

https://cran.r-project.org/

https://journal.r-project.org/

www.jstatsoft.org/index

https://stackoverflow.com/

www.r-bloggers.com/

Instalação

Baixe e instale o R no endereço:https://cran.r-project.org/bin/windows/base/R-4.0.2-win.exe

Instalação do Rstudio

Após ter inslalado o R, baixe e instale o Rstudio em https://rstudio.com/products/rstudio/download/

Plataformas auxiliares

$\Rightarrow$ R notebook

$\Rightarrow$ R markdown

$\Rightarrow$ Shiny

$\Rightarrow$ Rstudio cloud

Apesar da comodidade do Rstudio, o usuário R pode usar outras ferramentas que operam com a linguagem R.

Jupyter notebook $\Rightarrow$ https://jupyter.org/

Anaconda $\Rightarrow$ www.anaconda.com

cocalc $\Rightarrow$ www.cocalc.com

Operações básicas

Operadores lógicos

Algumas funções básicas

Print

Imprime (mostra) um valor ou objeto indicado

Show

Mostra um valor ou objeto indicado (se diferencia do print por retornar também objetos complexos como figuras e funções)

show(objeto)

sprintf

Permite que o usuário printe um objeto em conjunto com um texto.

sprintf(fmt, )

use %i para números inteiros, %f para números racionais e %s para caracteres alfanuméricos

readline

Permite a contrução de um objeto interativo que necessita de uma resposta prévia

Mostra os n primeiros elementos de um objeto

head(objeto, n)

O valor padrão para n é 5

Classes dos dados

É possível trabalhar com cinco classes de dados em R, sendo:

characters: Referente aos caracteres alfanuméricos (letras, palavras, frases, etc);

integers: Referente aos números inteiros (sem separação decimal).OBS: Esta classe vem acompanhada da letra L (ex: 4L);

numerical: Números inteiros e racionais com ou sem separação decimal;

logical: Referentes a noções básicas do próprio R como TRUE e FALSE;

complexes: Corresponde aos números complexos com partes reais e imaginárias (ex: 1+ 4i)

Transformando classes

Estrutura de dados

Homogêneo Heterogêneo
1d Vetor atômico Lista
2d Matriz Data Frame
nd Array

Vetor atômico

É a estrutura básica de dados em R. Nesta estrutura só é possível inserir informações com uma única dimensão. Indicamos que se trata de umvetor atômico quando usamos o seguimento c()

Para checar se um determinado objeto é um vetor atômico use a função is.atomic()

Os vetores podem ser do tipo

doble Possuem duas classes de informações do mesmo tipo (exemplo, números inteiros e racionais)

integer Possuem apenas valores inteiros

character possuem apenas caracteres

Listas

Listas possuem apenas uma dimensão, mas se diferem dos vetores pelo fato de que podem incluir vários tipos, incluindo listas. Usamos a função list() para criar uma lista.

Atributos

Qualquer objeto pode ter um atributo adicional arbitrário. Para isso, utiliza-se a função attr

Atribuindo nomes

Matrizes e arrays

Uma matriz é um caso especial de um array. Assim como o array, a matriz possui duas dimensões - linhas e colunas - Porém, as operações com arrays podem ser diferentes das operações com matrizes

Renomeando linhas e colunas de uma matriz

Operações com matrizes

Adição
Subtração
Multiplicação
Multiplicação por um escalar
Matriz transposta
Matriz inversa
Determinante

Exercício

Uma pesquisa levantou informações sobre a renda e o consumo de 50 famílias.

A renda das famílias é dada pelo comando sample(x = 1500, size = 50, replace = T)

O consumo das famílias é dada pelo comando sample(x = 1350, size = 50, replace = T)

Calcule a propensão marginal a consumir destas famílias utilizando o estimador de mínimos quadrados ordinários no R, fazendo uso apenas das operações com matrizes. OBS: Antes de digitar os comandos no R,utilize o comando set.seed(200) para fixar os valores da amostra.

Data Frames

Tecnicamente, um data frame é uma lista de vetores de tamanhos iguais. Assim como as matrizes e arrays, os data frames possuem duas dimensões (linhas e colunas).

Combinando data frames

Inserindo colunas (variáveis) em um data frame

Inserindo linnhas em um data frame

Deletando colunas em um data frame

Deletando linhas em um data frame

Merging data frames

Quando dois dataframes possui uma coluna de ligação em comum, é possível uní-las utilizando a função merge()

Exercício