Load packages

#Load-packages

Leitura de arquivos

#Leitura-de-arquivos

Para ler arquivos, no tidyverse, usamos o comando read_csv(). No pacote base, a função é read.csv().

Vamos comparar a velocidade e diferenças entre as duas.

Loading output library...
Loading output library...
Loading output library...
Loading output library...

NYC flights 2013

#NYC-flights-2013

Na aula de hoje, vamos usar dados de voos de 2013.

Arquivos existem em vários formatos e extensões. Vamos importar arquivos nos formatos:

  • csv
  • tsv
  • xlsx
  • com um delimitador específico
Loading output library...
Loading output library...
Loading output library...
Loading output library...

Análise exploratória

#Análise-exploratória
Loading output library...
Loading output library...
Loading output library...
Loading output library...

Dplyr

#Dplyr

Funções apresentadas:

  • filter()
  • arrange()
  • select()
  • mutate()
  • summarise() & group_by()

Filtre linhas com filter()

#Filtre-linhas-com-
Loading output library...
Loading output library...

Encontre o número de voos que:

  • Tiveram um atraso de chegada de duas ou mais horas
Loading output library...
Loading output library...
  • Voaram para IAH
Loading output library...
Loading output library...

2b. Voaram para IAH ou HOU

Loading output library...
  • Foram operados pela United, American ou Delta (UA, AA ou DL)
Loading output library...
Loading output library...
  • Partiram no verão (julho, agosto e setembro)

  • Chegou mais de duas horas atrasados, mas não sairam tarde

  • Partiram entre a meia-noite e as 6h (inclusive)
Loading output library...

Ordene as linhas com arrange()

#Ordene-as-linhas-com-
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
  • Como você poderia usar o arrange() para colocar todos os valores faltandes de dep_delay no início? (Dica: use is.na ()).
Loading output library...
  • Classifique os voos para encontrar os voos que chegaram mais atrasados. Encontre os voos que saíram mais cedo.
Loading output library...
  • Quais voos viajaram mais tempo? Qual viajou menos tempo?
Loading output library...
Loading output library...

Selecione colunas com select()

#Selecione-colunas-com-
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
  • Encontre formas de selecionar dep_time, dep_delay, arr_time e arr_delay.
Loading output library...
Loading output library...
Loading output library...
  • O que acontece se incluir múltiplas vezes a mesma variável na chamada da função select()?
Loading output library...
  • O resultado da chamada abaixo vai contra sua intuição? O que fazer para se comportar como o esperado?
1
select(flights, contains("TIME")) 
Loading output library...

Adicione variáveis com mutate()

#Adicione-variáveis-com-
Loading output library...
Loading output library...
  • Crie a coluna speed (lembre que air_time está em minutos)
Loading output library...
  • Crie a coluna gain, que resulta da diferença entre dep_delay e arr_delay
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
  • Encontre a media de tempo de voo por mes
Loading output library...

Tidyr

#Tidyr

Conceito de "tidy data":

  • Cada variável em uma coluna
  • Cada observação em uma linha
  • Um valor em cada célula

Funções apresentadas:

  • spread()
  • gather()
Loading output library...

gather()

#gather()
Loading output library...
Loading output library...
Loading output library...

spread()

#spread()
Loading output library...
Loading output library...
Loading output library...