Neste artigo vamos ver como utilizar funções de agregação e fazer cálculos sobre sequência de valores, como média, soma, etc.

Revisando Vetores

A gente viu no artigo anterior que é possível criar objetos do tipo vetores que armazenam sequências de dados. Essas sequências podem depois ser utilizadas para criar uma tabela ou Data Frame. Para criar um vetor, basta utilizar a função c():

> vetor = c(1, 2, 3, 4, 5)

Funções de Agregação

A grande vantagem de se utilizar vetores é que você pode fazer cálculos que agregam os dados em um único número. Por exemplo, utilizando a função sum() é possível calcular a soma dos valores:

> sum(vetor)
[1] 15

Outras funções importantes podem ser utilizadas como mean() para calcular a média e length() para calcular o tamanho do vetor, ou seja, quantos números existem nele:

> mean(vetor)
[1] 3

> length(vetor)
[1] 5

Funções estatísticas estão também disponíveis como median() para calcular a mediana dos valores e sd() (standard deviation) para calcular o desvio padrão amostral:

> median(vetor)
[1] 3

> sd(vetor)
[1] 1.581139

Finalmente, dentre as funções agregadoras mais importantes temos a que calcula os percentis. Nessa você pode especificar um único percentil ou vários utilizando a função c(). Para isso, vamos criar um novo vetor com mais dados para exemplificação:

> vetor2 = c(1, 2, 3, 4, 5, 6, 7, 8, 9)
> quantile(vetor2, 0.25) # Retorna o percentil 25%
`25%`
  3

> quantile(vetor2, c(0.25, 0.75)) # Retorna os percentis 25% e 75%
`25% 75%`
  3   7

Operações com escalares

É possível também aplicar operações entre vetores e escalares. Vamos supor que você queira multiplicar cada elemento de um vetor por 2, isso é feito da seguinte forma simples:

> vetor = c(1, 2, 3, 4, 5)
> vetor_vezes_2 = vetor * 2
> vetor_vezes_2
[1]  2  4  6  8 10

Esse método funciona para todas as outras operações matemáticas também. É importante mencionar que todas as operações que funcionam aqui para vetores também funcionam para colunas do Data Frame, conforme exemplo abaixo:

> df = data.frame(vetor)
> df$vetor_vezes_2 = df$vetor * 2
> df
  vetor vetor_vezes_2
1     1             2
2     2             4
3     3             6
4     4             8
5     5            10

Veja que no código acima criamos um data frame df baseado em vetor. Em seguida, criamos uma nova coluna df$vetor_vezes_2 e aplicamos o cálculo de multiplicar a coluna vetor por 2.

No próximo artigo vamos ver como trabalhar com operadores lógicos para filtrar vetores e data frames.