Neste artigo vamos ver como utilizar funções de agregação e fazer cálculos sobre sequência de valores, como média, soma, etc.
Revisando Vetores
A gente viu no artigo anterior que é possível criar objetos do tipo vetores que armazenam sequências de dados. Essas sequências podem depois ser utilizadas para criar uma tabela ou Data Frame. Para criar um vetor, basta utilizar a função c()
:
> vetor = c(1, 2, 3, 4, 5)
Funções de Agregação
A grande vantagem de se utilizar vetores é que você pode fazer cálculos que agregam os dados em um único número. Por exemplo, utilizando a função sum()
é possível calcular a soma dos valores:
> sum(vetor)
[1] 15
Outras funções importantes podem ser utilizadas como mean()
para calcular a média e length()
para calcular o tamanho do vetor, ou seja, quantos números existem nele:
> mean(vetor)
[1] 3
> length(vetor)
[1] 5
Funções estatísticas estão também disponíveis como median()
para calcular a mediana dos valores e sd()
(standard deviation) para calcular o desvio padrão amostral:
> median(vetor)
[1] 3
> sd(vetor)
[1] 1.581139
Finalmente, dentre as funções agregadoras mais importantes temos a que calcula os percentis. Nessa você pode especificar um único percentil ou vários utilizando a função c()
. Para isso, vamos criar um novo vetor com mais dados para exemplificação:
> vetor2 = c(1, 2, 3, 4, 5, 6, 7, 8, 9)
> quantile(vetor2, 0.25) # Retorna o percentil 25%
`25%`
3
> quantile(vetor2, c(0.25, 0.75)) # Retorna os percentis 25% e 75%
`25% 75%`
3 7
Operações com escalares
É possível também aplicar operações entre vetores e escalares. Vamos supor que você queira multiplicar cada elemento de um vetor por 2, isso é feito da seguinte forma simples:
> vetor = c(1, 2, 3, 4, 5)
> vetor_vezes_2 = vetor * 2
> vetor_vezes_2
[1] 2 4 6 8 10
Esse método funciona para todas as outras operações matemáticas também. É importante mencionar que todas as operações que funcionam aqui para vetores também funcionam para colunas do Data Frame, conforme exemplo abaixo:
> df = data.frame(vetor)
> df$vetor_vezes_2 = df$vetor * 2
> df
vetor vetor_vezes_2
1 1 2
2 2 4
3 3 6
4 4 8
5 5 10
Veja que no código acima criamos um data frame df
baseado em vetor
. Em seguida, criamos uma nova coluna df$vetor_vezes_2
e aplicamos o cálculo de multiplicar a coluna vetor por 2.
No próximo artigo vamos ver como trabalhar com operadores lógicos para filtrar vetores e data frames.