Desagrupados dados são aqueles que, obtido a partir de um estudo, no entanto, não são organizadas por classe. Quando é um número gerenciável de dados, geralmente 20 ou menos, e há poucos dados diferentes, eles podem ser tratados como informações não agrupadas e extraídas.
Os dados não agrupados são provenientes da pesquisa ou estudo realizado para obtê-los e, portanto, carecem de processamento. Vamos ver alguns exemplos:
Resultados de um teste de QI realizado em 20 estudantes aleatórios de uma universidade. Os dados obtidos foram os seguintes:
119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124, 112, 112,106
-Idade de 20 funcionários de uma cafeteria muito popular:
24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20
-A média das notas finais de 10 alunos de uma aula de matemática:
3,2; 3.1; 2.4; 4,0; 3,5; 3,0; 3,5; 3,8; 4.2; 4.9
Propriedades de dados
Existem três propriedades importantes que caracterizam um conjunto de dados estatísticos, sejam eles agrupados ou não, que são:
-Posição , que é a tendência dos dados para agrupar em torno de certos valores.
– Dispersão , uma indicação de quão dispersos ou dispersos os dados estão em torno de um determinado valor.
-Forma , refere-se à maneira como os dados são distribuídos, o que pode ser visto quando um gráfico é construído. Existem curvas muito simétricas e também inclinadas, à esquerda ou à direita de um certo valor central.
Para cada uma dessas propriedades, há uma série de medidas que as descrevem. Uma vez obtidos, eles nos fornecem uma visão geral do comportamento dos dados:
-As medidas de posição mais usadas são a média aritmética ou simplesmente média, a mediana e o modo.
– Faixa, variação e desvio padrão são frequentemente usados na dispersão, mas não são as únicas medidas de dispersão.
-E para determinar a forma, a média e a mediana são comparadas através do viés, como será visto em breve.
Cálculo da média, mediana e moda
– A média aritmética , também conhecida como média e denotada como X, é calculada da seguinte forma:
X = (x 1 + x 2 + x 3 +… .. x n ) / n
Onde x 1 , x 2 ,…. x n, são os dados en é o total deles. Em notação de soma, temos:
– A mediana é o valor que aparece no meio de uma sequência ordenada de dados; portanto, para obtê-lo, é necessário ordenar os dados antes de qualquer outra coisa.
Se o número de observações for ímpar, não há problema em encontrar o ponto médio do conjunto, mas se tivermos um número par de dados, os dois dados centrais serão pesquisados e calculados a média.
– O modo é o valor mais comum observado no conjunto de dados. Nem sempre existe, pois é possível que um valor se repita com mais frequência que outro. Também pode haver dois dados com a mesma frequência; nesse caso, estamos falando de uma distribuição bimodal.
Diferentemente das duas medidas anteriores, a moda pode ser usada com dados qualitativos.
Vamos ver como essas medidas de posição são calculadas com um exemplo:
Exemplo resolvido
Suponha que desejamos determinar a média aritmética, a mediana e o modo no exemplo proposto no início: as idades de 20 funcionários da cafeteria:
24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20
A média é calculada simplesmente adicionando todos os valores e dividindo por n = 20, que é o número total de dados. Desta maneira:
X = (24 + 20 + 22 + 19 + 18 + 27+ 25 + 19 + 27 + 18 + 21 + 22 + 23 + 21+ 19 + 22 + 27+ 29 + 23+ 20) / 20 =
= 22,3 anos.
Para encontrar a mediana, é necessário primeiro solicitar o conjunto de dados:
18, 18, 19, 19, 19, 20, 20, 21, 21, 22 , 22 , 22, 23, 23, 24, 25, 27, 27, 27, 29
Como esse é um número par de dados, os dois dados principais, destacados em negrito, são obtidos e calculados a média. Por serem ambos 22, a mediana é de 22 anos.
Por fim, a moda é o dado mais repetido ou o de maior frequência, com 22 anos.
Faixa, variação, desvio padrão e viés
O intervalo é simplesmente a diferença entre o maior e o menor dos dados e permite que você aprecie rapidamente a variabilidade dos dados. Mas, à parte, existem outras medidas de dispersão que oferecem mais informações sobre a distribuição dos dados.
Variação e desvio padrão
A variação é denotada como s e é calculada pela expressão:
Portanto, para interpretar corretamente os resultados, o desvio padrão é definido como a raiz quadrada da variância ou também o desvio quase-padrão, que é a raiz quadrada da quase-variância:
É a comparação entre a média X e a mediana Med:
-Se Med = média X: os dados são simétricos.
-Quando X> Med: incline para a direita.
-E se X <Med: os dados se inclinam para a esquerda.
Exercício resolvido
Encontre média, mediana, modo, faixa, variação, desvio padrão e viés para os resultados de um teste de QI realizado em 20 estudantes de uma universidade:
119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124, 112, 112, 106
Solução
Solicitaremos os dados, pois será necessário encontrar a mediana.
106, 106, 106, 109, 109, 109, 109, 109, 112, 112, 112, 112, 112, 112, 112, 119, 119, 124, 124, 124
E vamos colocá-los em uma tabela da seguinte maneira, para facilitar os cálculos. A segunda coluna intitulada “Acumulado” é a soma dos dados correspondentes mais o anterior.
Esta coluna ajudará a encontrar facilmente a média, dividindo o último acumulado pelo número total de dados, conforme visto no final da coluna “Acumulado”:
X = 112,9
A mediana é a média dos dados centrais destacados em vermelho: o número 10 e o número 11. Como são iguais, a mediana é 112.
Finalmente, o modo é o valor mais repetido e é 112, com 7 repetições.
Em relação às medidas de dispersão, o intervalo é:
124-106 = 18.
A variação é obtida dividindo o resultado final da coluna da direita por n:
s = 668,6 / 20 = 33,42
Nesse caso, o desvio padrão é a raiz quadrada da variância: √33.42 = 5.8.
Por outro lado, os valores da quase-variância e do desvio quase-padrão são:
s c = 668,6 / 19 = 35,2
Desvio quase-padrão = √35,2 = 5,9
Finalmente, o viés é levemente à direita, pois a média 112,9 é maior que a mediana 112.
Referências
- Berenson, M. 1985. Estatística para Administração e Economia. Interamericana SA
- Canavos, G. 1988. Probabilidade e Estatística: Aplicações e métodos. McGraw Hill.
- Devore, J. 2012. Probabilidade e estatística para engenharia e ciência. 8th. Edição. Cengage.
- Levin, R. 1988. Statistics for Administrators. 2nd. Edição. Prentice Hall.
- Walpole, R. 2007. Probabilidade e estatística para engenharia e ciências. Pearson.