Dados agrupados: exemplos e exercícios resolvidos

Dados agrupados: exemplos e exercícios resolvidos

Os dados agrupados  são aqueles que foram classificados em categorias ou classes, tendo sua frequência como critério. Isso é feito para simplificar o tratamento de grandes quantidades de dados e estabelecer suas tendências.

Uma vez organizados nessas classes por suas frequências, os dados compõem uma distribuição de frequências, a partir da qual informações úteis são extraídas através de suas características.

A seguir, veremos um exemplo simples de dados agrupados:

Suponha que seja medida a altura de 100 estudantes do sexo feminino, selecionada em todos os cursos básicos de física de uma universidade, e que sejam obtidos os seguintes resultados:

Os resultados obtidos foram divididos em 5 classes, que aparecem na coluna da esquerda.

A primeira turma, entre 155 e 159 cm, tem 6 alunos; a segunda turma, 160 – 164 cm, 14; a terceira turma, de 165 a 169 cm, é a com maior número de membros: 47. Em seguida, segue a turma 170-174 cm com 28 alunos e finalmente 175 a 179 cm com apenas 5.

O número de membros de cada classe é precisamente a  frequência absoluta ou frequência  e, ao adicioná-los todos juntos, são obtidos os dados totais, que neste exemplo são 100.

Características de distribuição de frequência

Frequência

Como vimos, a frequência é o número de vezes que um dado é repetido. E para facilitar os cálculos das propriedades de distribuição, como média e variação, são definidas as seguintes quantidades:

Frequência acumulada : é obtida adicionando a frequência de uma classe à frequência acumulada anterior. A primeira de todas as frequências corresponde à do intervalo em questão e a última é o número total de dados.

Frequência relativa : é calculada dividindo a frequência absoluta de cada classe pelo número total de dados. E se você multiplicar por 100, terá a frequência percentual relativa.

Relacionado:  Teste Mann U - Whitney: o que é e quando aplicado, execução, exemplo

Frequência relativa acumulada : é a soma das frequências relativas de cada classe com a acumulada anterior. A última das frequências relativas acumuladas deve ser igual a 1.

Para o nosso exemplo, as frequências são assim:

Limites

Os valores extremos de cada classe ou intervalo são chamados limites de classe.  Como podemos ver, cada classe tem um limite inferior e superior. Por exemplo, a primeira turma do estudo sobre altura tem um limite inferior de 155 cm e um limite superior de 159 cm.

Este exemplo tem limites claramente definidos, no entanto, é possível definir limites abertos: se, em vez de definir os valores exatos, fosse dito “altura menor que 160 cm”, “altura menor que 165 cm” e assim por diante.

Fronteiras

A altura é uma variável contínua, portanto, pode-se considerar que a primeira classe realmente começa em 154,5 cm, pois ao arredondar esse valor para o número inteiro mais próximo, você obtém 155 cm.

Esta classe abrange todos os valores de até 159,5 cm, pois a partir disso, as alturas são arredondadas para 160,0 cm. Uma altura de 159,7 cm já pertence à próxima aula.

Os limites reais da classe para este exemplo são, em cm:

  • 154,5 – 159,5
  • 159,5 – 164,5
  • 164,5 – 169,5
  • 169,5 – 174,5
  • 174,5 – 179,5

Amplitude

A amplitude de uma classe é obtida subtraindo os limites. Para o primeiro intervalo do nosso exemplo, temos 159,5 – 154,5 cm = 5 cm.

O leitor pode ver que, para os outros intervalos no exemplo, a amplitude também é de 5 cm. No entanto, deve-se notar que distribuições com intervalos de diferentes amplitudes podem ser construídas.

Relacionado:  Axiomas de probabilidade: tipos, explicação, exemplos, exercícios

Marca de classe

É o ponto médio do intervalo e é obtido pela média entre o limite superior e o limite inferior.

Para o nosso exemplo, a marca da primeira classe é (155 + 159) / 2 = 157 cm. O leitor pode verificar se as marcas de classe restantes são: 162, 167, 172 e 177 cm.

A determinação de marcas de classe é importante, pois são necessárias para encontrar a média aritmética e a variação da distribuição.

Medidas de tendência central e dispersão para dados agrupados

As medidas de tendência central mais amplamente usadas são a média, a mediana e o modo, e descrevem com precisão a tendência dos dados de agrupar-se em torno de um certo valor central.

Metade

É uma das principais medidas de tendência central. Nos dados agrupados, a média aritmética pode ser calculada usando a fórmula:

-X é a média

-f i é a frequência da classe

-m i é a marca da classe

-g é o número de classes

-n é o número total dos dados

Mediana

Para a mediana, o intervalo em que a observação n / 2 está localizada deve ser identificado. No nosso exemplo, essa observação é o número 50, porque há um total de 100 dados. Essa observação está na faixa de 165 a 169 cm.

Então você precisa interpolar para encontrar o valor numérico que corresponde a essa observação, para a qual a fórmula é usada:

Onde:

-c = largura do intervalo em que a mediana é

-B M = a borda inferior do intervalo ao qual a mediana pertence

-f m = número de observações contidas no intervalo mediano

-n / 2 = metade do total de dados

-f BM = número total de observações antes do intervalo mediano

moda

Para a moda, a classe modal é identificada, aquela que contém a maioria das observações, cuja marca de classe é conhecida.

Relacionado:  Quasivariância: fórmula e equações, exemplos, exercício

Variação e desvio padrão

Variância e desvio padrão são medidas de dispersão. Se denotarmos a variação com s 2 e o desvio padrão, que é a raiz quadrada da variação como s, para dados agrupados, teremos respectivamente:

E

Exercício resolvido

Para a distribuição proposta de alturas de estudantes universitários no início, calcule os valores de:

a) Média

b) Médio

c) Moda

d) Variância e desvio padrão.

Solução para

Vamos criar a seguinte tabela para facilitar os cálculos:

Substituindo valores e efetuando a soma diretamente:

X = (6 x 157 + 14 x 162 + 47 x 167 + 28 x 172 + 5 x 177) / 100 cm =

= 167,6 cm

Solução b

O intervalo ao qual a mediana pertence é 165-169 cm, porque é o intervalo com a frequência mais alta.

Vamos identificar cada um desses valores no exemplo, com a ajuda da tabela 2:

c = 5 cm (veja a seção de amplitude)

B M = 164,5 cm

f m = 47

n / 2 = 100/2 = 50

f BM = 20

Substituindo na fórmula:

O intervalo que contém a maioria das observações é 165-169 cm, cuja marca de classe é 167 cm.

Solução d

Expandimos a tabela anterior adicionando duas colunas adicionais:

Aplicamos a fórmula:

E desenvolvemos a soma:

s 2 = (6 x 112,36 + 14 x 31,36 + 47 x 0,36 + 28 x 19,36 + 5 x 88,36) / 99 = = 21,35 cm 2

Portanto:

s = √21,35 cm 2 = 4,6 cm

Referências

  1. Berenson, M. 1985. Estatística para Administração e Economia. Interamericana SA
  2. Canavos, G. 1988. Probabilidade e Estatística: Aplicações e métodos. McGraw Hill.
  3. Devore, J. 2012. Probabilidade e estatística para engenharia e ciência. 8th. Edição. Cengage.
  4. Levin, R. 1988. Statistics for Administrators. 2nd. Edição. Prentice Hall.
  5. Spiegel, M. 2009. Statistics. Série Schaum. 4a ta. Edição. McGraw Hill.
  6. Walpole, R. 2007. Probabilidade e estatística para engenharia e ciências. Pearson.

Deixe um comentário