5.1 Noções básicas de estatística
1 - Noções básicas de estatística
A Estatística durante séculos foi usada inconscientemente pelos povos como um caráter meramente descritivo e de registro de ocorrências. As primeiras atividades foram por volta de 2000 a.C. e foram usados no recenseamento das populações agrícolas chinesas. No início do século XIX, os grandes matemáticos entraram em cena, como exemplo, o francês Pierre-Simon Laplace (1749-1827) e o alemão Carl Friedrich Gauss (1777–1855), este último surge com aplicações da “distribuição normal” para modelagem de erros de medição. A teoria da distribuição normal foi usada pelo astrônomo e matemático belga Adolphe Quételet (1796–1874), no estudo estatístico de diversas características das populações humanas: altura, peso, natalidade, mortalidade, renda mensal etc. Ronald Aylmer Fisher (1890–1962), estatístico britânico, foi o gênio que criou a moderna teoria da estatística. Na Estatística, trabalhou com ajustes de curvas de frequências, com coeficientes de correlação, os chamados coeficientes de Fisher, na análise de variância (ANOVA) e nas técnicas de estimação dos parâmetros. Influenciado pelos trabalhos de Karl Pearson (1857-1936), outro importante estatístico britânico. Fisher utilizou os resultados que obteve na Estatística como ferramentas para aplicação nos seus estudos de genética, sendo hoje considerado um dos maiores nomes na Teoria de Estatística e na Estatística aplicada à Biologia.
1.1 - Introdução
Aqui, vamos apresentar os elementos básicos da análise de dados. Veremos as Estatísticas Descritivas utilizadas para organizar, resumir e descrever o comportamento dos dados. A descrição dos dados também pode identificar anomalias, até mesmo resultantes do registro incorreto de valores e valores extremos (aqueles que não seguem a tendência geral do restante do conjunto de dados). As ferramentas descritivas são os diferentes tipos de gráficos e tabelas, bem como as medidas de síntese, como as medidas de posição, medidas de dispersão, medidas de assimetria e medidas de curtose.
Sempre que resumimos um conjunto de dados, perdemos informação sobre o mesmo, pois condensamos as observações originais. Entretanto, esta perda de informação é pequena se comparada ao ganho que se tem com a clareza da interpretação proporcionada.
A Estatística utiliza a variabilidade presente nos dados para obter a informação de interesse sobre o comportamento de processos e produtos. A variabilidade está presente em todo lugar. Por exemplo, a posição de um carro estacionado em uma garagem não é a mesma ao longo dos dias. Neste caso, a posição do carro apresenta uma variação. Nossa estratégia consiste em avaliar as variações e obter informações através dela.
Em geral, a aplicação de técnicas estatísticas envolve várias etapas, conforme a Figura 1.1. Um ponto importante na análise estatística é a definição do problema de gestão que estamos tratando. Por exemplo, avaliar a capacidade do processo, prever demanda de serviços, entre outros. Na sequência, planejamos e executamos a coleta dos dados. A partir dos dados, aplicamos técnicas estatísticas para extrair informação sobre o problema de gestão e, consequentemente sua solução.
Figura 1.1: Etapas da aplicação de técnicas estatísticas
1.2 - Coleta de dados
Diversos problemas podem ocorrer durante o processo de coleta de dados, os quais podem comprometer seriamente as soluções propostas no final do processo, ou seja, a qualidade da solução do problema de gestão está diretamente relacionada com a qualidade dos dados obtidos. Podemos evitar que alguns problemas ocorram observando fatos como:
-
Não se deve coletar dados sem que antes se tenha definido claramente o problema ou situação a ser enfrentada, bem como os objetivos com relação aos mesmos;
-
Os sistemas de medição (instrumento, operadores, método, meio) que serão utilizados devem ser avaliados e ter capacidade de medição suficiente (Análise de sistema de medição);
-
Os cálculos e leituras devem ser feitos com muita atenção para evitar distorções;
-
Devem ser utilizados métodos adequados para coleta de dados de acordo com o problema estudado.
Para excetuarmos a coleta de dados adequadamente devemos conhecer os conceitos básicos de População e Amostra. Uma população é um agregado de elementos (finitos ou não) do qual desejamos obter informações sobre algumas de suas características. Duas populações são consideradas distintas se em uma delas existir um elemento que não está contido na outra população. Como exemplo de população temos a produção diária de uma empresa, medição de hastes de aço realizada com um micrômetro, entre outras. Uma amostra é uma parcela de uma população que pode conter informações sobre esta população, ver Figura 1.2.
Figura 1.2: População e amostra
Outra definição importante para a escolha da técnica estatística e das interpretações dos resultados é a classificação dos dados ou das variáveis relacionadas ao problema de gestão. Uma variável é uma característica específica da população, tal como comprimento de uma peça usinada, massa de um comprimido, taxa selic, idade, sexo ou preferência partidária. Cada variável consiste de um conjunto de categorias que descrevem a natureza e o tipo de variação associados com a característica. Algumas variáveis podem ter inúmeras categorias de resposta, dependendo do objetivo e foco do problema de gestão. As variáveis têm propriedades de medida distintas associadas às suas categorias. Estas categorias são referidas como níveis de medição ou escalas de medição. As escalas podem ser classificadas como: quantitativas ou qualitativas.
A escala quantitativa está relacionada com características que podem ser medidas ou contadas. Em ambos os casos são características numéricas. Por exemplo, a massa de um comprimido, o preço de um ativo no mercado financeiro, o número de defeitos em um carro, a quantidade de úlcera por pressão em um paciente de um hospital. Por outro lado, a escala qualitativa está relacionada com a descrição da característica. Neste caso, a variável não pode ser medida mas pode ser observada. Por exemplo, os tipos de defeitos em um produto (televisor) no final da linha de montagem, o nível educacional (ensino fundamental, ensino médio, graduação e pós-graduação).
No caso de dados qualitativos nominais, temos apenas a identificação ou rotulação das observações que constituem os dados. Neste caso, os dados são alocados em categorias e contados apenas com relação à frequência de ocorrência. Nenhuma ordenação está implícita. Uma variável como “sexo” pode ser categorizada em duas respostas possíveis: masculino ou feminino. Tais categorias servem apenas para contar o número de indivíduos que indicam as respectivas categorias. A escala qualitativa ordinal classifica as categorias da variável em termos do grau que possui cada categoria. Neste caso, temos informação sobre a ordenação de categorias, mas podemos não ter indicação da magnitude das diferenças entre essas categorias. Por exemplo, o nível educacional de particiantes de uma corrida (ensino fundamental, ensino médio, graduação e pós-graduação) é uma variável qualitativa ordinal.
Na escala quantitativa discreta temos a contagem de um evento de interesse. Neste caso, conseguimos determinar a magnitude da diferença entre as categorias da variável. Por exemplo, a contagem de defeitos em um peça pintada ou o número de úlcera por pressão em um paciente. Por outro lado na escala quantitativa contínua, as categoria são definidas através da escala de sistemas ou equipamentos de medição. Em geral, a variável assume valores em um intervalo de números. Por exemplo, renda familiar, altura de um indivíduo, idade, distância e temperatura, estão associadas com medições realizadas por sistemas de medição que apresentam indicações do valor de cada categoria e as diferenças entre elas.
Planejando a coleta de dados
Para estudarmos adequadamente uma população através de uma amostra, devemos planejar a coleta de dados. Com este objetivo, formulamos algumas perguntas:
-
Com que frequência ocorrem os problemas?
-
Quais são as causas potenciais do problema?
Um bom planejamento para coleta de dados deve considerar as seguintes perguntas:
-
Qual a pergunta a ser respondida?
-
Como comunicar a resposta obtida?
-
Qual ferramenta de análise pretendemos usar e como utilizar os resultados?
-
Qual tipo de dado é necessário para utilizar as ferramentas desejadas e responder a pergunta?
-
Como coletar esses dados com o mínimo de esforço e erro?
-
Onde acessar estes dados?
-
Quem pode nos fornecer os dados?
-
Qual o período em que os dados serão coletados?
Tendo as respostas para estas perguntas, devemos:
-
Construir uma metodologia para nos certificar de que todas as informações estão definidas;
-
Coletar os dados de forma consistente e honesta;
-
Certificar-se de que existe tempo suficiente para a coleta de dados;
-
Definir quais informações adicionais serão necessárias para estudos futuros, referências ou reconhecimento.
1.3 - Exposição dos dados
Antes da exposição dos dados coletados é necessário que se faça um trabalho de revisão e correção nos dados coletados na tentativa de eliminar possíveis enganos na elaboração do relatório. Inicialmente, os dados podem ser classificados como “qualitativos” ou “quantitativos”. Através desta classificação, vamos definir algumas técnicas para resumir o conjunto de dados.
Dados qualitativos
Os dados qualitativos representam uma característica da qualidade (ou atributo) associado ao item pesquisado. Por exemplo, podemos classificar um produto em: bom, razoável ou ruim. Os dados qualitativos podem ser divididos em dois tipos:
Dado qualitativo nominal - Para o qual não existe nenhuma ordenação nas possíveis realizações;
Dado qualitativo ordinal - Para o qual existe uma ordem em seus resultados.
Exemplo 1.3.1
Uma indústria de calculadoras eletrônicas, preocupada com vários defeitos que um de seus produtos vem apresentando, fez um levantamento e constatou os seguintes problemas:
A: Defeito na cobertura plástica;
B: Defeito no teclado;
C: Defeito na fonte de energia;
D: Soldas soltas;
E: Defeito na placa da unidade de processamento;
F: Defeito no visor;
G: Outros.
Este é um típico exemplo de dados qualitativos nominais. Nesta situação, para cada item inspecionado, existe uma variável T que representa o tipo de defeito encontrado em calculadoras. Portanto, essa variável T pode assumir os valores: A,B,C,D,E,F ou G. Logo, para uma calculadora com defeito na cobertura plástica, temos que T = A. A seguir, temos a Tabela 1.1 com os valores observados da variável T em um dia de inspeção.
| Tipo de Problemas (T) | Frequência |
|---|---|
| A | 10 |
| B | 20 |
| C | 55 |
| D | 80 |
| E | 25 |
| F | 3 |
| G | 7 |
Tabela 1.1: Tipos de Problemas em calculadoras
Neste exemplo, todos os defeitos apresentam o mesmo nível de severidade e portanto, não apresentamos uma ordem entre os atributos (defeitos). Neste caso, temos um exemplo de dado qualitativo nominal.
Exemplo 1.3.2
Em um concurso público foram contabilizados os números de pessoas inscritas segundo os níveis de escolaridade: fundamental completo, médio completo, superior completo e pós-graduação completa. Segue abaixo a Tabela 1.2 com os valores observados.
| Nível de escolaridade | Inscritos |
|---|---|
| Fundamental completo | 451 |
| Médio completo | 627 |
| Superior completo | 292 |
| Pós-graduação completa | 95 |
Tabela 1.2: Níveis de escolaridade de inscritos
Neste exemplo, temos uma ordem natural entre os atributos (nível de escolaridade) e consequentemente, temos um exemplo de dados qualitativos ordinais.
Dados quantitativos
Neste caso, a característica observada assume valores numéricos que podem ser classificados em “discretos” ou “contínuos”.
Dados quantitativos discretos
Os dados quantitativos discretos assumem valores dentro de um conjunto com os números especificados. Por exemplo, o número de produtos produzidos por uma máquina em um determinado período de tempo pode ser 0,1,2,3,4,… Neste caso, os dados observados formam um conjunto finito (ou enumerável) de números. Geralmente, quando contamos defeitos, temos dados quantitativos discretos.
Exemplo 1.3.3
Em um hospital, foram contabilizados o número de pessoas com diabetes em 20 grupos de 1000 pessoas cada. Neste caso, obtemos os seguintes dados (Pessoas com diabetes por grupo): 10, 12, 9, 11, 10, 8, 9, 10, 7, 10, 8, 9, 9, 10, 10, 11, 9, 11, 10, 10. Um possível resumo dos dados é desenvolvido na Tabela 1.3 a seguir:
| Pessoas com diabetes | Apuração dos grupos | Nº de grupos |
|---|---|---|
| 7 | / | 1 |
| 8 | / / | 2 |
| 9 | / / / / / | 5 |
| 10 | / / / / / / / / | 8 |
| 11 | / / / | 3 |
| 12 | / | 1 |
Tabela 1.3: Quantidade de pessoas com diabetes em grupos
Portanto, a variável “Número de pessoas com diabetes” assume valores discretos, isto é, números inteiros: …,7,8,9,… .
Dados quantitativos contínuos
Os dados quantitativos contínuos assumem valores em um intervalo contínuo de números. Em geral, este tipo de dado é proveniente de medições de uma característica da qualidade de uma peça ou produto. Os possíveis valores incluem “todos” os números do intervalo de variação da característica medida. Por exemplo, ao medirmos os diâmetros dos eixos de determinados motores com uma célula eletrônica, obtemos dados quantitativos contínuos, que assumem valores em um intervalo determinado.
Exemplo 1.3.4
Numa fábrica de motores elétricos, o gerente de produção precisa avaliar o problema de ruído excessivo do motor. Uma das possíveis causas está associada com variações no diâmetro do eixo. Assim, o gerente de produção mediu o diâmetro do eixo de 100 motores e o resultado está apresentado na Tabela 1.4. Os valores estão em milésimos de milímetros.
Podemos fazer a apuração considerando intervalos de medidas, como apresentado na Tabela 1.4 a seguir:
| 4,8 | 4,2 | 5,1 | 5,2 | 4,8 | 4,7 | 4,9 | 4,5 | 4,9 | 4,5 |
| 4,9 | 5,1 | 4,8 | 4,9 | 4,8 | 5 | 5,3 | 4,9 | 5,5 | 5,2 |
| 5,1 | 4,6 | 4,9 | 4,8 | 5,1 | 4,6 | 4,3 | 4,9 | 4,7 | 5,2 |
| 4,8 | 4,4 | 5,6 | 5 | 5 | 5 | 4,8 | 5,2 | 4,5 | 5,1 |
| 5,1 | 4,9 | 4,8 | 4,8 | 5 | 4,8 | 5,1 | 5,4 | 4,2 | 5,1 |
| 4,9 | 4,6 | 5,4 | 4,9 | 4,3 | 4,6 | 4,7 | 4,7 | 5,3 | 4,4 |
| 4,7 | 4,8 | 5,2 | 4,5 | 5,1 | 4,6 | 5,8 | 4,9 | 5,2 | 4,8 |
| 4,9 | 4,9 | 4,4 | 4,7 | 4,8 | 5,1 | 5,4 | 5 | 4,4 | 5,1 |
| 4,9 | 4,9 | 5,1 | 5,2 | 4,7 | 4,8 | 4,6 | 5,2 | 5,5 | 5,2 |
| 4,2 | 4,9 | 4,9 | 4,8 | 4,2 | 5,2 | 4,7 | 4,8 | 4,6 | 5,2 |
Tabela 1.4: Diâmetros dos eixos em milésimos de milímetros
Um possível resumo dos dados:
| Diâmetro | Apuração | Nº de motores apurados |
|---|---|---|
| [4,2; 4,4) | / / / / / / | 6 |
| [4,4; 4,6) | / / / / / / / / | 8 |
| [4,6; 4,8) | /////////////// | 15 |
| [4,8; 5,0) | //////////…////////// | 33 |
| [5,0; 5,2) | ////////////////// | 18 |
| [5,2; 5,4) | ///////////// | 13 |
| [5,4; 5,6) | / / / / / | 5 |
| [5,6; 5,8) | / / | 2 |
Tabela 1.4.1: Diâmetro do eixo de 100 motores (com apuração)
Ao estabelecermos intervalos de classes, estamos admitindo que o eixo pode assumir qualquer valor entre o limite inferior (inclusive) e o limite superior (exclusive).
1.4 - Gráfico de barras
Exemplo 1.4.1
Considere os dados do Exemplo 1.3.2. Construa o gráfico de barras correspondente.
O gráfico de barras apresenta dados categorizados em barras retangulares nos quais os retângulos correspondentes a cada categoria é proporcional ao número de observações na respectiva categoria. O gráfico de barras é utilizado para realizar comparações entre as categorias de uma variável qualitativa ou quantitativa discreta. Este gráfico pode ser utilizado na vertical ou horizontal. No exemplo 1.4.1, a altura de cada retângulo corresponde ao número de inscritos com o respectivo grau de escolaridade. Podemos utilizar o Action Stat para executarmos o gráfico de barras.
Figura 1.3: Gráfico de barras de Níveis de escolaridade de inscritos
1.5 - Diagrama de Pareto
Diagrama de Pareto é um gráfico de barras que ordena as frequências das ocorrências, da maior para a menor, permitindo a priorização dos problemas. Mostra ainda a curva de porcentagens acumuladas. Sua maior utilidade é a de permitir uma fácil visualização e identificação das causas ou problemas mais importantes, possibilitando a concentração de esforços sobre os mesmos. É utilizado para dados qualitativos.
Como construir um diagrama de Pareto
-
Realize uma reunião com a equipe para selecionar o tópico a ser avaliado. Por exemplo, podemos avaliar tipos de defeitos, custo de manutenção por equipamento, entre outros.
-
Selecione um padrão de comparação com unidade de medida. Geralmente, utilizamos o custo ou frequência de ocorrência como medida de comparação.
-
Especifique o período de tempo em que os dados serão coletados. Exemplo: Uma semana, um mês.
-
Elabore uma planilha de dados, com as seguintes colunas: Categorias, Quantidades (totais individuais), Totais acumulados, Porcentagens, Porcentagens acumuladas.
-
Colete os dados necessários para cada categoria. Exemplo: Defeito A ocorreu X vezes ou defeito C custou Y.
-
Preencha a planilha de dados, listando as categorias em ordem decrescente com relação à unidade de comparação.
-
Marque o eixo vertical no lado esquerdo com a escala de zero até o total da coluna Quantidade da planilha de dados. Identifique o nome da variável representada neste eixo e a unidade de medida utilizada, caso seja necessário.
-
Marque o eixo vertical do lado direito com uma escala de zero até 100%. Identifique este eixo como “Porcentagem acumulada”(%).
-
Liste as categorias da esquerda para direita no eixo horizontal em ordem decrescente de frequência ou custo. Os itens de menor importância podem ser combinados na categoria Outros, que é colocada no extremo direito do eixo, com a última barra.
-
Identifique cada intervalo do eixo horizontal escrevendo os nomes das categorias, na mesma ordem em que eles aparecem na planilha de dados.
-
Construa um gráfico de barras utilizando a escala do eixo vertical do lado esquerdo. Para construir um gráfico de barras, acima de cada categoria, basta desenhar um retângulo cuja a altura representa a frequência ou custo daquela categoria.
-
Construa a curva de Pareto marcando os valores da porcentagem acumulada acima e no centro ou lado direito do intervalo de cada categoria, e ligue os pontos por segmentos de reta.
Exemplo 1.5.1
Considerando os dados do Exemplo 1.3.1, construímos o diagrama de Pareto, utilizando o Action Stat. Os resultados obtidos são mostrados a seguir.
| Tipos de Problemas | Frequência | Frequência Acumulada | Porcentagem | Porcentagem Acumulada |
|---|---|---|---|---|
| D | 80 | 80 | 40 | 40 |
| C | 55 | 135 | 27,5 | 67,5 |
| E | 25 | 160 | 12,5 | 80 |
| B | 20 | 180 | 10 | 90 |
| Outros | 10 | 190 | 5 | 95 |
| A | 10 | 200 | 5 | 100 |
Tabela 1.5: Dados de Tipos de Problemas em calculadoras
O gráfico de Pareto correspondente é mostrado abaixo.
Figura 1.4: Gráfico de Pareto de Tipos de problemas em calculadoras
Diagrama de Pareto relativo a custos
Na construção do gráfico de Pareto podemos utilizar como medida de comparação a frequência de ocorrência do atributo ou o custo associado a este atributo. A seguir, apresentamos um exemplo de um gráfico de Pareto com medida de comparação baseada no custo.
Exemplo 1.5.2
Em uma empresa de cartão de identificação, contabilizamos os defeitos nos cartões com medida de comparação baseada no custo.
| Principais defeitos | Nº de embalagens defeituosas | Custo por unidade defeituosa | Custo do defeito |
|---|---|---|---|
| Números trocados | 28 | 0,05 | 1,40 |
| Caracteres errados | 28 | 0,05 | 1,40 |
| Amassado | 4 | 1,00 | 4,00 |
| Perfurado | 3 | 0,05 | 0,15 |
| Impressão ilegível | 2 | 0,05 | 0,10 |
| Rasgado | 2 | 1,00 | 2,00 |
| Outros | 1 | 0,05 | 0,05 |
| Total | 68 |
Tabela 1.6: Dados de Principais defeitos nos cartões de identificação
Ordenando os defeitos pelos seus custos, temos o seguinte diagrama:
| Principais defeitos | Custo do defeito |
|---|---|
| Amassado | 4,00 |
| Rasgado | 2,00 |
| Números trocados | 1,40 |
| Caracteres errados | 1,40 |
| Perfurado | 0,15 |
| Impressão ilegível | 0,10 |
| Outros | 0,05 |
Tabela 1.6.1: Diagrama de Principais defeitos e Custo do defeito
O gráfico de Pareto correspondente, relativo aos custos é dado por
Figura 1.5: Gráfico de Pareto de Tipos de defeitos relativo a custos
1.6 - Distribuição de Frequências
A distribuição de frequências é um agrupamento de dados em classes, de tal forma que contabilizamos o número de ocorrências em cada classe. O número de ocorrências de uma determinada classe recebe o nome de frequência absoluta. O objetivo é apresentar os dados de uma maneira mais concisa e que nos permita extrair informação sobre seu comportamento. A seguir, apresentamos algumas definições necessárias à construção da distribuição de frequências.
Frequência absoluta $(ƒ_{i})$: É o número de observações correspondente a cada classe. A frequência absoluta é, geralmente, chamada apenas de frequência.
Frequência relativa $(ƒ_{ri})$: É o quociente entre a frequência absoluta da classe correspondente e a soma das frequências (total observado), isto é, $\displaystyle f_{ri}=\frac{f_i}{\sum_{j}^{n}f_j}$ onde n representa o número total de observações.
Frequência percentual $(p_{i})$: É obtida multiplicando a frequência relativa por 100%.
Frequência acumulada: É o total acumulado (soma) de todas as classes anteriores até a classe atual. Pode ser: frequência acumulada absoluta $(F_{i})$, frequência acumulada relativa $(F_{ri})$, ou frequência acumulada percentual $(P_{i})$.
Distribuição de frequência pontual: dados quantitativos discretos
A construção de uma tabela de distribuição de frequência pontual é equivalente à construção de uma tabela simples, onde se listam os diferentes valores observados da variável com suas frequências absolutas, denotadas por $(ƒ_{i})$ (o índice i corresponde ao número de linhas da Tabela) como é mostrado na Tabela 1.7 abaixo. Utilizamos a distribuição de frequência pontual quando se trabalha com dados discretos. Um gráfico utilizado para representar este tipo de distribuição de frequência é o Gráfico de Barras.
Exemplo 1.6.1
Considere os dados do Exemplo 1.3.3. Construa a distribuição de frequências para este conjunto de dados e o gráfico de barras.
| Número de pessoas com diabetes | Frequência ($ƒ_i$) | Frequência relativa ($ƒ_{ri}$) | Frequência percentual | Frequência acumulada |
|---|---|---|---|---|
| 7 | 1 | 0,05 | 5 | 5 |
| 8 | 2 | 0,1 | 10 | 15 |
| 9 | 5 | 0,25 | 25 | 40 |
| 10 | 8 | 0,4 | 40 | 80 |
| 11 | 3 | 0,15 | 15 | 95 |
| 12 | 1 | 0,05 | 5 | 100 |
Tabela 1.7: Dados de Número de pessoas com diabetes em grupos
Figura 1.6: Gráfico de barras de Número de pessoas com diabetes
1.7 - Histograma
Distribuição de frequência em intervalos de classes: Dados quantitativos contínuos
Para dados quantitativos contínuos, geralmente resultantes de medições de características da qualidade de peças ou produtos, dividimos a faixa de variação dos dados em intervalos de classes. O menor valor da classe é denominado limite inferior $(l_{i})$ e o maior valor da classe é denominado limite superior $(L_{i})$.
O intervalo ou classe pode ser representado das seguintes maneiras:
-
$(l_{i})-(L_{i})$, onde o limite inferior da classe é incluído na contagem da frequência absoluta, mas o superior não;
-
$(l_{i})-(L_{i})$ , onde o limite superior da classe é incluído na contagem, mas o inferior não.
Podemos escolher qualquer uma destas opções, mas é importante que deixemos claro no texto ou na tabela qual delas está sendo usada. Embora não seja necessário, os intervalos são frequentemente construídos de modo que todos tenham larguras iguais, o que facilita as comparações entre as classes.
Na tabela de distribuição de frequência, acrescentamos uma coluna com os pontos médios de cada intervalo de classe, denotada por $x_{i}$. Esta é definida como a média dos limites da classe
$$x_i=\frac{l_i+L_i}{2}$$
Estes valores são utilizados na construção de gráficos. mas o superior não;
- $(l_{i})-(L_{i})$ , onde o limite superior da classe é incluído na contagem, mas o inferior não.
Algumas indicações na construção de distribuição de frequências são:
-
Na medida do possível, as classes deverão ter amplitudes iguais.
-
Escolher os limites dos intervalos entre duas possíveis observações.
-
O número de intervalos não deve ultrapassar 20.
-
Escolher limites que facilitem o agrupamento.
-
Marcar os pontos médios dos intervalos.
-
Ao construir o histograma, cada retângulo deverá ter área proporcional à frequência relativa (ou à frequência absoluta, o que dá no mesmo) correspondente.
Um ponto importante na construção da distribuição de frequência é o numero de intervalos de classes. No Action Stat utilizamos a regra de Sturges para obter o número de intervalos de classes
$$k=1+3,3 log_{10}(n)$$
no qual $k$ é o número de classes e $n$ é o tamanho do conjuntos de dados.
Histograma
Histograma é uma representação gráfica (um gráfico de barras verticais ou barras horizontais) da distribuição de frequências de um conjunto de dados quantitativos contínuos. O histograma pode ser um gráfico por valores absolutos ou frequência relativa ou densidade. No caso de densidade, a frequência relativa do intervalo $i$, $(f_{ri})$, é representada pela área de um retângulo que é colocado acima do ponto médio da classe $i$. Consequentemente, a área total do histograma (igual a soma das áreas de todos os retângulos) será igual a 1. Assim, ao construir o histograma, cada retângulo deverá ter área proporcional à frequência relativa (ou à frequência absoluta, o que é indiferente) correspondente. No caso em que os intervalos são de tamanhos (amplitudes) iguais, as alturas dos retângulos serão iguais às frequências relativas (ou iguais às frequências absolutas) dos intervalos correspondentes.
Exemplo 1.7.1
Considerando os dados do Exemplo 1.3.4, monte a distribuição de frequências e construa o histograma correspondente.
Como temos dados quantitativos contínuos, para construir a distribuição de frequências, vamos separar os dados em classes. Ao aplicarmos a regra de Sturges obtemos
$$k=1+3,3 log_{10}(n)=7,6$$
Assim, dividimos os dados em 8 classes de tamanhos iguais. A distribuição de frequências então é a seguinte
| Classe | Frequência | Freq. Rel. | Freq. Perc. | Freq. Acum. | Densidades | Ponto Médio |
|---|---|---|---|---|---|---|
| [4,2 ; 4,4) | 6 | 0,06 | 6 | 6 | 0,3 | 4,3 |
| [4,4 ; 4,6) | 8 | 0,08 | 8 | 14 | 0,4 | 4,5 |
| [4,6 ; 4,8) | 15 | 0,15 | 15 | 29 | 0,75 | 4,7 |
| [4,8 ; 5) | 33 | 0,33 | 33 | 62 | 1,65 | 4,9 |
| [5 ; 5,2) | 18 | 0,18 | 18 | 80 | 0,9 | 5,1 |
| [5,2 ; 5,4) | 13 | 0,13 | 13 | 93 | 0,65 | 5,3 |
| [5,4 ; 5,6) | 5 | 0,05 | 5 | 98 | 0,25 | 5,5 |
| [5,6 ; 5,8) | 2 | 0,02 | 2 | 100 | 0,1 | 5,7 |
Tabela 1.8: Tabela de Frequência de diâmetros de eixos de motores
A seguir, apresentamos o histograma obtido com o software Action Stat.
Figura 1.7.1: Histograma de frequências de diâmetros dos eixos de motores
Muitas vezes, queremos representar a curva de uma distribuição de probabilidade (por exemplo, normal) junto com o histograma. Esta é uma forma visual de avaliar o ajuste dos dados pela referida distribuição de probabilidade. Entretanto, como a área total das barras de frequências absoutas é igual a 100, não faz sentido utilizarmos a altura do retângulo como a frequência absoluta. Neste caso, comparamos elementos em escalas distintas. Para contornar este problema, sugerimos utilizar a área de cada retângulo como a frequência relativa cuja a soma é igual a 1. Neste caso, a altura de cada retângulo é dada pela densidade (D) que corresponde frequência relativa dividida pelo tamanho do intervalo de classe.
Exemplo 1.7.2
Considerando os dados do Exemplo 1.3.4, construa o histograma de densidades correspondente
Para construir o histograma de densidades, basta que os retângulos tenham altura do tamanho da densidade de cada classe e largura do tamanho da classe. Neste caso, o histograma ficaria da seguinte forma:
Figura 1.7.2: Histograma de densidades de diâmetros de eixos de motores
Na Figura 1.7.2 pudemos observar exemplos de histogramas com distribuição aproximadamente normal cuja característica principal é um formato de sino que tende a ser simétrico. Entretanto os histogramas podem assumir formas variadas de acordo com a distribuição de probabilidade dos dados. A seguir veremos alguns exemplos de formatos variados de histogramas.
Exemplo 1.7.3
Os dados do histograma a seguir seguem uma distribuição de probabilidade exponencial, que é usada, por exemplo, como um modelo para o tempo de vida de certos produtos e materiais.
Figura 1.8: Histograma de dados de uma distribuição exponencial
A distribuição exponencial caracteriza-se por seu formato assimétrico, com muitos valores próximos de 0 e uma tendência decrescente.
Exemplo 1.7.4
Neste exemplo, trazemos dados da distribuição F de Snedecor, também conhecida como distribuição de Fisher é frequentemente utilizada na inferência estatística para análise de variância.
Figura 1.9: Histograma de dados de uma distribuição de Fisher
Esta distribuição também é assimétrica, o formato do histograma desta distribuição quase sempre reflete a alta densidade dos dados em torno do 1.
Exemplo 1.7.5
Aqui trazemos um exemplo de uma distribuição bimodal, isto é, que apresenta duas modas. Imagine uma avenida principal de uma cidade em que mede-se o número de automóveis que passam por essa avenida: é lícito imaginar um fluxo máximo de automóveis em determinado horário quando muitos estão indo para o trabalho e de noite (ou ao entardecer), um novo fluxo máximo quando as pessoas estão voltando do trabalho para casa.
Figura 1.10: Histograma de dados de uma distribuição bimodal
Como pode-se notar, o histograma mostra dois picos de densidade, um no começo e outro quase ao final da distribuição.
1.8 - Gráfico de pizza
O gráfico de pizza, também conhecido como gráfico de setores ou gráfico circular é um diagrama circular onde os valores de cada categoria estatística representada são proporcionais às respectivas frequências. Este gráfico pode vir acompanhado de porcentagens. É utilizado para dados qualitativos nominais. Para construir um gráfico tipo pizza é necessário determinar o ângulo dos setores circulares correspondentes à contribuição percentual de cada valor no total.
Exemplo 1.8.1
Uma empresa da área automobilística acompanha o número de defeitos encontrados nos equipamentos enviados para a calibração. Na tabela a seguir apresentamos os dados referentes a um mês de acompanhamento dos defeitos encontrados nos equipamentos das diversas áreas.
| Centro de custo | Número de defeitos |
|---|---|
| Pré-usinagem | 9 |
| Tratamento térmico | 12 |
| Fundição | 10 |
| Usinagem | 45 |
| Tratamento superficial | 13 |
| Total | 89 |
Tabela 1.9.1: Dados de Número de defeitos em equipamentos
Assim, podemos obter as frequências de defeitos em cada equipamento:
| Centro de custo | Frequências | Freq. Perc. | Freq. Acum. |
|---|---|---|---|
| Pré-usinagem | 9 | 10,11 | 10,11 |
| Tratamento térmico | 12 | 13,48 | 23,59 |
| Fundição | 10 | 11,24 | 34,83 |
| Usinagem | 45 | 50,56 | 85,39 |
| Tratamento superficial | 13 | 14,61 | 100 |
| Total | 89 | 100 | 100 |
Tabela 1.9.2: Tabela de frequências relativas
Como temos um total de 89 defeitos, o setor circular de 360º será equivalente a 89. Calculando as proporções, encontramos os ângulos correspondentes aos número de defeitos de cada centro de custo. Com isso, construímos os seguintes gráficos de pizza.
Figura 1.11: Gráfico de pizza 3D de Número de defeitos em equipamentos
Figura 1.12: Gráfico de pizza 2D de Número de defeitos em equipamentos
Tal exemplo pode ser realizado utilizando o software Action Stat.