Nas seções seguinte mostraremos como utilizar o R para:
Construir testes de hipóteses e intervalos de confiança para uma proporção populacional de sucessos, p.
Construir testes de hipóteses e intervalos de confiança para a comparação de proporções populacionais de sucessos.
Para compreensão desta seção é necessário que você já tenha estudado o conteúdo referente a inferência sobre proporções.
Para construir testes de hipóteses e intervalos de confiança para uma proporção populacional, vamos usar as funções binom.test e prop.test. Os métodos implementados nessas funções pressupõem que o número de sucessos numa amostra de tamanho n, Y, pode ser descrito por uma distribuição Binomial com parâmetros n e p, o que equivale a dizer que \(Y\) é igual a soma do número de sucessos em \(n\) experimentos independentes de Bernoulli, com probabilidade de sucesso igual a \(p\).
Quando o número esperado de sucessos na amostra, \(n \times p\), e o número esperado de fracassos \(n \times (1-p)\) são ambos maiores ou iguais a 5, a distribuição \(B(n,p)\) pode ser aproximada pela distribuição Normal com média \(\mu = n \times p\) e desvio padrão \(\sigma = \sqrt{n \times p \times (1-p)}\), que são a média e o desvio padrão de uma variável aleatória Binomial.
A função binom.test utiliza a distribuição “exata” de \(Y\), a distribuição Binomial, para construção de inferências sobre \(p\), enquanto que a função prop.test utiliza a distribuição aproximada, a distribuição Normal. Por este motivo, os testes de hipóteses e intervalos de confiança construídos com a função binom.test são chamados de exatos, enquanto aqueles obtidos com a função prop.test são chamados de aproximados.
Para exemplificar o uso das funções binom.test e prop.test vamos considerar o seguinte exemplo:
Exemplo: Suponha que num processo de produção 10% dos itens produzidos apresentam algum defeito. Um engenheiro de produção propôs uma modificação no processo de produção com objetivo de reduzir a porcentagem de itens defeituosos. Para avaliar a eficácia da proposta do engenheiro, 300 itens foram produzidos de acordo com ela, obtendo-se 20 itens defeituosos. Avalie, usando um teste de hipóteses ao nível de significância de 5%, se há evidências de que o método proposto pelo engenheiro resulta numa menor proporção de itens defeituosos.
Denotando por \(p\), a proporção de itens defeituosos produzidos segundo o método proposto pelo engenheiro, desejamos testar as hipóteses:
\[H_{0}:p = 0,10\] \[H_{a}:p < 0,10\]
Na função binom.test, a estatistica de teste utilizada é \(Y\), o número de sucessos na amostra, que no problema corresponde ao número de itens defeituosos na amostra de 300 itens. A informação contida nessa estatística é a mesma contida nas estatísticas de teste
\[\hat{p}=\frac{Y}{n}, \quad Z_{0}=\frac{\hat{p}-p_{0}}{\sqrt{\frac{p_{0} \times (1 - p_{0})}{n}}} \quad e \quad Z_{0}^{2}=\frac{(\hat{p}-p_{0})^2}{\frac{p_{0} \times (1 - p_{0})}{n}},\] uma vez que todas elas são funções de \(Y\). Observe que \(Z_{0}\) é o valor padronizado de \(\hat{p}\) quando a hipótese nula \(H_{0}:p=p_{0}\) é verdadeira, cuja distribuição de probabilidades pode ser aproximada pela distribuição N(0,1) quando \(n \times p_{0}\) e \(n \times (1 - p_{0})\) são ambos maiores ou iguais a 5. Por sua vez, a distribuição de \(Z_{0}^2\) pode ser aproximada pela distribuição Qui-Quadrado com 1 grau de liberdade. Esse último resultado deriva de um importante resultado sobre a distribuição Normal: o quadrado de uma variável aleatória \(N(0,1)\) possui distribuição Qui-Quadrado com 1 grau de liberdade.
A função prop.test utiliza \(Z_{0}^{2}\) como a estatística de teste. Apresentamos a seguir a utilização das funções binom.test e prop.test para o nosso exemplo.
Aplicando a função binom.test
Com a função binom.test, construímos testes de hipóteses e intervalos de confiança para a proporção. Ela possui os seguintes argumentos: \(x\), o número de sucessos observado na amostra; \(n\), o tamanho da amostra; \(p\), o valor da proporção populacional estabelecido na hipótese nula; alternative, onde indicamos o tipo de hipótese alternativa; e conf.level, onde indicamos o valor do coeficiente de confiança. Quando não especificados, a argumento p é assumido igual a 0,5 e o coeficiente de confiança igual a 0,95.
Para o exemplo, fazemos \(x = 20\), \(n = 300\), \(p_{0} = 0,10\) e alternative = “less”.
binom.test(x=20, n=300, p=0.1,alternative="less")
##
## Exact binomial test
##
## data: 20 and 300
## number of successes = 20, number of trials = 300, p-value = 0.02868
## alternative hypothesis: true probability of success is less than 0.1
## 95 percent confidence interval:
## 0.00000000 0.09540198
## sample estimates:
## probability of success
## 0.06666667
A função binom.test nos retornou o p_valor do teste igual a 0,02868 e o intervalo unilateral superior de confiança para p. Como o valor mínimo possível para uma proporção é 0, o limite inferior deste intervalo é feito igual a 0.
Considerando nível de significância \(\alpha=0,05\), concluímos que temos evidências amostrais para concluir que a mudança no sistema de produção dos itens reduziu a proporção de itens produzidos com defeito (p_valor=0.02868 < \(\alpha = 0,05\)). O resultado do teste de hipótese nos diz que o novo processo é vantajoso em relação ao processo padrão, uma vez que ele reduz a proporção de itens defeituosos. Para quantificarmos o quão vantajoso ele é, olhamos para o intervalo de confiança. A proporção de itens produzidos com defeito após a mudança no sistema de produção é estimada em 0,0667 e com 95% de confiança é no máximo igual a 0,0954.
O p-valor obtido acima resulta do cálculo da probabilidade \(P(Y \leq 20 |Y \sim B(300;0.10))\), isto é da probabilidade de observar um valor de Y tão ou mais extremo que \(Y = 20\) quando a hipótese nula \(H_{0}:p=0,10\) é verdadeira. Sem uso da função binom.test, esta probabilidade é obtida fazendo:
pbinom(20, size=300, prob=0.1)
## [1] 0.02867896
Aplicando a função prop.test
A função prop.test possui os mesmos argumentos que a função binom.test, além do argumento correct. Este argumento deve ser feito igual a TRUE, a opção padrão, para considerar a correção de continuidade ou correção de Yates no cálculo do p-valor e na obtenção dos limites de confiança.
Usando a função prop.test obtemos os seguintes resultados para o exemplo:
prop.test(x=20, n=300, p=0.1,alternative="less",correct="FALSE")
##
## 1-sample proportions test without continuity correction
##
## data: 20 out of 300, null probability 0.1
## X-squared = 3.7037, df = 1, p-value = 0.02715
## alternative hypothesis: true p is less than 0.1
## 95 percent confidence interval:
## 0.00000000 0.09443818
## sample estimates:
## p
## 0.06666667
O valor obtido para a estatistica de teste, \(Z_{0}^{2}=3,7037\), corresponde a um valor de \(Z_{0} = -1,9245\). O p-valor obtido usando o teste aproximado \(0.02868\) é bastante próximo do p-valor obtido com o teste “exato”, \(0,02715\). O mesmo acontece com o limites do intervalo de confiança.
Sem utilizar a função prop.test, podemos calcular, para o teste aproximado, o p-valor dado pela probabilidade
\[P(Y \leq 20) = P\left(\hat{p} \leq \frac{20}{300}\right) = P\left(Z_{0} \leq \frac{(\frac{20}{300}-0,1)}{\sqrt{\frac{0.1 \times 0,9}{300}}}\right) = P\left(Z_{0} \leq -1,9245 \right) = 0,5 \times P\left(Z_{0}^2 \leq 3,7037\right)\]
Para isto, utilizamos o seguinte código:
p_est=20/300 #estimativa de p
Z0=(p_est-0.10)/sqrt(0.1*(1-0.10)/300)
p_valor=pnorm(Z0)
p_valor
## [1] 0.02714591
Considerando a correção de continuidade
Quando aproximamos a distribuição Binomial, uma distribuição discreta, pela distribuição Normal, uma distribuição contínua, o uso de correção de continuidade tem por objetivo tornar as probabilidades calculadas segundo o modelo Normal mais próximas daquelas obtidas usando o modelo Binomial. A idéia por trás da correção de continuidade é simples: para um modelo binomial calculamos probabilidades para cada valor de Y, o número de sucessos, enquanto que para o modelo Normal calculamos probabilidades para intervalos de valores. Associamos a um valor \(y\), no modelo binomial, o intervalo entre \(y-0,5\) e \(y+0,5\) no modelo normal. Desta forma, \(P(Y = y)\), no modelo Binomial, corresponde à \(P(y - 0,5 \leq Y \leq y + 0,5)\), no modelo Normal. Consequentemente, com correção de continuidade, \(P(Y < y)\) é aproximada pela probabilidade \(P(Y < y-0,5)\) no modelo Normal, \(P(Y \leq y)\) por \(P(Y < y+0,5)\), \(P(Y > y)\) por \(P(Y > y+0,5)\) e \(P(Y \geq y)\) por \(P(Y > y-0,5)\).
Para o exemplo, o p_valor, com correção de continuidade é obtido, calculando a probabilidade:
\[P(Y \leq 20,5) = P\left(\hat{p} \leq \frac{20,5}{300}\right) = P\left(Z_{0} \leq \frac{(\frac{20,5}{300}-0,1)}{\sqrt{\frac{0.1 \times 0,9}{300}}}\right) = P\left(Z_{0} \leq -1,8283 \right) = 0,5 \times P\left(Z_{0}^2 \leq 3,3426\right)\]
No R, ele é obtido fazendo:
p_est=20/300 #estimativa de p
Z0=(p_est+0.5/300-0.10)/sqrt(0.1*(1-0.10)/300)
p_valor=pnorm(Z0)
p_valor
## [1] 0.03375408
ou usando a função prop.test, com correct=“TRUE”.
prop.test(x=20, n=300, p=0.1,alternative="less",correct="TRUE")
##
## 1-sample proportions test with continuity correction
##
## data: 20 out of 300, null probability 0.1
## X-squared = 3.3426, df = 1, p-value = 0.03375
## alternative hypothesis: true p is less than 0.1
## 95 percent confidence interval:
## 0.00000000 0.09635565
## sample estimates:
## p
## 0.06666667
Ambas funções binom.test e prop.test retornam intervalos de confiança quando utilizadas. Quando o teste utilizado é um teste bilateral, elas retornam um intervalo de confiança bilateral e no caso de testes unilaterais elas retornam intervalos de confiança unilaterais: intervalo unilateral superior no caso do teste unilateral esquerdo e intervalo unilateral inferior no caso do teste unilareral esquerdo. Quando contruímos o intervalo unilateral inferior de confiança, apenas o limite inferior é obtido; seu limite superior é feito igual a 1, o maior valor possivel para uma proporção. Por outro lado, quando contruímos o intervalo unilateral superior de confiança, apenas o limite superior é obtido; seu limite inferior é feito igual a 0, o menor valor possivel para uma proporção.
Mas, como são construídos estes intervalos retornados com as funções binom.test e prop.test?
Existem vários métodos para construção de intervalos de confiança para uma proporção. Um dos mais conhecidos é aquele construído pelo método de Wald. Segundo esse método, os limites inferior e superior de confiança para um intervalo bilateral de \(100(1-\alpha)\%)\) de confiança para a proporção populacional são dados pelos valores de p que satisfazem as equações:
\[-Z_{\alpha/2}=\frac{\hat{p}-p}{\sqrt{\frac{\hat{p} \times (1 - \hat{p})}{n}}} \quad e \quad Z_{\alpha/2}=\frac{\hat{p}-p}{\sqrt{\frac{\hat{p} \times (1 - \hat{p})}{n}}},\]
que resultam no intervalo cujos limites são:
\[\hat{p}-z_{\alpha/2} \times \sqrt{n \times \hat{p} \times (1 - \hat{p})} \quad e \quad \hat{p}+z_{\alpha/2} \times \sqrt{n \times \hat{p} \times (1 - \hat{p})}\]
Este intervalo é facilmente calculado no R. Para o exemplo, o intervalo bilateral de \(95\%\) de confiança para \(p\) é obtido fazendo:
p_est = 20/300 #estimativa de p
LI=p_est+qnorm(0.025)*sqrt(p_est*(1-p_est)/300)
LS=p_est+qnorm(0.975)*sqrt(p_est*(1-p_est)/300)
p_est
## [1] 0.06666667
LI
## [1] 0.03843996
LS
## [1] 0.09489337
O intervalo unilateral de superior de \(100(1-\alpha)\%\) de confiança é dado pelos limites \(0\) e \(\hat{p}+z_{\alpha} \times \sqrt{n \times \hat{p} \times (1 - \hat{p})}\) e o intervalo unilateral inferior de confiança pelos limites \(\hat{p}-z_{\alpha} \times \sqrt{n \times \hat{p} \times (1 - \hat{p})}\) e \(1\).
Para o exemplo, o intervalo superior de confiança produz o seguinte resultado:
p_est = 20/300 #estimativa de p
LS=p_est+qnorm(0.95)*sqrt(p_est*(1-p_est)/300)
LS
## [1] 0.09035527
Observe que o limite superior desse intervalo é diferente do limite superior retornado pela função prop.test, caso sem correção de continuidade igual a \(0,0944\). A função prop.test usa um outro método para a obtenção do intervalo de confiança aproximado para a proporção, chamado de método de Wilson. Segundo este método, os limites inferior e superior de confiança são obtidos como os valores da proporção populacional \(p\) que satisfazem respectivamente às equações seguintes, para valores fixos de \(\alpha\), \(n\) e valor de \(\hat{p}\) observados na amostra:
\[-Z_{\alpha/2}=\frac{\hat{p}-p}{\sqrt{\frac{p \times (1 - p)}{n}}} \quad e \quad Z_{\alpha/2}=\frac{\hat{p}-p}{\sqrt{\frac{p \times (1 - p)}{n}}}.\]
Comparado ao método de Wald, o método de Wilson tem as seguintes vantagens:
Ele sempre produz limites de confiança que pertencem ao intervalo [0,1],
Ele produz resultados consistentes com os resultados do teste de hipótese aproximado para a proporção. Isto significa que sempre que o teste de hipótese aproximado para \(H_{0}: p=p_{0}\), ao nível de signficância \(\alpha\), levar à aceitação dessa hipótese, o valor \(p_{0}\) pertencerá ao intervalo de \(100(1-\alpha)\%\) de confiança para \(p\) e vice versa.
O intervalo confiança obtido com a função binom.test é obtido a partir da distribuição Binomial e por isto é chamado de método exato. Ele sempre produz resultados consistentes com os resultados do teste de hipótese “exato”. Segundo esse método, para um intervalo bilateral o limite inferior é dado pelo maior valor da proporção \(p\) tal que \(P(Y \leq y) > \alpha/2\) e o limite superior é dado pelo menor valor da proporção p tal que \(P(Y \geq y) > \alpha/2\), onde \(Y \sim B(n,p)\) e \(y\) é o valor de \(Y\) observado na amostra.
Nessa seção veremos como usar o R para realização de testes de hipóteses e intervalos de confiança para comparação de 2 proporções populacionais utilizando os seguintes exemplos:
Exemplo 2: Para comparar 2 tipos de solução de polimento para lentes a serem usadas em cirurgias de catarata, denotadas por solução A e solução B, 600 lentes homogêneas foram aleatoriamente divididas em 2 grupos com 300 lentes cada. Num dos grupos utilizou-se a solução A e no outro a solução B. No primeiro grupo 253 lentes apresentaram resultados satisfatórios após o polimento, enquanto no segundo grupo este valor foi igual a 196. Há razões para acreditar que a proporção de lentes com desempenho satisfatório após o polimento depende do tipo de solução utilizada?
Exemplo 3: Dois candidatos, um homem e uma mulher, estão disputando a prefeitura de uma cidade. Um pesquisador deseja avaliar se a preferência pela candidata do sexo feminino é maior entre o eleitorado feminino do que entre o eleitorado masculino. Para responder sua pergunta, foram entrevistados 500 eleitores do sexo feminino e 500 eleitores do sexo masculino sobre sua preferência entre os candidatos. Os numero de eleitores que responderam preferir o candidato do sexo feminino, foram respectivamente iguais a 369 e 352. Qual deve ser a conclusão do pesquisador?
Faremos aqui o mesmo pressuposto realizado na seção enterior, que o numero de sucessos observado em cada amostra, denotados por \(Y_{1}\) e \(Y_{2}\), são variáveis aleatórias Binomiais, respectivamente com parâmetros \(n_{1}, p_{1}\) e \(n_{2}, p_{2}\). Assumimos também que \(Y_{1}\) e \(Y_{2}\) são variáveis aleatórias independentes, o que equivale a assumir que temos 2 amostras aleatórias independentes, de tamanhos \(n_{1}\) e \(n_{2}\), de distribuições de Bernoulli, com parâmetros \(p_{1}\) e \(p_{2}\).
Na seção anterior vimos como realizar testes de hipóteses e intervalos de confiança “exatos” e aproximados para uma proporção populacional. Para o caso de 2 proporções consideraremos apenas métodos aproximados, baseados no fato de que as distribuições de \(Y_{1}\) e \(Y_{2}\) podem ser aproximadas por distribuições Normais.
Para testarmos a hipótese nula de igualdade de 2 proporções populacionais, \(H_{0}: p_{1}-p_{2}=0 \quad (p_{1} = p_{2})\) contra uma hipótese alternativa, que pode ser bilateral ou unilateral, vamos utilizar a estatística de teste
\[ Z_{0} = \frac{\hat{p_1}- \hat{p_2}}{\sqrt{\hat{p}(1-\hat{p})(\frac{1}{n_1}+\frac{1}{n_2})}}\]
onde \(\hat{p}=\frac{Y_{1}+Y_{2}}{n_{1}+n_{2}}\), a proporção de sucessos observada nas duas amostras combinadas, estima a proporção de sucessos em cada população quando \(H_{0}\) é verdadeira. A distribuição dessa estatistica pode ser aproximada de forma satisfatória pela distribuição N(0,1), quando o número esperado de sucessos e o número esperado de fracassos em cada amostra, quando \(H_{0}\) for verdadeira, forem ambos maiores do que 5. Esses valores esperados são obtidos multiplicando os tamanhos de cada amostra pela proporção de sucessos na amostra combinada \(\hat{p}\).
Utilizando o método de Wald, um intervalo aproximado, de \(100(1 - \alpha)%\) de confiança, para a diferença entre as proporções é dado pelos limites:
\[\left(\hat{p_{1}} - \hat{p_{2}}\right) - z_{\alpha/2}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{1}}} \quad e \quad \left(\hat{p_{1}} - \hat{p_{2}}\right)+ z_{\alpha/2}\sqrt{\frac{\hat{p_{1}}(1-\hat{p_{1}})}{n_{1}}+\frac{\hat{p_{2}}(1-\hat{p_{2}})}{n_{2}}}\]
O teste e o intervalo aproximado descritos acima podem ser realizados escrevendo nosso próprio código ou usando a função \(prop.test\). Essa função, de modo equivalente ao caso de uma proporção, retorna a estatistica de teste \(Z_{0}^{2}\), que possui aproximadamente distribuição Qui-Quadrado com 1 grau de liberdade, ao invés da estatistica \(Z_{0}\).
Para o caso de 2 amostras, é necessário especificar os seguintes argumentos: um vetor \(X\) com os números de sucessos observados nas 2 amostras, um vetor \(n\) com os tamanhos das 2 amostras, o tipo de hipótese alternativa e o uso ou não da correção de continuidade, como no caso de uma proporção. Como resultado, essa função retorna o p-valor para o teste aproximado, as proporções estimadas e o intervalo de confiança aproximado para a diferença entre as proporções populacionais.
A seguir, ilustramos o uso da função prop.test para comparação de 2 proporções populacionais utilizando os exemplos 2 e 3. Em ambos os casos, vamos fixar o nível de signficância do teste em \(\alpha=0,05\) e o coeficiente de confiança em \(100(1-\alpha)\%\).
Para responder à pergunta feita no exemplo 2, vamos testar as hipóteses \[H_{0}: p_{A}=p_{B}\quad \times \quad H_{a}:p_{A} \neq p_{B},\] onde \(p_{A}\) e \(p_{B}\) são as proporções de lentes com resultado satisfatório após o uso, respectivamente, das soluções A e B.
Para realizar o teste aproximado para essas hipóteses, fazemos:
prop.test(x=c(253,196),n=c(300,300),alternative="two.sided")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(253, 196) out of c(300, 300)
## X-squared = 27.753, df = 1, p-value = 1.379e-07
## alternative hypothesis: two.sided
## 95 percent confidence interval:
## 0.1189026 0.2610974
## sample estimates:
## prop 1 prop 2
## 0.8433333 0.6533333
O p_valor igual a \(1,379 \times 10^{-7}\) nos indica que, considerando o nível de significância de 5%, os resultados do experimento evidenciam que as soluções de polimento são direntes quanto ao resultado obtido após o polimento, medido pela ausência de defeitos. Temos também, que com 95% de confiança, a diferença entre as proporções \(p_{A}-p_{B}\) está entre \(0,1189\) e \(0,2611\), portanto, indicando superioridade da solução de polimento A sobre a solução de polimento B.
Para responder à pergunta feita no exemplo 3, vamos testar as hipóteses \[H_{0}: p_{F}=p_{M}\quad \times \quad H_{a}:p_{F}>p_{M},\] onde \(p_{F}\) é a proporção de eleitores do sexo feminino que prefere o candidato do sexo feminino e \(p_{M}\) representa essa mesma proporção entre os eleitores do sexo masculino.
Usando a função prop.test, obtemos os seguntes resultados:
prop.test(x=c(369,352),n=c(500,500),alternative="greater")
##
## 2-sample test for equality of proportions with continuity correction
##
## data: c(369, 352) out of c(500, 500)
## X-squared = 1.2726, df = 1, p-value = 0.1296
## alternative hypothesis: greater
## 95 percent confidence interval:
## -0.01462456 1.00000000
## sample estimates:
## prop 1 prop 2
## 0.738 0.704
O p_valor, igual a 0,1296, indica que, considerando o nível de significância de 5%, não temos evidências de maior preferência pelo candidato do sexo feminino entre os eleitores do sexo feminino quando comparado aos eleitores do sexo masculino. Temos também que, a diferença entre as proporções \(p_{F}-p_{M}\), foi estimada em \(0,738-0,704=0,034\), e que,com \(95\%\) de confiança ela é maior ou igual a \(-0,0146\). Observe que, como esperado, este intervalo inclui o valor \(0\), estabelecido para a diferença \(p_{F}-p_{M}\) na hipótese nula, concordando com o resultado do teste de hipóteses.