Introdução

Esse roteiro tem como objetivo fornecer funções para responder questões relacionadas com Intervalos de Confiança e Testes de Hipóteses. As respostas para os problemas serão obtidas pelo próprio estudante. Ressalta-se que o propósito deste documento não é ensinar a realizar análises e nem explicar as funções utilizadas.

Ajustes no banco de dados

Com o intuito de tornar o banco de dados menor e assim agilizar o processamento das análises no software, optou-se por utilizar os dados apenas das capitais da região sudeste. Esse ajuste é bem simples e pode ser feito no próprio Excel:

Clique na aba "Dados" > Clique na opção "Filtro" > Vá até até a variável "cidade" (linha 1, coluna D) > Clique na setinha ao lado da variável "cidade" > Selecione apenas os número 3, 21, 24 e 26 (Belo Horizonte, Rio de Janeiro, São Paulo e Vitória, respectivamente) > Copie a tabela filtrada e crie um novo documento no Excel com esses dados > Salve o documento com o nome vigitel_sudeste.xlsx. 

O novo banco de dados criado deve ser utilizado para seguir este roteiro. Lembre-se de salva-lo no seu diretório para que o R consiga detectar o mesmo para realizar as análises.

Outro ajuste necessário foi a “remoção” das respostas “777” e “888” (principalmente para variáveis numéricas), presente em diversas variáveis, para representar as respostas “não sabe” e “não quis responder”. Utilize os códigos abaixo para retirar o código para os valores faltantes “missing” da análise de dados e não influenciar o resultado final.

Lembre-se de abrir o banco de dados inicialmente:

library(readxl)
vigitel_sudeste <- read_excel("vigitel_sudeste.xlsx")

No RStudio, é possível importar os dados através do botão ‘Import Dataset’ no menu ‘Environmnet’ no lado direito do software.


Excluindo o código dos “missing” no banco de dados:

vigitel_sudeste$q9[vigitel_sudeste$q9==777]=NA
vigitel_sudeste$q9[vigitel_sudeste$q9==888]=NA
vigitel_sudeste$q11[vigitel_sudeste$q11==777]=NA
vigitel_sudeste$q11[vigitel_sudeste$q11==888]=NA
vigitel_sudeste$q35[vigitel_sudeste$q35==888]=NA
vigitel_sudeste$q61[vigitel_sudeste$q61==888]=NA
vigitel_sudeste$q69[vigitel_sudeste$q69==777]=NA
vigitel_sudeste$q69[vigitel_sudeste$q69==888]=NA
vigitel_sudeste$q75[vigitel_sudeste$q75==777]=NA
vigitel_sudeste$q76[vigitel_sudeste$q76==777]=NA
vigitel_sudeste$r133a[vigitel_sudeste$r133a==777]=NA
vigitel_sudeste$r133a[vigitel_sudeste$r133a==888]=NA
vigitel_sudeste$r133b[vigitel_sudeste$r133b==777]=NA
vigitel_sudeste$r133b[vigitel_sudeste$r133b==888]=NA

Além disso, como a amostra é grande, podemos assumir que ela apresenta uma distribuição normal.

Dicionário para as variáveis

Intervalo de confiança


IC para média populacional com \(\sigma\) desconhecido

Como construir um histograma para a variável “q9” (peso) afim de visualizar se a variável peso possui distribuição próxima a normal?

Para construir o histograma, basta utilizar a função abaixo:

hist(vigitel_sudeste$q9)

Ainda considerando a variável “q9” e um nível de confiança de 95%, qual é o intervalo de confiança para a média populacional?

n = length(vigitel_sudeste$q9)                 # Tamanho da amostra
xbar = mean(vigitel_sudeste$q9,na.rm=TRUE)     # Média amostral
t = qt(0.975, df=n-1)                          # Teste t
s = sd(vigitel_sudeste$q9,na.rm=TRUE)          # Desvio padrão amostral

ICinf = xbar - t * (s/sqrt(n))                 # IC inferior
ICsup = xbar + t * (s/sqrt(n))                 # IC superior


# Simplificando, é possível fazer o cálculo com apenas uma linha de código:
t.test(vigitel_sudeste$q9, conf.level=0.95, na.rm=TRUE)


IC para proporções

Considere que um pesquisador deseja construir uma estimativa intervalar (com nível de confiança de 95%), com base no nosso banco de dados, qual a proporção de mulheres com carteira de habilitação (“r190”) na população?

Pode-se solucionar essa questão da seguinte maneira:

n = length(vigitel_sudeste$q7)                          # Tamanho da amostra 
hab = vigitel_sudeste$r190[vigitel_sudeste$q7 == "2"]   # Mulheres dentro da variável "habilitação"
mulher_hab = hab[hab == "1"]                            # Mulheres que de fato possuem habilitação
total_mulheres = sum(mulher_hab)                        # Soma de todas as mulheres com habilitação

prop.test(total_mulheres, n, conf.level=0.95)

Testes de Hipóteses


Teste bilateral

Considerando a variável altura (“q11”), suponha que um pesquisador acredita que o valor médio da altura da população seja de 170cm. À um nível de 5% de confiança, rejeita-se ou não essa hipótese?

\(H_0: \mu = 170cm\)

\(H_1: \mu \ne 170cm\)


Para aceitar ou rejeitar essa hipótese, é necessário fazer um teste de hipóteses por meio da função:

t.test(vigitel_sudeste$q11, mu=170, na.rm=TRUE)

Utilize o p-valor para decidir sobre as hipóteses.

Teste unilateral

Ainda considerando a variável altura, o pesquisador quer saber se, a 5% de significância, a média da altura dos homens (\(\bar{X}\)) é maior do que a média da altura da mulheres (\(\bar{Y}\))?

\(H_0: \mu_\bar{X} \ge \mu_\bar{Y}\)

\(H_1: \mu_\bar{X} \lt \mu_\bar{Y}\)


É possível fazer isso com a seguinte função:

X = vigitel_sudeste$q11[vigitel_sudeste$q7 == "1"]       # Seleciona os participantes do sexo masculino
Y = vigitel_sudeste$q11[vigitel_sudeste$q7 == "2"]       # Seleciona as participantes do sexo feminino

t.test(x=X, y=Y, alternative="greater") 


Teste bilateral para uma proporção populacional

Considere que um pesquisador suponha que 10% das pessoas seja fumante. Como testar essa hipótese, a um nível de significância de 5% a partir da amostra obtida?

\(H_0: p = 10\%\)

\(H_1: p \ne 10\%\)


É possível utilizar o seguinte código para resolução:

n = length(vigitel_sudeste$q60)                               # Total de participantes da pequisa
fumante_1 = vigitel_sudeste$q60[vigitel_sudeste$q60 == "1" ]  # Pessoas que fumam diariamente
fumante_2 = vigitel_sudeste$q60[vigitel_sudeste$q60 == "2" ]  # Pessoas que fumam, mas não diariamente
fumante = sum(length(fumante_1),length(fumante_2))            # Total de fumantes

prop.test(fumante, n, p=0.1, correct=F)


Teste unilateral para uma proporção populacional

Imagine que 40% da população consumiu bebida alcóolica em 2018. Considerando esse dado fictício e a amostra do nosso banco de dados, em 2019, a um nível de 5% de significância, a proporção de pessoas que beberam foi maior do que 40%?

\(H_0: p = 40\%\)

\(H_1: p > 40\%\)


Os códigos abaixo solucionam esse teste de hipótese:

n = length(vigitel_sudeste$q35)                                    # Total de participantes da pequisa
bebida = length(vigitel_sudeste$q35[vigitel_sudeste$q35 == "1" ])  # Pessoas que consumiram álcool

prop.test(bebida, n, p=0.4, alternative="greater", correct=F)


Teste Qui-Quadrado

Testar Independência

Para promover políticas de saúde pública um hospital quer saber se, a um nível de 5% de significância, possuir pressão alta independe do sexo do indivíduo. Como saber se essas variáveis são dependentes?

Pode-se realizar um teste Qui-Quadrado de independência através da função:

chisq.test(vigitel_sudeste$q7, vigitel_sudeste$q75)


Observação: Um teste de homogeneidade pode ser realizado da mesma forma que o teste de independência quando a amostras foi coletada de uma forma adequada para este tipo de teste.


Revisão

Esta seção propõe questões sem fornecer o código de referência. Agora é a sua vez de aplicar as funções vistas nesse roteiro.

1. A variável "q6" (idade) tem uma distribuição aproximadamente normal?

2. Considere a variável "q11" (altura) e um nível de confiança de 99%. Qual é o intervalo de confiança para a 
média da população? 
  
3. Acredita-se que a média da idade (variável "q6") da população da qual foi obtida a amostra de entrevistados seja menor que 50 anos. A um nível de 5% de significância, teste essa hipótese.      

4. Teste a hipótese de que, a um nível de significância de 1%, 45% das pessoas praticam esportes (variável "q42"). 

5. Considerando uma proporção de 30% de diabéticos em 2018, teste a hipótese, a 5% de significância, de que a proporção de diabéticos em 2019 foi menor do que 30% (variável "q76"). 

6. A hipertensão é uma Doença Crônica Não Transmissível bastante comum na população brasileira, sendo assim, a um nível de 5% de significância, teste a hipótese de que mais de 35% da população entrevistada possui pressão alta (variável "q75"). 

7. A um nível de 5% de significância, pode-se dizer que o consumo de bebida alcoólica é dependente do sexo do indivíduo (variável "q35")? 
  
8. Uma instituição de segurança no trânsito, deseja saber, a um nível de 5% de significância, se a proporção de 
motoristas que já dirigiram alcoolizados (variável "q40") é independente da cidade do motorista.