Introdução

O presente roteiro foi criado com o objetivo de familiarizar o estudante com o software R, neste caso mais precisamente com o pacote Rcommander. O pacote em questão permite que o usuário realize análises estatística apenas com comandos (cliques), tendo a intenção de ser mais intuitivo. Portanto, ao decorrer do documento, será fornecido ao leitor perguntas cujas respostas são obtidas com estatística descritiva e em seguida um passo a passo de como obter estas informações. O resultado não será mostrado, a fim de que esses sejam obtidos e interpretados pelo próprio aluno.

Os dados utilizados nas análises estatísticas serão os dados do Vigitel de 2019. O Vigitel faz parte do Sistema de Vigilância de Fatores de Risco para Doenças Crônicas Não Transmissíveis (DCNT) do Ministério da Saúde, com o objetivo de coletar dados para conhecer a situação de saúde da população. A pesquisa é realizada através de questionário aplicado por ligação telefônica para moradores das capitais brasileiras e distrito federal. Para ter acesso a mais informações sobre o vigitel, relatórios e questionários, clique aqui, para acessar aos bancos de dados, clique aqui.

Para instalar o pacote Rcommander, utilize a função “install.packages(‘Rcmdr’)” através do Rgui, após instala-lo, abra-o utilizando a função “library(‘Rcmdr’)”

Ajustes no banco de dados

Com o intuito de tornar o banco de dados menor e assim agilizar o processamento das análises no software, optou-se por utilizar os dados apenas das capitais da região sudeste. Esse ajuste é bem simples e pode ser feito no próprio Excel:

"Dados" > Clique na opção "Filtro" > Vá até até a variável "cidade" (linha 1, coluna D) > Clique na setinha ao lado da variável "cidade" > Selecione apenas os número 3, 21, 24 e 26 (Belo Horizonte, Rio de Janeiro, São Paulo e Vitória, respectivamente) > Copie a tabela filtrada e crie um novo documento no Excel com esses dados.

Outro ajuste necessário foi a “remoção” das respostas “777” e “888” (principalmente para variáveis numéricas), presente em diversas variáveis, para representar as respostas “não sabe” e “não quis responder”. Para não contabilizar esses valores nas análise pode-se substitui-los por uma resposta em branco, assim o software automaticamente não irá inclui-los nos cálculos. Isso pode ser facilmente feito no próprio Excel, na nova tabela com os dados filtrados para o sudeste, realize os seguintes passos:

Na página inicial clique no binóculos "Localizar e Selecionar" > "Substituir" > Na lacuna "Localizar" digite o valor "777" e na lacuna "Substituir por:" deixe em branco > Por fim clique em "Substituir tudo" > Repita o processo com o valor "888".

O novo banco de dados criado deve ser utilizado para seguir este roteiro. Lembre-se de salva-lo no seu diretório para que o R consiga detectar o mesmo para realizar as análises.

Agora ajustada, a planilha deve ser aberta no Rcommander através dos seguintes comandos:

Dados > Importar arquivos de dados > do arquivo Excel > Defina o nome de preferência > Ok > (clicar no banco de dados desejado) > Abrir.

Transformação das variáveis em fator

Ademais, pelo fato de que nesse banco de dados as variáveis categóricas foram “transformadas em numéricas” para análise, é necessário indicar isso para o software para que o mesmo possa interpretar os dados como fator, tipo de objeito adequado para variáveis categóricas. Para isso, utilize os comandos abaixo:

Dados > Modificação de variáveis no conjunto de dados > Converter variável numérica
para fator > Selecione as variáveis "q7", "q35", "q42", "q69", "q75", "q76", "r133a" e "r133b" > Em nível dos fatores marque "Use números" > Ok. 

Se preferir é possível criar nome para essas variáveis e também para o “número resposta”, veja o exemplo para a variável “q7”:

Dados > Modificação de variáveis no conjunto de dados > Converter variável numérica
para fator > Selecione a variável "q7" > Em nível dos fatores marque "Defina nomes dos npiveis" > Na lacuna "Novo nome..." escreva "sexo" > Ok > Irá aparecer uma nova janela, na lacuna correspondente ao valor 1 digite "masculino" e na de valor 2 digite "feminino" > Ok 

Dicionário para as variáveis

Tabelas e Gráficos

As tabelas e gráficos são excelentes para organizarmos nossos dados de forma resumida e visual, assim facilitando a interpretação dos mesmos.

Tabelas

Uma característica que pode ser de interesse, é o sexo dos indivíduos entrevistados. Para analisar isto podemos criar uma pequena tabela separando os indivíduos entre o sexo masculino e feminino. Outras perguntas de interesse são listadas abaixo com os respectivos comandos para obter dados capazes de responde-las.


O número de entrevistados possui mais pessoas do sexo masculino ou do sexo feminino?

Encontre essa frequência através dos seguintes comandos:

Estatísticas > Resumos > Distribuição de frequência > "q7" > Ok.


A proporção de pessoas que não praticaram exercício físico ou esportes nos últimos 3 meses é a maioria dos entrevistados?

Proporção ainda se refere a frequência, então siga o mesmo passo a passo anterior.

Estatísticas > Resumos > Distribuição de frequência > "q42" > Ok.

Pensando em avaliar relação entre variáveis podemos criar tabelas de contingência, por exemplo:

Estatísticas > Tabelas de Contigência > Tabela de dupla entrada > Selecione "q7" e "q42" > Ok.

Deve-se utilizar a frequência relativa para que seja possível fazer uma comparação justa entre os sexos.


Qual sexo apresenta maior frequência relativa de pessoas que praticaram exercício ou algum esporte nos últimos 3 meses??

A tabela de contigência resume bem as informações necessárias para responder essa pergunta, e ela pode ser solicitada com os seguintes comandos:

Estatísticas > Tabelas de Contigência > Tabela de dupla entrada > Selecione "q7" e "q42" > Estatística > "Percentual nas linhas" > Desmarque "Teste de indepedência de Qui-quadrado" > Ok.


Para trabalhar com variáveis contínuas, crie faixas de valores:

Dados > Modificação de variáveis no conjunto de dados... > Agrupar em classes uma variável numérica (para criar fator)... > "q9" > Ajuste para 5 "Números de classes" > Nomear "peso_categorizado" > Mude os "Nomes dos níveis" para "Intervalos" > Ok.


Qual a faixa de peso que apresenta maior frequência na amostra?

Utilizando a variável criada anteriormente, prossiga pedindo a distribuição de frequência.

Estatísticas > Resumos > Distribuição de frequência > "peso_categorizado" > Ok.


Gráficos

Os gráfico são ótimos para ilustrar e resumir os dados de forma visual e atrativa, facilitando a interpretação.

A maior parte das pessoas desta amostra consomem bebidas alcoólicas?

O gráfico de setores é ótimo para variáveis categóricas com apenas duas resposta, veja:

Gráficos > Gráfico de Pizza > "q35" > Título "Consumo de álcool" > Ok.


Qual a etnia predominante na amostra dessa pesquisa?

Os gráficos de barras são fáceis de analisar e podem responder essa questão mostrando qual etnia tem a barra mais alta.

Gráficos > Gráfico de barras > "q69" > Título "Etnia" > Escala do eixo em "Percentagens" > Ok.

Perceba que uma barra apresenta o valor 80, e o mesmo não é código para nenhuma resposta, sendo um provável erro de digitação dos dados.Para retirá-lo faça o mesmo processo utilizado para retirar os valores “777” e “888”:


A altura dos entrevistados possui uma distribuição simétrica? Existem valores atípicos?

O gráfico de boxplot ilustra as duas questões solicitadas, sendo o mais indicado neste caso. Crie um boxplot repetindo os passos abaixo:

Gráficos > Boxplot > "q11" > Título "Boxplot para Altura" > Ok.


A distribuição de altura dos entrevistados é próxima a uma distribuição normal?

Um histograma pode responder se uma variável aparenta ter distribuição normal ou não, e é feito no R commander da seguinte forma:

Gráficos > Histograma > "q11" > Título "Histograma para Altura" > Ok.


O peso e a altura estão relacionados?

O gráfico ou diagrama de dispersão é utilizado para ilustrar relação entre duas variáveis, use os comandos abaixos para criar um:

Gráficos > Diagrama de Dispersão > "q11" e "q9" > Eixo x "Altura" > Eixo y "Peso" > Título "Altura x Peso" > Ok.


Síntese Numérica

A síntese numérica é bastante útil, uma vez que torna capaz de resumir os diversos valores obtidos em um único número que, de determinada forma, represente a amostra estudada.

Qual a média de cigarros fumados por dia?

A média pode ser obtida da seguinte maneira:

Estatística > Resumos > Resumos numéricos > "q61" > Em estatística "Média" > Ok.


Em média homens fumam mais que mulheres?

A média estratificada possui umas etapas a mais, veja:

Estatística > Resumos> Resumos numéricos > "q61" > "Resuma por grupos..." > "q7" > Em estatística "Média" > Ok.


Qual a idade mediana dessa amostra?

Encontre a mediana pedindo o quantil “.5”, seguindo as etapas a seguir:

Estatística > Resumos > Resumos numéricos > "q6" > Em estatística apenas ".5" em "Quantis" > Ok.


Qual a idade representa o 1 quartil dessa amostra?

Os comandos utilizados para encontrar a mediana podem ser utilizados para os demais quartis.

Estatística > Resumos > Resumos numéricos > "q6" > Em estatística apenas ".25" em "Quantis" > Ok.


Descreva as principais medidas de resumo para as variáveis do banco de dados. Qual a maior e menor idade da amostra? Qual a maior e menor altura? Qual o maior número de cigarros fumados por dia por um dos entrevistados?

Em poucas etapas essas questões podem ser respondidas, veja:

Estatística > Resumos > Conjunto de dados ativo > Ok.

Esse comando irá fornecer algumas medidas de resumo para diversas variáveis, mas perceba que essa função pode não ser muito prática para bancos com uma grande quantidade de variáveis.


Com base no desvio padrão, o peso possui mair variação em homens ou mulheres?

O desvio padrão pode ser calculado estratificando por sexo seguindo o caminho abaixo:

Estatística > Resumos > Tabelas de estatística > "q7" em "Fatores" > "q9" em "Variáveis resposta"  > Em estatística "Desvio padrão" > Ok.


Através do escore padronizado z, pode-se dizer que o valor minimino ou máximo do peso é um valor atípico?

Para isso utilize os comandos a seguir:

Dados > Modificação de variáveis no conjunto de dados... > Padronizar variáveis... > "q9" > Ok.

Com isso você terá criada uma nova variável com todos os valores de peso padronizados, prossiga pedindo medidas de resumos.

Estatística > Resumos> Conjunto de dados ativo > Ok.

A nova variável será a última da lista, e estará nomeada como “Z.q9”

Para responder a pergunta inicial, considere que valores maiores que 2, ou menores que -2 são considerados valores atípicos.


Qual a variável que apresenta maior variabilidade, peso ou altura?

O coeficiente de variação torna possível comparar variáveis com diferentes unidades de medida, e no R commander ele pode ser obtido da seguinte maneira:

Estatística > Resumos> Resumos numéricos > "q9" e "q11" > Em estatística apenas "Coeficiente de variação" > Ok.


O quão forte é a relação entre peso e altura?

O coeficiente da correlação de Pearson responde essa questão, e ele pode ser obtido com os seguintes argumentos:

Estatística > Resumos > Matriz de correlação> "q9" e "q11" > "Produto-momento Pearson" e "Observações completas > Ok.

Considere para responder: 0<|r|<0,4 correlação fraca; 0,4=<|r|<0,7 correção moderada; 0,7=<|r|<1 correlação forte; e |r|=1 correlação perfeita.


Revisão

1. Demostre visualmente se a idade apresenta correlação com o número de cigarros fumados por dia?

2. Existem valores atípicos para a variável idade?

3. Qual a frequência relativa de pessoas com etnia parda?

4. A variável peso apresenta distribuição próxima da normal?

5. Nessa amostra, em média, os homens são mais pesados do que as mulheres?

6. Qual a faixa de altura que apresenta menor frequência? Crie 8 intervalos de mesmo tamanho para responder esta pergunta.

7. As variáveis idade e peso possuem correlação fraca, moderada ou forte?

8. Crie um gráfico de setores para ilustrar  a frequência de pessoas com diabetes  que utilizam ou não insulina.

9. Qual a altura mediana na amostra?

10. Qual o percentual de pessoas com hipertensão no estudo?

11. Qual a quantidade de pessoas do sexo feminino possuem hipertensão?

12. Qual a média da idade dos participantes do estudo?

13. Quantas pessoas possuem etnia indígena?

14. Crie um gráfico de barras para avaliar a frequência de pessoas com diabetes que utilizam medicamento 
em comprimido.