Questões de Estatística - Análise de Cluster para Concurso
Foram encontradas 3 questões
Quanto maior a escala da urbanização, maiores tendem a ser os ganhos de produtividade das firmas. Do mesmo modo, a maior diversidade de bens e serviços ofertados, de interações sociais e econômicas e de serviços públicos disponíveis para consumo da coletividade torna-se um diferencial de grande significado para a localização empresarial. Para o Brasil, no processo de desconcentração produtiva, mostrou-se que a localização de firmas industriais adquiriu um comportamento fortemente associado a economias de aglomeração dadas pelo estoque de infraestrutura e mão de obra qualificada: o tecido industrial tornou-se concentrado — e desconcentrou concentradamente — em uma grande porção do território entre o Sul e o Sudeste. Consideradas, de um lado, as motivações e lógicas do setor privado e os estímulos do mercado mundial e do território inercial do desenvolvimento brasileiro e, de outro lado, as motivações e os esforços governamentais, em sentido amplo, para atuação sobre novas geografias econômicas nacionais, identificam-se cinco tipos preferenciais de territórios predominantemente impactados e redefinidos pela potência das forças em atuação.
MONTEIRO NETO, A.; SILVA, R.; SEVERIAN, D. O território das atividades industriais no Brasil: a força das economias de aglomeração e urbanização. In: MONTEIRO NETO, A. (org.). Brasil, Brasis: reconfigurações territoriais da indústria no século XXI. Brasília, DF: Ipea, 2021, p. 256-258. Adaptado.
Na tipologia mencionada acima, encontram-se rearranjos territoriais que se prestam à análise das formas de aglomeração e os que concorrem para a desaglomeração.
Considerando-se especificamente os vetores que levam à concentração produtiva, identificam-se territórios predominantemente impactados e (re)definidos por
I. Na execução do algoritmo K-means, é possível que a alocação de observações aos clusters não mude entre duas iterações sucessivas.
II. O uso de duas medidas de similaridade distintas pode produzir dois dendrogramas diferentes ao se aplicar um algoritmo de agrupamento aglomerativo para o mesmo conjunto de dados.
III. Em uma análise envolvendo duas variáveis, considere que, após a primeira iteração do algoritmo K-Means aplicado para agrupar sete observações em três clusters, C1, C2 e C3, obteve-se a seguinte configuração: C1={(2,2), (4,4), (6,6)}; C2={(0,4), (4,0)} e C3={(5,5), (9,9)}. Então, os respectivos centroides que darão seguimento à próxima iteração serão C1=(4,4), C2=(2,2) e C3=(7,7).
Está correto o que se afirma em
A respeito das medidas de similaridade e dissimilaridade no âmbito da teoria de análise de agrupamentos (cluster), considere as seguintes afirmativas:
1. A distância de Minkowsky entre dois pontos Xl e Xk é muito mais afetada pela presença de valores discrepantes na amostra do que a distância euclidiana. Para λ = 1, a distância de Minkowsky é conhecida como city-block ou Manhattan.
2. O coeficiente de concordância positiva é definido como o número de pares realmente concordantes em relação ao número total de pares. Quanto maior o seu valor, maior é a concordância entre os elementos comparados, razão pela qual é um índice de similaridade.
3. A distância euclidiana média revela que, quanto menor o valor da distância, maior será a similaridade dos elementos comparados; portanto é um índice de discordância ou de dissimilaridade.
4. O coeficiente de Jaccard tem o mesmo objetivo que o coeficiente de concordância positiva. A diferença é que a proporção de pares concordantes é calculada em relação ao número total de pares, excluindo-se os pares do tipo (0 0).
Assinale a alternativa correta.