Descrição:
Esse conjunto de dados foi elaborado para permitir uma ampla amostragem do genoma do arroz por um número reduzido de marcadores SNPs (Single Nucleotide Polymorphisms), e com isso viabilizar análises que requerem grande demanda computacional, como machine learning, por exemplo. O conjunto é composto por dados de genotipagem de 541 acessos da Coleção Nuclear de Arroz da Embrapa (CNAE) por 4.709 SNPs, tendo em média um SNP a cada 68.000 pares de base (pb), que é inferior ao desequilíbrio de ligação médio do arroz, em torno de 150.000 pb. Esse conjunto de dados foi elaborado a partir de um conjunto completo, composto por aproximadamente 400.000 SNPs. O diferencial desse conjunto de marcadores SNPs é que ele genotipou majoritariamente o germoplasma brasileiro de arroz, presente na CNAE, e que compõe a base genética do programa de melhoramento de arroz da Embrapa, que é marcadamente diferente da base genética do arroz asiático.