Planilhas, planilhas, planilhas: o caos do compartilhamento de dados

Por Ju Leonel


Text alt da figura de divulgação: fundo amarelo com bolinhas beges. Sobre ele aparece cinco pilhas de folhas brancas e em cima delas há uma pessoa sentada com a mão na testa e expressão de preocupação. A pessoa tem cabelo loiro longo, calça laranja, blusa e sabado azul. No centro da imagem está a frase “ Planilhas, planilhas, planilhas”. O canto direito superior há a @batepapocomnetuno

Uma vez li um texto que chamavam as planilhas de dados de “Caixa de Pandora”. A expressão tem origem na mitologia grega e significa um presente que parece valioso, mas que é uma maldição. Na época eu não conseguia imaginar como uma cientista poderia sobreviver sem usar planilhas e não dei muita atenção a isso. No entanto, com o passar dos anos fui entendendo melhor a mensagem por trás daquele texto e, apesar de ainda usar planilhas, o faço com muito mais cautela e atenção - e sempre que possível, dou preferência por arquivos no formato de valores separados por vírgulas (csv, comma-separated-values).


As planilhas as quais me refiro aqui são aquelas usadas em softwares como Excel ou OpenOffice e que são uma ótima forma de organizar dados. Por serem fáceis de usar e editar, são usadas pelos pesquisadores; logo, também são facilmente compartilhadas. Mas, assim como nem tudo que reluz é ouro, algumas coisas que parecem organizadas, na verdade, podem ser um grande caos.


A primeira coisa que precisamos considerar é que o que vemos na planilha quando ela está aberta no software com as nossas configurações pode não ser a mesma coisa que outras pessoas do outro lado do mundo vêem. As configurações pessoais de cada máquina (= computador) interferem na formatação dos dados. Como estamos muito acostumados com a nossa configuração, nem sempre nos damos conta de como isso vai afetar a organização dos dados quando compartilhamos com outras pessoas.


Para isso ficar mais claro, vejamos alguns exemplos:


1. Datas


Recomenda-se que pesquisadores usem o formato padrão do ISO para registrar datas (ANO-MÊS-DIA). No entanto, quando a planilha reconhece que a informação digitada é uma data, ela irá (re)formatar para qualquer que seja a configuração local. Por exemplo, se você digitar 2022-06-13, a informação será convertida para 13/06/2022, mas se digitar 2022-13-06 ou ‘2022-06-13 nada acontecerá, porque o sistema não reconhecerá como data.


Ao exportar essa planilha para o formato de CSV e abrí-lo em um editor de texto (este formato é muito usado em R e Python, por exemplo), os valores podem ter mudado; e o mesmo pode acontecer se o arquivo CSV for importado de volta para o formato de planilha.


Em 2020, um caso envolvendo planilhas foi bastante noticiado: 27 genes humanos tiveram que ser renomeados, porque o Excel os reconhecia como datas e mudava o nome. Por exemplo, ao invés de escrever o nome completo do gene Membrane Associated Ring-CH-Type Finger 1, os cientistas usavam MARCH1, o que prontamente era convertido nas planilhas para 1-Mar. Além disso, um estudo de 2016 indicou que um quinto dos artigos com listas de genes no material suplementar (vindos do Excel) contém conversões errôneas nos nomes de genes.


2. Formatação de Números


Quando pensamos em planilhas, pensamos em números. Mas a forma como as planilhas enxergam os números não é tão simples assim. Por exemplo, quando um salinômetro nos dá o valor de 33,52 ele também nos diz que a precisão do instrumento e, consequentemente de sua medida, está na ordem de um centésimo; isso é uma informação bem importante. Ao digitarmos esse dado, um (ou os dois) número depois da vírgula pode desaparecer ou um zero pode ser adicionado depois do número dois. No entanto 33,00 é diferente de 33 assim como 33,5 é diferente de 33,50, pois eles tem precisões diferentes.


Outro ponto que precisa de atenção é a separação das casas decimais e milhares usando vírgula ou ponto. Países como EUA e Reino Unido usam vírgula para separar a casa dos milhares e ponto para separar decimais. No entanto, no Brasil e países da Europa a vírgula separa as casas decimais enquanto o ponto separa os milhares. Aqui é necessário muita atenção para não ter problemas nos cálculos e conversões.


3. Formatação de caracteres


Na maioria das planilhas é possível usar um conjunto de caracteres especiais específicos de um país e/ou cultura. Por exemplo, em nomes (não romanos, não-latinizados, etc) ou em unidades que usam letras gregas (por exemplo o “mu” para micrômetros). No entanto, nem todos os softwares ao lerem essas planilhas estão prontos para reconhecer um determinado grupo de caracteres e não farão a conversão de forma adequada. Uma solução é escrever "micrômetros" ao invés de usar a letra grega.


A ideia desse texto não é desencorajar o uso de planilhas - talvez só um pouquinho… mas chamar atenção para os cuidados que precisam ser tomados ao usá-las e incentivar o uso de arquivos com formato csv ou de texto simples (txt).


#JulianaLeonel #VidaCientista #Planilhas #Reprodutibildiade #Dados


43 visualizações0 comentário

Posts recentes

Ver tudo