Atklājumi.lv

e-žurnāls par zinātni, cilvēku un rītdienas tehnoloģijām

Daudzos zinātniskos rakstos par ģenētiku atrodamas automātiski ieviesušās "Excel" kļūdas

Pārsteidzoši lielā daļā zinātnisko pētījumu ģenētikas nozarē ir atrodamas programmas "Microsoft Excel" kļūdas, kas var ietekmēt pētījumu rezultātus, atklājuši austrāliešu zinātnieki. Pētījuma rezultāti publicēti žurnālā "Genome Biology".

Pētījuma ietvaros zinātnieki analizēja gandrīz 3600 dažādus ar ģenētiku saistītus zinātniskos pētījumus, kas publicēti tādos atzītos un augsti novērtētos zinātniskajos žurnālos kā "Nature", "Science", "PLoS One" un citos. Kā jau ģenētikas nozarē pieņemts, visiem publicētajiem pētījumiem bija pievienoti papildus faili ar izpētē izmantoto gēnu sarakstu.

Analizējot pievienotos datus un pētījumu rezultātus, austrāļu pētnieki atklāja, ka aptuveni vienā pētījumā no pieciem gēnu sarakstā bija atrodamas kļūdas, kas radušās "Excel" darbības rezultātā (programma gēnu nosaukumus automātiski nomainījusi uz datumiem, parastiem cipariem u.tml.).

Tas noticis tādēļ, ka gēni zinātniskajā literatūrā tiek apzīmēti ar simboliem, kas ir to pilno nosaukumu saīsinājumi. Piemēram, gēns "Septin 2" tiek saīsināts kā "SEPT2", bet, "Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase" - kā "MARCH1".

Ierakstot šos saīsinājumus "Excel" programmā, tā automātiski ierakstus uztver kā datumus (šai gadījumā 2.septembri (Sept.2) un 1.martu (March 1)), un pārveidot tos datumu formātā. Vēl vairāk darbu apgrūtina tas, ka pēc tam, kad nevajadzīgā automātiskā korekcija ir notikusi, nav iespējams viegli un ātri to labot. Mēģinot komandu atsaukt, visbiežāk informāciju no lauciņa sanāk izdzēst vai arī transformēt citā, joprojām neatbilstošā formātā. Ņemot vērā to, ka zinātniskajos pētījumos darbs lielākoties notiek ar milzīgiem datu apjomiem, automātiskie labojumi var arī paslīdēt garām nemanīti. Visu datu manuāla pārbaude savukārt aizņem ļoti ilgu laiku.

Turklāt nav iespējams šo "Excel" funkciju izslēgt uz visiem laikiem, tādēļ zinātniekiem kolonnu formāts jāmaina uz "Text" katru reizi, kad nepieciešams ierakstīt tabulās jebkādu jaunu informāciju.

Pirmo reizi zinātnieki problēmu ar gēnu saīsinājumu nosaukumiem novēroja un pētījumu par problēmu publicēja jau pirms 10 gadiem. Jaunais pētījums parāda to, ka diemžēl 10 gadu laikā problēma joprojām nav atrisināta.

Jāpiemin, ka "Microsoft Excel" gan nav vienīgā programma ar šādu problēmu. Pētījuma autori līdzīgu situāciju novērojuši arī citās, līdzīgu funkciju programmās, piemēram, "LibreOffice Calc" un "Apache OpenOffice Calc". Vienīgā programma, kura šīs kļūdas neradīja, bija "Google Sheets".

Zinātnē šādas šķietami nelielas kļūdas var ietekmēt ļoti daudz. Kā vienu no slavenākajiem piemēriem var minēt Hārvardas universitātes ekonomistu Karmenas Reinhartas (Carmen Reinhart) un Keneta Rogofa (Kenneth Rogoff) pētījumu, kuru vēlāk ļoti plaši citēja, lai attaisnotu budžeta samazināšanas darbības. Pētnieki analīzē nejauši izlaida dažas datu rindas, kā rezultātā tika dramatiski pārspīlēta valsts parāda ietekme uz valsts ekonomiskās izaugsmes iespējām.

Pastāv liela iespēja, ka arī zinātnieki citās jomās saskaras ar līdzīgām problēmām, un iedziļinoties šai tēmā dziļāk, līdzīga veida programmatūras radītas kļūdas būtu iespējams atrast arī citu nozaru pētījumos.

Pagaidām gan, kamēr programmatūras izstrādātāji problēmu nav atrisinājuši, šis pētījums tikai atgādina to, ka zinātniekiem rūpīgi jāseko līdzi izmantotajiem datiem un tie jāpārbauda, bet lasītājiem pirms rezultātu citēšanas pētījumā vairāk jāiedziļinās, lai kaut nedaudz novērtētu to pareizību.

Avoti:

washingtonpost.com
bloomberg.com

Brīvpieejas materiāls. Pārpublicēt atļauts tikai ievērojot ŠOS NOTEIKUMUS.