Резиме

Волуменот на податоци достапни за најразлични потреби и од најразлични извори расте континуирано. Обработката и објавувето на резултати и податоци, дали од Интернет сообраќајот на вашиот вебсајт, од финансиските трансакции на вашата фирма, од анкети за политички мислења, или од лабораториски експерименти, станува се побрзо и полесно. Исто како и користењето на податоци собрани од Интернет за бизнис одлуки во рамките на вашата фирма. Заедничка за оваа транзиција кон наука за податоци, лична медицина, или бизнис интелегенција, е потребата за транспарентност, отвореност, и повторливост на анализите и резултатите од кои зависиме се повеќе и повеќе. Дали интерно, во нашата фирма за бизнис интелегенција, или јавно за нашите научни истражувања или епидемиолошки предвидувања, доверливи и безбедни процедури за анализа на податоци никогаш не биле толку значајни.

Во овој прирачник се осврнуваме токму на овие таканаречени „најдобри“ пракси за безбедно, стабилно, и повторливо работење со податоци. Ќе зборуваме за проблемите што се јавуваат поради не-повторливост, за главните индикатори за не-повторливи проекти, како и за принципите и праксите кои ни овозможуваат да ги надминеме овие проблеми. Низ текстот се обидуваме да дадеме кратки примери, дали вербални или со код, кои ги илустрираат главните препораки и посочуваат кон адекватни софтверски решенија. Се држиме до програмскиот јазик R, којшто е од примарна значајност во светот на анализа на податоци и машинско учење, има активна заедница посветена токму на проблемот на повторливи анализи, и голем број на алатки (библиотеки) наменети кон олеснување на проблемот на повторливост.

Нашата главна препорака е: без разлика на програмскиот јазик кој го користите, или стратегијата за организирање на проекти што најмногу ви прилега, бидете трпеливи, дисциплинирани, и доследни кон почитувањето на препораките за повторливост. Оваа инвестиција ќе ви се исплати на краток и долг рок во форма на заштедено време и ресурси, унапредување, или соработка.