PĒTNIECĪBAS DATU PĀRVALDĪBA

Efektīva pētniecības datu pārvaldība nodrošina integritāti, reproducējamību un pieejamību. Strukturēta pieeja organizēt, dokumentēt un droši uzglabāt datus, nodrošina pētniecības datu atkārtotu izmantošanu un validāciju. Šajā dokumentā ir izklāstīti galvenie soļi pētniecības datu pārvaldībā, saskaņojot to ar Latvijas atvērtās zinātnes stratēģiju un EKA standartiem, no pētniecības datu plānošanas līdz to kopīgošanai un saglabāšanai.
Plānošana un datu pārvaldības plāns (DPP)
Pirmais solis pētniecības datu pārvaldībā ir visaptveroša datu pārvaldības plāna (DPP) izstrāde. Pētniecības datu pārvaldības plāns ir dokuments, kas apraksta, kā pētījuma dati tiks ievākti, organizēti, glabāti, kopīgoti un saglabāti, nodrošinot to pieejamību un atbilstību zinātniskajiem standartiem.
Galvenās DPP sadaļas:
- Datu vākšana: Kādi dati tiks vākti, kādas datu iegūšanas metodes tiks izmantotas un kādā formātā dati tiks saglabāti.
Piemērs: interviju ieraksti audio formātā, laboratorijas mērījumu dati Excel datnēs.
- Metadatu standarti: Kā dati tiks aprakstīti un strukturēti, lai tos būtu viegli atrast un atkārtoti izmantot.
Piemērs: Dublin Core metadatu standarts sociālo zinātņu pētījumiem.
- Datu glabāšana un rezerves kopijas: Kur un kā dati tiks glabāti, lai nodrošinātu to drošību un nepieļautu zaudēšanu.
Piemērs: galvenā datu kopija institūcijas serverī, rezerves kopija mākoņkrātuvē.
- Datu kopīgošana un piekļuve: Kādi būs datu piekļuves un koplietošanas noteikumi, tostarp iespējamie ierobežojumi.
Piemērs: anonimizēti dati būs publiski pieejami Zenodo platformā, bet pilni dati – tikai ar pieprasījumu.
- Ētiskie un juridiskie aspekti: Kā tiks ievērotas ētikas un tiesību normas, piemēram, dalībnieku piekrišanas iegūšana un datu privātuma nodrošināšana, ievērojot Vispārīgo datu aizsardzības regulu (VDAR).
Piemērs: visi dalībnieki paraksta informētu piekrišanu, dati tiek anonimizēti pirms publicēšanas.
Latvijas atvērtās zinātnes stratēģija paredz standartizētas pētniecības datu pārvaldības prakses ieviešanu pilnā datu pārvaldības ciklā un uzsver nepieciešamību nodrošināt pētniecības datu atvērtību, pieejamību un atkārtotu izmantojamību, lai veicinātu zinātnes caurskatāmību, inovācijas un starptautisku sadarbību. Šo mērķu sasniegšanai būtiska loma ir datu pārvaldības plānam (DPP), kas sistemātiski apraksta pētniecības datu vākšanu, apstrādi, glabāšanu un kopīgošanu, ievērojot FAIR datu principus.
Pētniecības datu pārvaldības plāns (DPP) var tikt izstrādāts pašrocīgi, kur pētnieki apraksta galvenos aspektus par datu vākšanu, glabāšanu, koplietošanu, drošību un saglabāšanu, pielāgojot to sava projekta vajadzībām. Alternatīvi, institūcijas vai finansētāji var nodrošināt konkrētus tiešsaistes veidlapas vai šablonus, kas pētniekiem palīdz izstrādāt DPP, atbilstoši noteiktajiem standartiem. Šie šabloni bieži vien ietver iepriekš sagatavotus jautājumus un kategorijas, kas balstītas uz FAIR principiem, nodrošinot atbilstību ētiskajām, juridiskajām un institucionālajām prasībām. Šādu rīku izmantošana palīdz vienkāršot procesu, nodrošinot konsekvenci, vadlīnijas un efektivitāti datu pārvaldības plāna izstrādē.
Piemērs: ARGOS tiešsaistes rīks pētniecības datu plānu izveidošanai, kas piedāvā izvēlēties dažādus DPP šablonus, ko rekomendē izmantot LZP finansētos projektos.
Pētniecības datu pārvaldības plāns (DPP) nav statisks dokuments – tas var mainīties pētniecības gaitā atkarībā no jauniem atklājumiem, metodoloģiskām izmaiņām vai finansētāju prasībām. Sākotnēji izstrādātais plāns var tikt papildināts ar jaunām datu vākšanas, glabāšanas un koplietošanas stratēģijām, ņemot vērā pētniecības procesa attīstību. Lai nodrošinātu, ka DPP atbilst pētniecības vajadzībām visā projekta laikā, ir svarīgi to regulāri pārskatīt un pielāgot.
Piemērs: Sākotnēji bija plānots izmantot XLSX datu formātu, bet pētījuma gaitā tiek izdomāts, ka efektīvāks būtu CSV formāts, DPP var tikt atjaunināts, lai atspoguļotu šo izmaiņu.
FAIR datu principi
FAIR datu principi: dati jāpadara atrodami (findable), pieejami (accessible), savietojami (interoperable) un atkārtoti izmantojami (reusable). Šie principi kalpo kā vadlīnijas pētniecības datu radīšanā un pārvaldībā, lai maksimāli veicinātu to izmantošanu un ilgtspējību. FAIR dati ir viens no trim galvenajiem pīlāriem Latvijas atvērtās zinātnes strateģijā.
Atrodami (Findable) – datiem jābūt viegli atrodamiem, aprakstītiem ar detalizētiem metadatiem un pieejamiem reģistrētos vai indeksētos meklēšanas resursos, piemēram, pētniecības datu repozitorijos. Digitāliem objektiem jābūt aprīkotiem ar unikālu, starptautiski atzītu un pastāvīgu identifikatoru (piemēram, DOI), kas nodrošina to pastāvīgu pieejamību un izsekojamību.
Piemērs: datu kopa ievietota publiskā datu repozitorijā Zenodo un datu kopai ir savs DOI.
Pieejami (Accessible) – datiem jābūt pieejamiem saskaņā ar konkrētiem nosacījumiem un ar skaidrām piekļuves atļaujām. FAIR dati nenozīmē, ka visiem datiem jābūt pieejamiem atvērtajā piekļuvē. Savukārt, metadatiem jābūt pieejamiem arī situācijās, kad dati nav vairs pieejami.
Piemērs: dati glabājas atvērtās piekļuves repozitorijā, kur datiem var brīvi piekļūt un tos lejuplādēt ikviens interesents bez reģistrēšanās.
Savietojami (Interoperable) – datiem jābūt strukturētiem un lietojamiem dažādās sistēmās, izmantojot standartizētus, nekomerciālus datņu formātus un standartizētu terminoloģiju, kas nodrošina datu integrāciju un salīdzināmību. Tāpat skaidri jānorāda atsauces, kas palīdz izsekot savstarpējās saites starp dažādiem datiem, datu kopām, zinātniskiem rezultātiem.
Piemērs: medicīnas pētnieki publicē pacientu veselības datus FHIR (Fast Healthcare Interoperability Resources) formātā, kas ļauj tos izmantot dažādās veselības aprūpes sistēmās.
Atkārtoti izmantojami (Reusable) – lai datus varētu izmantot atkārtoti, tiem ir jābūt saprotamiem arī citiem, to nodrošina bagātīgi metadati, pilnīga dokumentācija un skaidra informācija par atkārtotas izmantošanas nosacījumiem jeb licencēm.
Piemērs: sagatavota un nopublicēta datu kopa ar CC0 licenci, kas nozīmē, ka citi pētnieki datus var brīvi analizēt un izmantot savos pētījumos bez ierobežojumiem.
Datu pārvaldības plāns (DPP) ir saistīts ar FAIR (Findable, Accessible, Interoperable, Reusable) principiem, jo tas nodrošina strukturētu pieeju datu organizēšanai, uzglabāšanai un kopīgošanai.
- Atrodami (Findable) – DPP paredz metadatu pievienošanu un atbilstošu repozitoriju izvēli, lai dati būtu viegli atrodami.
- Pieejami (Accessible) – Plāns nosaka, kā un kur dati būs pieejami, tostarp piekļuves tiesības un ilgtermiņa uzglabāšanu.
- Savietojami (Interoperable) – DPP palīdz izvēlēties standartizētus formātus un metadatus, lai nodrošinātu datu izmantojamību dažādās sistēmās un zinātņu nozarēs.
- Atkārtoti izmantojami (Reusable) – Plāns nosaka datu kvalitātes kontroli, licencēšanu un dokumentāciju, lai dati būtu saprotami un lietojami citiem pētniekiem.
Tādējādi DPP palīdz nodrošināt, ka dati tiek pārvaldīti atbildīgi un atbilst FAIR principiem, veicinot zinātnes caurspīdīgumu un ilgtspēju.
Datu vākšana
Precīza un konsekventa datu vākšana ir svarīga, lai iegūtu ticamus pētījumu rezultātus. Pētniekiem būtu jāievēro nozaru ietvaros standartizēti protokoli un metodoloģijas, lai nodrošinātu datu kvalitāti un integritāti.
Galvenie datu vākšanas procesa soļi:
- Sagatavošanās: pirms datu vākšanas pārliecināties, ka visi nepieciešamie rīki un materiāli ir pieejami un darbojas pareizi.
Piemērs: laboratorijā jābūt sagatavotiem mērīšanas instrumentiem, anketu pētījumā – drukātām vai digitālām anketām.
- Standartizācija: izmantot vienotas datu vākšanas metodes un formas, lai pētnieku grupa strādātu pēc vienādiem principiem.
Piemērs: intervijām izmantojiet vienu un to pašu jautājumu kopumu, eksperimentiem – vienādus mērījumu protokolus.
- Dokumentācija: veikt detalizētu datu vākšanas procesu uzskaiti, tostarp visas novirzes no standarta protokola un visas radušās problēmas.
Piemērs: ja sensors mērījumu laikā uz īsu brīdi pārtrauca darboties, tas jāatzīmē pierakstos.
Datu apstrāde un tīrīšana
Kad dati ir savākti, tie ir jāapstrādā un jāpārbauda, lai dati būtu precīzi un pilnīgi.
Šis process ietver:
- Datu ievadi – Ievadīt datus elektroniskā sistēmā rūpīgi un precīzi. Ja nepieciešams, izmantot dubultās ievades metodi, lai samazinātu kļūdu iespējamību.
Piemērs: anketu atbildes tiek ievadītas Excel failā, un cits pētnieks pārbauda, vai nav kļūdu. - Datu tīrīšanu – Atrast un izlabot kļūdas, neatbilstības vai trūkstošus datus.
Piemērs: ja kādā anketā vecuma ailē ierakstīti “250 gadi”, tas ir kļūdains ieraksts un jālabo vai jāizņem. - Datu transformāciju – Pielāgot datus analīzei, piemēram, vienādojot mērvienības vai kodējot kvalitatīvus datus skaitliskā formātā.
Piemērs: ja dati par augumu ir dažādās vienībās (cm un collas), tos visus pārveido cm, lai nodrošinātu vienotu pieeju.
Datu analīze
Datu analīze nozīmē statistisko un skaitļošanas metožu pielietošanu, lai izprastu datus un izdarītu pamatotus secinājumus.
Šis process ietver:
- Analīzes metodes izvēli – Izvēlieties analītisko metodi, kas vislabāk atbilst pētījuma mērķim un datu veidam.
Piemērs: ja pētat studentu mācību sasniegumus dažādās grupās, varat izmantot vidējo rādītāju salīdzināšanu (t-tests), bet, ja analizējat lielu tekstu datu kopu, dabiskās valodas apstrāde varētu būt piemērotāka.
- Analīzes īstenošanu – Veikt datu analīzi, izmantojot piemērotus programmatūras rīkus un statistikas pakotnes, nodrošinot procesa caurskatāmību un atkārtojamību.
Piemērs: datu analīzei var izmantot SPSS, R vai Python – piemēram, lai analizētu aptaujas datus, veicot korelāciju analīzi vai regresijas modeli.
- Rezultātu pārbaudi un validāciju – Lai nodrošinātu uzticamību, jāveic rezultātu pārbaude, izmantojot dažādas metodes.
Piemērs: ja konstatējat, ka konkrēta mainīgā ietekme uz iznākumu ir nozīmīga, varat atkārtoti pārbaudīt šo secinājumu ar neatkarīgu datu kopu vai lūgt citus pētniekus veikt līdzīgu analīzi.
Datu glabāšana un dublēšana
Droša un uzticama datu glabāšana ir būtiska, lai noverstu datu zudumu un nodrošinātu ilgtermiņa pieejamību.
Galvenie datu glabāšanas apsvērumi:
- Primārā krātuve: izvēlieties uzticamus krātuves risinājumus, piemēram, iestāžu serverus, mākoņkrātuvi vai specializētos pētniecības datu repozitorijos.
Piemērs: pētniecības datu glabāšana universitātes drošajā serverī vai uzticama mākoņpakalpojuma, piemēram, Google diska vai Dropbox, izmantošana ērtai piekļuvei un pārvaldībai.
- Dublēšana: iestatīt regulāras dublējumkopijas, lai izveidotu datu dublikātus vairākās vietās, lai izvairītos no to zaudēšanas sistēmas kļūmes gadījumā.
Piemērs: regulāra izpētes datu dublēšana ārējā cietajā diskā vai sekundārajā mākoņkrātuvē.
- Drošība: izmantot drošības pasākumus, piemēram, šifrēšanu un piekļuves ierobežojumus, lai aizsargātu sensitīvus datus no nesankcionētas piekļuves.
Piemērs: datu failu šifrēšana un paroles aizsardzības izmantošana koplietotiem failiem vai piekļuves kontroles sistēmām uzglabāšanas platformām. Iespēju robežās ieteicams izmantot vairāku faktoru autentifikāciju (vienreiz izmantojami kodi aplikācijās, kā Google Authenticator u.c.).
Datu publicēšana un pieejamība
Pētniecības datu pieejamība un publicēšana veicina zinātnes attīstību, nodrošinot, ka pētījumu rezultāti ir pārbaudāmi, uzticami un reproducējami. Publicētie dati ļauj citiem pētniekiem tos validēt, atkārtoti izmantot, ietaupot laiku un resursus, kā arī veicina jaunu atklājumu rašanos. Pieejami dati sekmē starptautisko sadarbību un palīdz risināt globālas problēmas. Tie palielina sabiedrības uzticību zinātnei, jo nodrošina caurspīdīgumu un pieejamību datiem plašākai sabiedrībai, uzņēmumiem un politikas veidotājiem. Turklāt daudzi finansētāji un institūcijas pieprasa datu publicēšanu, lai nodrošinātu atbilstību FAIR principiem (atrodami, pieejami, savietojami, atkārtoti izmantojami), padarot zinātniskos pētījumus efektīvākus un ilgtspējīgākus.
Šajā fāzē ietilpst:
- Repozitoriju atlase: atbilstošu datu repozitoriju izvēle datu glabāšanai un koplietošanai, ņemot vērā tādus faktorus kā disciplinārās normas un repozitoriju politikas.
Piemērs: Pētnieks var izmantot starptautisko repozitoriju Zenodo, kas ļauj zinātniekiem koplietot datus visā pasaulē, izmantot nacionālo repozitoriju vai institucionālo repozitoriju, ja tādi ir pieejami.
- Datu dokumentācija: nodrošina skaidru un detalizētu metadatu aprakstu, kas izskaidro datus, to kontekstu un izmantotās metodoloģijas.
Piemērs: Klimata pārmaiņu pētījumā iekļaujiet metadatus par ģeogrāfisko atrašanās vietu, laika posmu un metodoloģiju, kas izmantota temperatūras datu vākšanai.
- Licencēšana: piemērotas licences piemērošana, lai definētu lietošanas noteikumus un ļautu citiem pētniekiem datus atkārtoti izmantot.
Piemērs: Izmantojot Creative Commons licenci, piemēram, CC BY, ļauj citiem brīvi izmantot un dalīties ar datiem, ja viņi atsaucas uz sākotnējo avotu.
Pētniekiem jārūpējas, lai datu koplietošana būtu droša, atbildīga un saskaņota ar datu subjekta tiesībām un pētniecības ētiku.
Datu pieejamība pēc atvērtības līmeņa:
- Atvērtā piekļuve: dati ir brīvi pieejami visiem, bez ierobežojumiem.
Piemērs: Publicēti pētniecības dati atvērtos datu repozitorijos (piem., Zenodo, Dryad, OSF).
- Ierobežota/slēgta piekļuve: piekļuve tikai pēc pieprasījuma un apstiprinājuma, pieejami metadati. Ierobežotas piekļuves datu kopās lietotājiem bieži ir jāiesniedz pieteikumi, jāparaksta līgumi vai jāiziet ētikas pārbaudes, lai nodrošinātu atbildīgu izmantošanu un atbilstību privātuma likumiem.
Piemērs: Vajadzīga reģistrēšanās un papildus informācijas sniegšana, lai piekļūtu datiem.
- Embargo periods: datus iespējams atvērt pēc noteikta laika, metadati pieejami.
Piemērs: Nopublicets raksts, kurā tika izmantoti konkrētie pētniecības dati. Repozitorijā bija pieejami pētniecības datu aprakats un metadati, kā arī informācija (datums), kad dati tiks padarīti pieejami citiem.
Latvijas atvērtās zinātnes stratēģijas vadlīnijās teikts, ka pētniecības datiem pēc noklusējuma jābūt atvērtiem, un, ja tie netiek publiskoti, tam jābūt pamatotam. Datu neatvēršana var būt pamatota gadījumos, kad tie satur sensitīvu informāciju, pastāv juridiski vai ētiski ierobežojumi vai arī datu apjoms ir tik liels, ka to izplatīšana rada ievērojamas izmaksas.
Pētniecības datu pieejamība bieži ir atkarīga no pētniecības finansētājiem, jo tie nosaka datu pārvaldības prasības, atvērtās piekļuves politiku un publicēšanas nosacījumus. Daži finansētāji pieprasa, lai dati būtu brīvi pieejami pēc projekta beigām, bet citi var noteikt ierobežojumus, piemēram, intelektuālā īpašuma aizsardzības vai konfidencialitātes apsvērumu dēļ. Finansēšanas avots var ietekmēt arī datu glabāšanas ilgumu un pieejamības platformas.
Piemērs: Eiropas Komisijas finansētie Horizon Europe projekti pieprasa, lai pētniecības dati tiktu publicēti atvērtās piekļuves datu repozitorijos, ievērojot FAIR principus. Pētniekiem ir jānodrošina pētniecības datu pieejamība atvērtajā piekļuvē pēc projekta beigām, ja vien nav juridisku vai ētisku ierobežojumu. Savukārt, ja pētniecību finansē privāts uzņēmums, tas var pieprasīt, lai dati paliek konfidenciāli vai pieejami tikai ierobežotam lietotāju lokam, piemēram, tikai sadarbības partneriem.
Datu ilgtermiņa saglabāšana
Ilgtermiņa datu saglabāšana jeb arhivēšana nodrošina, ka pētniecības dati paliek pieejami un izmantojami nākamajām paaudzēm.
Galvenie datu saglabāšanas soļi:
- Arhīvu repozitoriju izvēle: glabāt datus uzticamos, ilgtermiņa arhīvu repozitorijos, kas piedāvā pastāvīgus uzturēšanas un saglabāšanas pakalpojumus.
Piemērs: datu glabāšana tādās platformās kā Zenodo vai nacionālajos repozitorijs, kas nodrošina ilgtermiņa pieejamību un regulārus atjauninājumus.
- Formātu izvēle: izvēlieties formātus, kas ir brīvi pieejami un izmantojami bez vajadzības pēc specifiskas programmatūras vai maksas licencēm, nodrošinot plašāku piekļuvi un ilgtermiņa datu saglabāšanu.
Piemērs: tādu formātu kā CSV izmantošana datu tabulām.
- Regulāra pārskatīšana: periodiski pārskatīt un atjaunināt datus un to dokumentāciju, lai sekotu izmaiņām tehnoloģijā vai pētniecības praksē.
Piemērs: metadatu vai datu formātu atjaunināšana, lai tie būtu saderīgi ar jauniem programmatūras rīkiem vai standartiem, kas parādās šajā jomā.
Informācijas avoti
Eiropas Savienības Atvērtās zinātnes stratēģija
Latvijas atvērtās zinātnes stratēģija 2021. – 2027. gadam
Praktiskā rokasgrāmata pētniecības datu pārvaldības starptautiskajai saskaņošanai
Kā izveidot datu pārvaldības plānu
Pētniecības datu pārvaldības plānu rīks ARGOS
Seminārs par Datu Pārvaldības plānu izveidi FLPP un VPP projektiem