Datubāze parasti ir elektroniska, digitalizēta informācija, kurā informāciju var meklēt dažādos veidos. Tās var saturēt informāciju no avīzēm, žurnāliem un elektroniskajām grāmatām. Tā kā lielākā daļa informācijas datubāzēs ir bijusi drukātā veidā, tās ir izgājušas redakcijas procesu. Tas paaugstina ticamību, ka datubāzēs esošā informācija ir ticama.

Literatūras apskats ir pētījumu pamatā gandrīz katrā akadēmiskajā jomā. Literatūras apskats ir zinātnisks raksts, kurā iekļautas pašreizējās zināšanas, ieskaitot būtiskos secinājumus, kā arī teorētiskais un metodoloģiskais ieguldījums noteiktā tēmā. Tās mērķis ir noteikt nepilnības pētījumos, konfliktus iepriekšējos pētījumus, iepazīties ar atklātajiem jautājumiem, kas palikuši citiem pētījumiem, pamatot konkrēto pētījumu, kā arī galvenais mērķis – noskaidrot, kas vēl nav izpētīts.  Lai izveidotu pamatotu un visaptverošu tēmas literatūras aprakstu, pētījuma autoram ir jāiepazīstas ar pietiekami daudz literatūru. Visaptveroša literatūras meklēšana nevar būt atkarīga no vienas  datu bāzes, nedz arī tikai bibliogrāfiskām datubāzēm. Latvijas Universitāte ir iegādājusies e-grāmatas vai pērk lietošanas tiesības no vairākiem lielāko un plašāko datu bāzu uzturētājiem. Latvijas Universitātes mājas lapas sadaļā Studijas → Abonētie e-resursi ir saraksts ar visiem Latvijas Universitātes abonētajiem vai pirktajiem resursiem, kas var tikt izmantoti ne tikai literatūras apskata izveidē, bet arī mācāmās vielas un pētījumu metožu apguvei. Šajā resursā ir aprakstītas pieejamās datubāzes, kā arī ietverta to lietošanas pamācība, kas ir ļoti svarīgi.

Galvenie iemesli, kāpēc pasniedzēji un pētniecisko darbu vadītāji uzstāj zinātnisko datubāzu izmantošanu ir tas, ka tā ir uzticamība. Ja ne visa, tad lielākā daļa informācija ir gājusi redakcionālo procesu. Tas nodrošina to, ka ievietotais materiāls tiek pārbaudīts, vai tas ir precīzs un uzticams. Šādās datubāzēs nenonāk pseidozinātniskie raksti ar apšaubāmu izcelsmi vai tā saucamie komerciālie pētījumi, kas apskata pētījuma priekšmetu no šaura skata punkta. Arī apskatītā informācija ir organizēta. Raksti un cita veida informācija ir apkopota un sakārtota, meklēšana var tikt veikta pēc atslēgvārdiem, tēmas nosaukumiem, autora un citiem specifiskiem kritērijiem, kas nodrošina, ka rezultāti var būt atbilstoši. Organizētai informācijai ir daudz plašākas filtrēšanas funkcijas, piemēram, sašaurināt izdošanas gadu, konkretizēt nozari, formātu (grāmata, žurnāls utt.). Tas nodrošina to, ka tiks atlasīts sašaurināts atbilstošais resurss. “Seneca Libraries” speciālists norāda uz šādiem trūkumiem zinātniskie datubāžu izmantošanā: reizēm sarežģīti atrast vienkāršu skaidrojumu vai tēmu apskatu, datu bāzēm ir dažādas lietotāju saskarnes (jāapgūst to lietošana, atbilstošāku rezultātu iegūšanai), centrālie datu bāzu meklētāji var dažādu apsvērumu dēļ nemeklēt visās datubāzēs, neuzrādot visus materiālus, kas būtu iespējami[1].

Pastāv vairākas publiskas datubāzes, dažādu materiālu ieguvei. Vienu no galvenajiem piemēriem varētu saukt Google Scholar un Google Books. Google Books ir pakalpojums, kas meklē pilnu tekstu iespiestās grāmatās un žurnālos, ko Google kompānija ir noskenējusi un konvertējusi tekstā digitālā veidā, izmantojot optiskā teksta atpazīšanas sistēmas. Līdz šim Google Books ir noskanējusi vairāk kā 40 miljonus grāmatas vairāk kā 400 valodās[2]. Google iniciatīva tiek atzinīgi novērtēta, tā var kļūt par lielāko tiešsaistes zināšanu kopumu, taču tiek pārmests arī par autortiesību pārkāpumiem un kļūdu nenovēršanu, kas radušās nekvalitatīvu skenējumu dēļ vai nekorektas optiskās teksta atpazīšanas sistēmas darbības dēļ. Google Books piedāvā arī papildus pakalpojumu Ngram skatītāju, kas ir ģenerē grafikus, cik bieži ir lietoti vārdi vai frāzes grāmatu kolekcijā[3]. Tas dod iespēju meklēt grāmatās, kas izdotas no 1500. gada, kā arī atrast materiālus, kuros pirmo reizi konkrētās frāzes pieminētas.  

Avots: autora uzņemts ekrānuzņēmums no Ngram Viewer tīmekļa vietnes.

  1. Attēls.Vārdu Lithuania, Latvia, Estonia lietošanas biežums Google Books grāmatu krājumā kopš 1500. gada.

Google Scholar ir plašāks meklētājs, kas indeksē pilnu tekstu vai metadatus akadēmiskajos izdevumos[4]. Netieši tas iekļauj meklēšanas rezultātus no Google Books. Google Scholar neapraksta apjomu, kurā meklētājs strādā, taču pētījumu rezultāti norāda, ka Google Scholar satur aptuveni 389 miljonus dokumentus – disertācijas, grāmatas, žurnālus, rakstus, citātus un patentus, padarot to par lielāko akadēmisko meklētāju pasaulē[5]. Lai iegūtu atbilstošākus rezultātus, tiek aicināts meklētājus izmantot izvērsto meklēšanu.

Pirms četriem gadiem kompānija Microsoft uzsāka nodrošināt savus pakalpojumus akadēmiskiem mērķiem ar nosaukumu Microsoft Academic[6]. Tā kā tas ir noticis salīdzinoši nesen, Microsoft nodrošina ar tehnoloģijām ļoti bagātu metadatu apstrādi. Tiek izmantots mākslīgais intelekts akadēmiskās komunikācijas uztveršanā ar atbilstošu kvalitāti un plašu pārklājumu – dabiskās valodas saprašanā, iegūstot faktoīdus jeb sociālos faktus globālā tīmekļa mērogā; zināšanu atbalstīta secināšana un argumentācija, lai apkopotu faktoīdus zināšanu grafikos; tiek izmantota mākslīgā intelekta stimulētās mācīšanās pieeja, lai novērtētu zinātnisko nozīmīgumu dažādu elementu iesaisti zinātniskajās komunikācijās jeb smaguma punktu. Piedāvātās citēšanas  un analītiskās iespējas un rīki ir noderīgi praktisko pētījumu veikšanā. Kompānija nav aprakstījusi, kā būtu jālieto viņu piedāvātais risinājumus, līdz ar to tas apgrūtina pakalpojuma lietošanu.

Publiskajiem meklēšanas pakalpojumiem, ko piedāvā lielās kompānijas, nereti pārmet kvalitātes trūkumus citēšanā[7], pseidozinātnisku rakstu iekļaušanu rezultātos[8], tiek pārmests pārāk augstu svara iekļaušanu kārtošanas algoritmos, kas nozīmē, ka biežāk citētie dokumenti rezultātos tiek attēloti augstāk [9]. Ir pētījumi, kas apliecina, ka globālā tīmekļa meklēšanas dzinēji nav tik tālu attīstīti, lai aizvietotu zinātniskās datu bāzes pētījumu sistemātiskā identifikācijā[10]. Tas norāda, ka globālā tīmekļa meklēšanas dzinējus var izmantot, lai meklētu nepieciešamo informāciju, taču visdrīzāk būs jāpatērē lielāks laika patēriņš, lai nonāktu pie uzticama meklētā  materiāla.  

Jau 2004. gadā uzticama informācija bija kļuvusi par aktuālu tēmu, un Sāra Blakeslija izstrādāja CRAAP testu[11], kas uzdod vairākus jautājumus piecās grupās (izplatība, svarīgums, autoritāte, mērķis un precizitāte), lai noskaidrotu informācijas adekvātumu. Ja zinātnisko datubāžu saturs ir uzticams un lietojams bez bažām, tad tīmekļa meklēšanas dzinējos atrodamā informācija nav tik viennozīmīgi uztverama. Tāpēc pētniekam ir ļoti rūpīgi jāizvērtē avots, kuru viņš vēlas izmantot savā pētījumā.

 

Datu bāzu izmantošana praktisko pētījumu veikšanai

Izstrādājot praktisku kvantitatīvo pētījumu, veicama faktoru noteikšana, kas ietekmē pētījuma priekšmetu. Faktorus parasti raksturo mērāmi parametri. Datus, savukārt, iedala šādās četrās grupas:

  • Ģeogrāfiskie dati;
  • Hronoloģiskie dati;
  • Kvantitatīvie dati;
  • Kvalitatīvie dati.

Latvijā nav plaši aprakstīti pieejamie dati pētījumu veikšanai. Tāpēc tiks veikta dažu nozīmīgāko avotu uzskaite:

1.tabula. Plašāk izmantotās datubāzes Latvijā

Avots

Apraksts

Centrālā statistikas pārvalde

Csb.gov.lv

Pārvaldes darbības mērķis ir nodrošināt oficiālo statistiku un koordinēt oficiālās statistikas sistēmu, ievērojot starptautiski atzītus principus, nodrošināt statistiskās informācijas lietotājus ar neatkarīgu augstas kvalitātes oficiālo statistiku, kā arī īstenot funkcionālo pakļautību attiecībā uz citām statistikas iestādēm oficiālās statistikas nodrošināšanas jomā[12]. Ar pilnu datu apjomu var iepazīties šajā resursā: https://www.csb.gov.lv/lv/statistika/db

Aizvien lielāku nozīmīgumu iegūst ģeogrāfiskie dati, jo šie dati paplašina informācijas apstrādes iespējas. Centrālā statistikas pārvalde liek uzsvaru uz šādu datu sagatavošu un publicēšanu – ģeogrāfisko datu publicēšana notiek aizvien biežāk, kā arī tiek publicētas jaunas datu kopas.

Centrālā statistikas pārvalde arī piedāvā datus pētniecībai un mācībām, kur no primārajiem datiem var veikt aprēķinus pēc citām metodēm vai citā rakursā, ko nosaka pētījums. Ir iespējams arī slēgt līgumu ar Centrālo statistikas pārvaldi par datu izmantošanu pētniecībā.

Centrālā statistikas pārvalde publicē noderīgas saites, kur iespējams iegūt pētījumiem nepieciešamos datus no ministrijām un citām oficiālām statistikas iestādēm Latvijā. Tiek publicētas citu valstu oficiālās statistikas iestādes.

Atvērto datu portāls

Data.gov.lv

Publiskās pārvaldes datu pieejamība atvērtā veidā ir viens no e-pārvaldes politikas[13] pamatprincipiem, kā arī to nosaka Informācijas atklātības likums[14]. Uz šī pamata ir radīts Atvērto datu portāls data.gov.lv. Šis portāls nav tikai atvērto datu portāls, tā galvenais mērķis ir izvietot datus, kas ir mašīnlasāmi, lai dotu iespējas tos izmantot pētījumiem. Tādēļ tiek izmantoti tādi failu formāti kā *.shp, *.csv, *.json, *.odata *.sav, *.gdb un citi.  2020. gada janvārī tas saturēja 347 datu kopas no šādām iestādēm (iekavās norādīts datu kopu skaits): Centrālā statistikas pārvalde (33), Iepirkumu uzraudzības birojs (22), Cēsu novada pašvaldība (17), Valsts reģionālās attīstības aģentūra(15), Vides aizsardzības un reģionālās attīstības ministrija (14), Būvniecības valsts kontroles birojs (13), Rīgas dome (13), Pilsonības un migrācijas lietu pārvalde (12), VAS "Latvijas Valsts ceļi” (12), AS “Latvijas valsts meži (8), Labklājības ministrija (8), Valsts zemes dienests (8), Kultūras informācijas sistēmu centrs (7), Valsts sociālās apdrošināšanas aģentūra (7), Lauku atbalsta dienests (6), Centrālā vēlēšanu komiteja (5), Finanšu ministrija (4), Iekšlietu ministrija (4), Pārtikas un veterinārais dienests(4), Valsts ieņēmumu dienests (4), VAS Latvijas Valsts radio un televīzijas centrs (4), Dabas aizsardzības pārvalde (3), Latvijas Nacionālā bibliotēka (3), Lauksaimniecības datu centrs (3), Tiesu Administrācija (3), Valsts darba inspekcija (3), Valsts tehniskās uzraudzības aģentūra (3), Zāļu valsts aģentūra (3), Izglītības un zinātnes ministrija (2), Kuldīgas novada pašvaldība (2), Latvijas Nacionālais arhīvs(2), Latvijas Republikas Patentu valde (2), LR Uzņēmumu reģistrs (2), Nacionālais veselības dienests (2), Olaines novada pašvaldība (2), Rīgas satiksme (2), Valsts valodas centrs (2), VAS Ceļu Satiksmes drošības direkcija (2), VSIA Autotransporta direkcija (2), Zemkopības ministrija (2), AS Pasažieru vilciens (1), Centrālā finanšu un līguma aģentūra (1), Latvijas Antidopinga birojs (1), Latvijas Republikas Saeima (1), Latvijas Vides, ģeoloģijas un meteoroloģijas centrs (1), Maksātnespējas kontroles dienests (1), Nodrošinājuma valsts aģentūra (1), ĢDS Metadatu katalogs (1).

Šādi dati dod plašas izmantošanas iespējas. Autors ir izmantojis vairākas atvērtā datu portāla kopas, lai radītu aplikāciju par Centrālās statistikas datiem “Pastāvīgo iedzīvotāju skaits pēc dzimuma un vecuma statistiskajos reģionos, republikas pilsētās, novados, novadu pilsētās, pagastos, ciemos un Rīgas apkaimēs (atbilstoši robežām 2019. gada sākumā)”. To radīšanai tika izmantoti ģeogrāfiskie dati par teritoriju robežām un apvienoti ar CSP datiem, pielāgoti programmatūras vajadzībām, kā arī pievienoti pašu aprēķini[15]. Līdzvērtīgas aplikācijas Latvijā līdz šim nav novērotas, kur var apskatīties iedzīvotāju skaitu, struktūru, pieaugumu dažādām vecuma grupām un tamlīdzīgi līdz mazākajai teritoriālai vienībai, kas tabulu veidā būtu apgrūtinoši.

Reģionālās attīstības indikatoru modulis

Raim.gov.lv

Šis resurss ir izstrādāts kā instruments reģionālās attīstības monitoringam un lēmumu pieņemšanas atbalstam, pašvaldību teritorijas attīstības tendenču izvērtēšanai, kā arī attīstības programmu sagatavošanai un uzraudzībai. Tas satur vairāk kā 200 datu kopas[16], kurām pievienots kvalitatīvs metadatu apraksts. Par visām administratīvām teritorijām ir sagatavoti profili, kuri tos raksturo. Vienkāršajā RAIM rādītāju atlasē ir iespējams atlasīt datus predefinētiem rādītājiem, izvēlēties laika periodu, kā arī lejupielādēt datus Excel formātā. Šāda pieeja ļauj ērti pētniekam veikt savus aprēķinus datiem, kas jau ir korekti apvienoti.

Šajā interneta resursā ir arī norādes jeb saites uz citiem datu portāliem.

Ģeoportāls  

geolatvija.lv

Ģeoportāls ir vienots pieejas punkts Latvijas ģeotelpiskajai informācijai un pakalpojumiem. Publiskai piekļuvei vienā portālā apkopoti dati no dažādiem Latvijas ģeotelpisko datu turētājiem.

Šis portāls satur galvenokārt ģeogrāfiskus datus, gan bezmaksas, gan maksas. Datus var apskatīt gan kartē, gan arī lejupielādēt *.shp failā vai arī *.gdb. Ir iespējams izmantot kādus WMS servisus, kur parasti datus var apskatīt, bet nav iespējams pakļaut aprēķiniem. Iespējams aplūkot Latvijā esošo teritorijas attīstības plānošanas dokumentus, grafisko informāciju.

Pastāv vēl daudz un plašas datu izmantošanas iespējas no tādiem resursiem kā Valsts ieņēmumu dienests, Uzņēmuma reģistrs un daudzu ministriju mājas lapās atrodamajās statistikas sadaļās un citur. Valsts ieņēmumu dienesta publicēto datu apjoms ir milzīgs un ļoti noderīgs pētniecībā. Uzņēmuma reģistra atvērtajos dati ir sagatavoti tā, lai būtu apvienojami ar daudziem citiem resursiem, piemēram, Valsts zemes dienesta adrešu reģistru. Valsts zemes dienests finansējuma trūkuma dēļ negrasās atvērt kadastra un adrešu reģistra datus, tādējādi pazeminot citu atvērto datu vērtību. Piemēram, Uzņēmuma reģistrs katram uzņēmumam un iestādei adreses pierakstam ir pievienojis Valsts adrešu reģistra kodu, kas dotu iespēju ērtākā veidā apstrādāt datus pa administratīvām teritorijām vai izmantot ģeogrāfiskas aprēķinu metodes. Bet šī iespēja zūd, jo Valsts adrešu reģistra dati nav mašīnlasāmi.

 

Datu bāzu izmantošanas nosacījumi

Uzsākot darbu ar pieejamiem datiem internetā, ir jāiepazīstas ar metadatiem. Tie paskaidro, kādā veidā ir ievākti dati, kā tie aprēķināti, kādā formātā tie publicēti un ko tie nozīmē. Lai strādātu ar datiem, jāņem vērā šādi apsvērumi:

  • Metadati. Metadati ir dati par datiem, tie apraksta un paskaidro esošo datu kopu, ieraktus. Ir svarīgi, lai būtu skaidrs, par kādu periodu ir dati, ko tie apzīmē, kādas ir mērvienības, datu ievākšanas metodes un aprēķinu kārtība. Piemēram, vai vidējā darba alga ir  bruto vai neto.
  • Datu formāts. Ja datu formāts ir tādā formātā, ka programmatūra ir spējīga šos datus apstrādāt vai tos viegli konvertēt tādā formātā, kāds ir nepieciešams, bet pētnieks izmantot datu apstrādē, tas ir liels ieguvums. Ja dati ir PDF vai kādā no attēlu formātiem, var veikt optisko rakstzīmju pazīšanu (OCR) vai manuāli pārrakstīt datus apstrādāmā formātā, bet, ja darba apjoms būs pārāk liels, pētnieks var atteikties izmantot šāda veida datus.
  • Identifikatori. Pie milzīgiem datu apjomiem identifikatoriem ir ļoti liela nozīme. Ne vienmēr visās datu kopās, piemēram, skolu nosaukumi, ieraksti būs unikāli. Tāpēc svarīgi ir lietot datu identifikatorus. Ir bijis šāds precedents Centrālā vēlēšanu komitejā - tikai veikti balsošanas rezultātu aprēķini pa pagastiem. Aprēķinu veicējs bija izdarījis pieņēmumu, ka pagastu nosaukumi ir unikāli, bet tā nav, piemēram, Salas pagasts. Līdz ar to dati par abiem pagastiem tika saskaitīti kā par vienu. Centrālais statistikas birojs ir ieviesis dažus identifikatorus, piemēram, administratīvo teritoriju vienību identifikatorus, dodot iespēju pagasta līmenī veikt korektus aprēķinu pie lielākiem datu apjomiem. Tas dod arī iespēju vienkāršāk un precīzāk veikt datu pavienošanu. Pašlaik starp statistikas nozaru ekspertiem norīt pārrunas par identifikatoru katalogu izveidi, kur varētu būt izvietoti dažādi identifikatoru saraksti. Līdzīgu piemēru varētu saukt par Zemgales vidusskolām, tādas ir divas – Tukuma novadā un Daugavpils novadā. Valsts izglītības un satura centrs atvērtajos datos par centralizēto eksāmenu rezultātiem nelieto identifikatorus, līdz ar to jāveic manuāla šo iestāžu atdalīšana.
  •  Datu apvienošana. Veicot pētījumus, nereti jāizmanto vairāki datu avoti, bet dati ir jāapvieno. Nereti vienas ministrijas ietvaros esošas iestādes uztur dažādus datus. Piemēram, Valsts izglītības informācijas sistēmā un Valsts izglītības un satura sistēmā nav lietoti vienādi skolu nosaukumi. Tā kā netiek lietoti arī identifikatori, datu apvienošana paliek apgrūtinoša. Ja ir iespējams, var veikt manuālu datu salāgošanu, ja nē, tad jāpieņem trūkumi datos.


[1] Should I use library databases to find research instead of Google?, Seneca Libraries, https://seneca.libanswers.com/faq/195474 [viewed 07.01.2020.]

[2] 15 years of Google Books, Google, https://www.blog.google/products/search/15-years-google-books/ [viewed 08.2020.]

[3] Ngram Viewer, Google Books, https://books.google.com/ngrams/info [viewed 06.01.2020.]

[4] Google Scholar, Google, https://scholar.google.com/intl/en/scholar/about.html [viewed: 06.01.2020.]

[5] Michael Gusenbauer, (2018) Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases, Scientometrics. 118, pp 177–214

[6] Microsoft Academic, Microsoft, https://academic.microsoft.com/

[7] Kulkarni, A. V.; Aziz, B.; Shams, I.; Busse, J. W. (2009). "Comparisons of Citations in Web of Science, Scopus, and Google Scholar for Articles Published in General Medical Journals". JAMA: The Journal of the American Medical Association. 302 (10): 1092–96

[8] "Google Scholar is Filled with Junk Science". Scholarly Open Access. https://scholarlyoa.com/google-scholar-is-filled-with-junk-science/

[9] Serenko, A.; Dumay, J. (2015). "Citation classics published in knowledge management journals. Part II: Studying research trends and discovering the Google Scholar Effect". Journal of Knowledge Management. 19 (6): 1335–55.

[10] Bates, J., Best, P., McQuilkin, J., & Taylor, B. (2017). Will Web Search Engines Replace Bibliographic Databases in the Systematic Identification of Research. The Journal of Academic Librarianship, 43(1), 8–17.

[11] Blakeslee, S. (2004). The CRAAP Test. LOEX Quarterly, 31(3), 4.

[12] Ministru kabineta noteikumi Nr. 732 “Centrālās statistikas pārvaldes nolikums”. Stājies spēkā 01.12.2018.

[13] Informācijas sabiedrības attīstības pamatnostādnes 2014.-2020. gadam, Pārresoru koordinācijas centrs, http://polsis.mk.gov.lv/documents/4518 [viewed 05.01.2020.]

[14] Informācijas atklātības likums. Stājies spēkā 20.11.1998.

[15] Pastāvīgo iedzīvotāju skaits pēc dzimuma un vecuma statistiskajos reģionos, republikas pilsētās, novados, novadu pilsētās, pagastos, ciemos un Rīgas apkaimēs (atbilstoši robežām 2019. gada sākumā), Latvijas Pašvaldību savienība, https://blis.lps.lv/lv/publikacijas/cita-veida-publikacijas/254-pastavigo-iedzivotaju-skaits-pec-dzimuma-un-vecuma-statistiskajos-regionos-republikas-pilsetas-novados-novadu-pilsetas-pagastos-ciemos-un-rigas-apkaimes-atbilstosi-robezam-2019-gada-sakuma [viewed: 09.01.2020.]

[16] Par RAIM, Valsts reģionālās attīstības aģentūra, https://raim.gov.lv/lv/node/34 [viewed 02.01.2020.]