R je snažan i široko korišten jezik za statističko programiranje korišten u mnogim područjima, a ponajviše u obrazovanju, znanosti i poslovanju.
U obrazovanju, R je s vremenom postao važan alat za analizu podataka i statističko modeliranje. Danas mnoga sveučilišta koriste R u svojim nastavnim planovima i programima za statistiku i podatkovnu znanost (data science). R pruža jednostavnu platformu za analizu i vizualizaciju složenih skupova podataka. Osim toga, R ima veliku i aktivnu zajednicu korisnika koji pridonose velikoj biblioteci paketa i funkcija koje se mogu koristiti za različite vrste analize podataka i modeliranja.
U znanosti istraživači koriste R za analizu podataka u područjima poput biologije, medicine i društvenih znanosti. R pruža fleksibilnu i korisnički orijentiranu platformu za provođenje složenih statističkih analiza, a njegova priroda otvorenog koda omogućuje istraživačima da podijele svoje nalaze i jednostavnije surađuju s drugim istraživačima. Navedeno je osobito važno za velika kolaborativna istraživanja koja se temelje na velikim količinama podataka i zahtijevaju napredne statističke tehnike, često koristeći i superračunala.
U poslovanju, R koriste organizacije svih veličina za analizu podataka, izradu prediktivnih modela i donošenje informiranih odluka. R je posebno koristan u industrijama kao što su financije, marketing i e-trgovina, gdje je donošenje odluka temeljeno na podacima i analizama ključno. R je besplatan i zbog toga pruža ekonomičnu i fleksibilnu alternativu vlasničkim softverskim rješenjima i dobro je prilagođen za analizu i modeliranje podataka u poslovnom okruženju.
R je svestran i široko korišten statistički jezik koji je neophodan za pojedince u mnogim područjima, uključujući obrazovanje, znanost i poslovanje. Prednosti R-a uključuju jednostavnost korištenja, fleksibilnost i veliku zajednicu korisnika. Bilo da ste student, istraživač ili poslovni profesionalac, dobro razumijevanje R-a omogućit će vam rad s podacima na snažan i učinkovit način. Osim samog rada s podacima i analize, R okruženje se smatra izvrsnim alatom za diseminaciju podataka kroz vizualizacije, interaktivne dokumente, aplikacije i slično.
Knjiga je namijenjena svima koji žele naučiti modele obrade i prikaza podataka pomoću R jezika koristeći aplikaciju RStudio (R Core Team, 2022). Knjiga je orijentirana prema početnicima u R okruženju, ali uspješno svladavanje gradiva ove knjige postavit će temelje i omogućiti široku primjenu R okruženja i u naprednijim analizama. Knjiga nije samo vodič kroz R jezik i RStudio aplikaciju, već koristi brojne izvore informacija te usporedbe različitih metoda koje se koriste u društvenim, humanističkim i biomedicinskim znanostima. Tako, ovdje možemo pronaći usporedbe različitih eksplanatornih i konfirmatornih metoda s brojnim referencijama te modeliranje (SEM) koje se koristi u različitim područjima, od psihometrije, ekonometrije do biomedicine i zdravstva.
Ova knjiga u elektroničkom formatu u cijelosti je napravljena pomoću quarto rmarkdown sintaksnog jezika u RStudio sučelju (Allaire, 2022). Takav pristup omogućava dinamičku izmjenu e-knjige jer jezik R je toliko raširen da vjerojatno nitko ne može sa sigurnosti reći koliko je trenutno aktivnih i novih paketa ili biblioteka, odnosno kolekcija funkcija (libraries). R je jezik otvorenog koda (open source) a također i aplikacija RStudio te su u kombinaciji vrlo moćan alat za obradu i prikaz rezultata istraživanja ali i za različite razine podatkovne znanosti. Riječ paket je prijevod riječi package, kao što je i biblioteka dolazi od pojma library, libraries a označava dio aplikacije, programa (eng. software) koji radi određenu funkciju/-e ili statističku metodu ili jednostavno točno određeni prikaz tablica ili slika u okviru jezika R.
R kao objektni jezik u kombinaciji s Quarto opisnim jezikom pruža široku lepezu mogućnosti. R i RStudio omogućavaju studentima i nastavnicima besplatno korištenje za potrebe obrazovanja, istraživanja i publiciranja. Uz poznavanje R jezika, korištenje vrlo jednostavnog Markdown opisnog jezika, moguće je vrlo elegantno pisanje knjiga, priprema prezentacija, pisanje radova i oblikovanje različitih priručnika. R i RStudio uspješno komuniciraju s Pandoc i Latexom sustavom.
R jezik zajedno s markdown sintaksnim jezikom jako je produktivan spoj literatnog programiranja (Knuth, 1984). U okviru RStudio aplikacije, Yihui Xie je s paketom knitr objedinio mogućnost korištenja nekoliko jezika u okviru markdown sintakse (Xie, 2022).
Raditi obradu podataka i prikaz rezultata istraživanja u R jeziku, znači i promjenu razmišljanja, kognitivnog ustroja kojeg stječemo ili smo stekli uporabom uobičajenih vizualnih aplikacija koje nude određene izbornike i načine obrade i prikaza podataka. R omogućava potpunu kontrolu nad podacima i traži od korisnika razumijevanje procesa kroz koje prolazi a što znači i kvalitetnije usvajanje gradiva. Rad u aplikaciji koja podržava R, kao što je RStudio-posit, ne ograničava korisnika već postojećim vizualnim rješenjima, već potiče kreativnost, učenje i alternativne pristupe u rješenju nekog istraživačkog problema. R paketi se objaljuju gotovo neposredno kada se razvije i metoda, a što je gotovo nemoguće u komercijalnim aplikacijama.
Konačno, R i njegovo okruženje s vremenom evoluira. Funkcije i naredbe se mijenjaju kako bi se prilagodile novijim načinima kodiranja, standardima i brzini izvođenja koda, ali i kako se razvijaju nove statističke tehnike i načini korištenja programskih jezika. Učenja R (ili bilo kojeg drugog programskog jezika) nikad ne završava.
1.1 R i RStudio-posit
U praksi se danas najčešće koriste statistički paketi:
Ukoliko se želi koristiti R tada treba na računalu instalirati prvo R jezik a zatim i aplikaciju koja će upravljati s jezikom, kao što je npr. RStudio. R jezik ima i svoj časopis The R Journal.
Organizacija RStudio je u posljednje vrijeme promijenila svoje ime u posit s ciljem daljnje integracije i povezivanja RStudio sučelja u druge programske jezike, posebno Python. Već sada RStudio omogućuje rad sa više programskih jezika kao i olakšano kombiniranje sintakse više programskih jezika. Takav rad omogućuje upotrebu najboljih praksi i mogućnosti više programskih jezika, što će posebno pomoći početnicima koji žele jednostavnija aplikativna rješenja za svoje potrebe.
RStudio-posit kao i druge aplikacije koje rade s R jezikom koriste paketni način funkcioniranja. Središnje mjesto lokacije paketa ili biblioteka nalazi se na CRAN stranici gdje ima više od 18 500 paketa. Uz svaki paket ide i priručnik u pdf formatu u kojem su objašnjene funkcije paketa. Kvalitetna i jasna dokumentacija paketa jedan je od ključnih aspekata popularnosti i uspješnosti pojedinih paketa.
Instaliranje paketa u RStudio aplikaciji može se obaviti na dva načina, pomoću konzole u RStudio aplikaciji (naredbenom retku) ili iz padajućeg izbornika Tools - Install Packages. Dovoljno je pronaći paket na mreži i upisati njegovo ime koristeći jedan od dva predložena načina. U ovom djelu koristit će se službene oznakake koje koriste u statistici i obradi podataka a navedene možemo provjeriti i na službenim stranicama međunarodnog instituta za statistiku ISI. U Republici Hrvatskoj postoji također Hrvatsko statističko društvo HSD. Na mrežnim stranicama društva postoji i Klub R, za sve one koji žele naučiti R. Ujedno, edukacija za studente i profesore moguća je i u Sveučilišnom računarskom centru SRCE.
1.2 R u različitim znanostima
U području društvenih znanosti postoji jako puno paketa (library) s namjenom upravo u društvenim znanostima CRAN Task View: Statistics for the Social Sciences. Tu možemo vidjeti teoriju i primjenu Bayesove statistike, ekonometrike i financija, obrade i vizualnih prikaza primjene upitnika, psihometrije, društvenih mreža i dr. Konkretno za područje psihologije, možda najbolje mjesto je Personality Project kojeg je voditelj prof. William Ravelle. U rezličitim poglavljima koristit ćemo funkcije psych paketa koji se razvija od 2005 godine u okviru laboratorija Personality, Motivation and Cognition pri Odsjeku za psihologiju Northwestern sveučilišta, Department of Psychology at Northwestern University. Navedeni paket koristi funkcije koje se mogu primijeniti u području istraživanja ličnosti, psihometrije i drugih područja.
U području biomedicine ima niz primjera uporabe R jezika i paketa. Jednostavan prikaz specifičnosti primjera u području biomedicine obrađuje na mrežnom mjestu Welcome to a Little Book of R for Biomedical Statistics!.
U humanističkim znanostima R vrlo lijepo radi s različitim mrežama, geoprostornim podacima, manipulacijom slikama, analizom jezika i teksta (Arnold & Tilton, 2015). Analiza teksta može se raditi pomoću paketa tm (Feinerer et al., 2008), wordcloud (Fellows, 2018), wordcloud2 (Lang & Chien, 2018). Jednostavnim pozivom paketa wordcloud2 i učitavanjem datoteke s podacima dobivamo zanimljiv slikovni prikaz kvalitativne analize s pripadajućim frekvencijama. Frekvencije tj. učestalosti pojavljivanja pojedine riječi dobivamo prijelazom pokazivača preko pojedine riječi.
1.3 Gdje učiti i naći primjere o R-u
Osim prethodno navedenih poveznica na službenim stranicama R-jezika i RStudio sučelja, postoje i drugi izvori. Mrežni resursi danas pružaju izniman i raznovrstan izvor informacija, tečajeva, knjiga i primjera uporabe R jezika u praksi. Na poznatoj edukacijskoj platformi Coursera postoji niz online edukacija s poznatih sveučilišta u svijetu kao što je Duke University i dr. Dovoljno je u tražilicu upisati R statistics i dobivamo popis trenutno aktivnih predavanja i tečajeva iz primjene statistike u R-u RStudio Education. Jedna od najpoznatijih i najčešće korištenih knjiga za početnike u R-u s naglaskom na tidyverse paket je R for Data Science.