12 Osnove kvantitativne analize teksta

Kvantitativna analiza teksta u R sučelju predstavlja automatiziran pristup procesiranja najčešće velikih količina podataka, koje se zatim mogu analizirati korištenjem statističkih procedura. Često je cilj kvanitificirati obilježja teksta, koje bi se zatim mogle analizirati korištenjem klasičnih statističkih postupaka. Sam tekst ima različita obilježja, koja mogu biti osnovna (broj riječi u tekstu, duljina riječi), do relativno složenijih analiza (emocionalne karakteristike teksta, razina čitljivosti). U ovom dijelu ćemo se usredotočiti na pripremanje i formatiranje (engl. pre processing) teksta koji želimo analizirati, neke osnovne opisne analize teksta te konačno analizu sentimenta i čitljivosti teksta.

12.1 Priprema podataka za analizu (čišćenje podataka)

Prvi korak u svakoj analizi teksta je priprema podataka za analizu, te taj dio zauzima relativno veći dio vremena u radu s tekstualnim podacima.

Niže se nalazi primjer teksta, a cilj je dati uvid čitatelju koji je rezultat nekih osnovnih naredbi u R-u vezanih za analizu teksta. Čišćenje većih količina teksta se u principu ne razlikuje u odnosu na manje količine teksta, osim što za čišćenje većih količina teksta treba veća količina vremena.

Primjer_teksta<-"Garfield loves lasagna.
    He found three pieces.
    He gave Odie one,
      2nd to John,
      and the last he keeps for himself."
print(Primjer_teksta)

[1] "Garfield loves lasagna.\n    He found three pieces.\n    He gave Odie one,\n      2nd to John,\n      and the last he keeps for himself."

Naša varijabla je tekstualna varijabla. Ovdje je važno naglasiti da su dijelovi teksta odvojeni u nove redove, te da između sebe imaju različite veznike i slično. Ali ovaj tekst sadrži velika i mala slova, brojeve, veznike i interpunkciju, što sve predstavlja problem u analizi podataka. Prvi korak je očistiti tekst, s ciljem prikaza naredbi koje omogućuju uređivanje teksta. Za početak možemo otvoriti pakete tm, tidytext i tibble, koji sadrže naredbe koje olakšavaju proces čišćenja tekstualnih podataka.

require(tm)
require(tidytext)
require(tibble)
Primjer_teksta2<-removePunctuation(Primjer_teksta)
print(Primjer_teksta2)

[1] "Garfield loves lasagna\n    He found three pieces\n    He gave Odie one\n      2nd to John\n      and the last he keeps for himself"

Možete primjetiti kako je interpunkcija nestala, nema više zareza, točaka, dvotočki.

Sljedeći problem u analizi teksta su brojevi, te zbog toga moramo maknuti sve brojeve koji se nalaze u tekstu. Pritom treba naglasiti da R prepoznaje brojeve u numeričkom obliku (1,2,3), dok tekstualno napisane brojeve (one, two, three) tretira kao tekst.

Primjer_teksta3<-removeNumbers(Primjer_teksta2)
print(Primjer_teksta3)

[1] "Garfield loves lasagna\n    He found three pieces\n    He gave Odie one\n      nd to John\n      and the last he keeps for himself"

Stoga je ova naredba maknula samo brojeve napisane brojkama, dok su brojevi napisani riječima ostali. Ostao je čak i nastavak za redne brojeve na engleskom “nd”. Taj nastavak predstavlja jedan oblik teksta za koji ne želimo da uđe u analizu, jer nema smisleno značenje. Osim toga, u analizi nam smetaju i veznici te neke česte riječi koje se pojavljuju u tekstu, a koje nemaju (emocionalnu) valenciju, te ne doprinose analizi. Zovemo ih “stopwords”, a njihov popis se može pronaći korištenjem sljedeće naredbe:

Sada ćemo iz našeg teksta maknuti stopwords, za koje ste mogli vidjeti da predstavljaju uglavnom zamjenice, priloge i veznike. Ali, ukoliko znamo da u tekstu postoje još neke riječi koje želimo očistiti, jer ne predstavljaju vrstu teksta koju bismo željeli analizirati, možemo i te riječi dodati u naredbu.U trenutnom slučaju, želimo maknuti i ostatak “nd”, jer ta riječ zapravo ništa ne znači u analizi, te ćemo taj nastavak dodati u naredbu.

Primjer_teksta4<-removeWords(Primjer_teksta3,words = c(stopwords("english"), "nd"))
print(Primjer_teksta4)

[1] "Garfield loves lasagna\n    He found three pieces\n    He gave Odie one\n        John\n        last  keeps  "

U nekim (rijetkim) slučajevima, velika i mala slova mogu poslužiti za razlikovanje različitih riječi (najčešće vlastitih imena i općih imenica). Međutim, u uobičajenom postupku, prilikom čišćenja mičemo sva velika slova u tekstu korištenjem naredbe tolower.

Primjer_teksta5<-tolower(Primjer_teksta4)
Primjer_teksta5

[1] "garfield loves lasagna\n    he found three pieces\n    he gave odie one\n        john\n        last  keeps  "

Konačno, potrebno se riješiti viška razmaka i praznih polja. Novi red u tekstu možete prepoznati jer je uvijek označen simbolom \n.

Primjer_teksta6<-stripWhitespace(Primjer_teksta5)
Primjer_teksta6

[1] "garfield loves lasagna he found three pieces he gave odie one john last keeps "

Ovaj posljednji primjer prikazuje vrstu teksta koja je “očišćena”, i koja je spremna za analizu.

12.2 Rad s ugrađenim skupovima tekstualnih podataka

Jednako kao što smo analizirali manji dio teksta, tako radimo i s većim količinama teksta.

Za drugi primjer možemo uzeti tekst “alice” u paketu languageR koji sadrži priču Lewisa Carrola Alice u zemlji čudesa, a radi se o nizu odvojenih riječi u redovima, koje zajedno tvore navedenu priču. Sada ćemo čišćenje teksta primijeniti na taj skup podataka. Na kraju ćemo usporediti prvih 50 redova (riječi) priče prije i poslije čišćenja podataka.

require(languageR)
head(alice, n=50)

 [1] "ALICE"       "S"           "ADVENTURES"  "IN"          "WONDERLAND" 
 [6] "Lewis"       "Carroll"     "THE"         "MILLENNIUM"  "FULCRUM"    
[11] "EDITION"     "3"           "0"           "CHAPTER"     "I"          
[16] "Down"        "the"         "Rabbit-Hole" "Alice"       "was"        
[21] "beginning"   "to"          "get"         "very"        "tired"      
[26] "of"          "sitting"     "by"          "her"         "sister"     
[31] "on"          "the"         "bank"        "and"         "of"         
[36] "having"      "nothing"     "to"          "do"          "once"       
[41] "or"          "twice"       "she"         "had"         "peeped"     
[46] "into"        "the"         "book"        "her"         "sister"

alice2<-tolower(alice)
alice3<-removePunctuation(alice2)
alice4<-removeNumbers(alice3)
alice5<-removeWords(alice4, words = c(stopwords("english")))
alice6<-removeWords(alice5, words=c(stopwords("SMART"), ""))
alice7<-stripWhitespace(alice6)
head(alice7, n=50)

 [1] "alice"      ""           "adventures" ""           "wonderland"
 [6] "lewis"      "carroll"    ""           "millennium" "fulcrum"   
[11] "edition"    ""           ""           "chapter"    ""          
[16] ""           ""           "rabbithole" "alice"      ""          
[21] "beginning"  ""           ""           ""           "tired"     
[26] ""           "sitting"    ""           ""           "sister"    
[31] ""           ""           "bank"       ""           ""          
[36] ""           ""           ""           ""           ""          
[41] ""           ""           ""           ""           "peeped"    
[46] ""           ""           "book"       ""           "sister"

Kada se promatra prvih 50 redova u skupu podataka, može primijetiti kako je nakon čišćenja ostao značajno manji broj riječi koje će se analizirati.

12.3 Određivanje čestine riječi u tekstu

Određivanje čestine riječi u tekstu predstavlja jednu od osnovnih radnji u kvantitativnoj analizi teksta. Razlozi za provjeru čestine riječi mogu biti različiti, od jednostavne opisne analize ili testiranja unaprijed postavljene hipoteze o tekstu. Prvi korak je očistiti tekst prema prikazanom obrascu, te zatim napraviti tablicu koja sadrži popis riječi u tekstu i njihovu frekvenciju, odnosno čestinu pojavljivanja. U primjeru koristimo “očišćeni” tekst “alice” iz languageR paketa. Prvi korak je pretvoriti skup podataka u varijablu u R-u, zatim se određuje distribucija čestine pojavljivanja riječi u tekstu (kao što bismo radili s bilo kojom kategorijskom varijablom). Konačno, korištenjem naredbe sort, možemo poredati varijable prema čestini pojavljivanja. U rezultatima se može vidjeti kako je najčešće korištena riječ “alice”, ali i kako u verziji teksta koja je očišćena postoje vrste riječi koje bismo mogli maknuti: “ll”, “ve”. Zato je važno nakon čišćenja teksta pregledati posljednju verziju distribucije čestine riječi, kako bi se korisnik uvjerio da je tekst spreman za analizu.

words_used <-alice7
word_distribution<-table(words_used,useNA = "ifany")

12.4 Vizualizacija čestine riječi

Nekad, za potrebe atraktivnog prikazivanja distribucija čestine riječi u tekstu, ili s ciljem naglašavanja određenih podataka tijekom prezentacije, prikladno je koristiti “oblake riječi” (engl. wordclouds). Oblake riječi je moguće napraviti u R-u, i to na više načina. R paketi wordcloud i wordcloud2 su zanimljivi načini vizualnog prikaza čestine riječi u tekstu. Wordcloud2 predstavlja interaktivniji prikaz ranije inačice. Nakon što smo napravili graf, u trenutnoj matrici pod nazivom imamo oko 18 tisuća praznih vrijednosti, preporuka je uvijek ih se riješiti prilikom oblikovanja matrice.

require(wordcloud)
require(wordcloud2)
wordcloud(alice7, min.freq = 10, max.words = 100)

words_used2<-as.data.frame(word_distribution)
Oblak<-wordcloud2(words_used2, size = 30)
Oblak

words.used3<-words_used2[!(words_used2$words_used ==""),]
head(words.used3)

    words_used Freq
2        abide    1
3      absence    1
4       absurd    2
5   acceptance    1
6     accident    2
7 accidentally    1

Ovakva vrsta analize teksta je opisna, koristi se u rijetkim slučajevima i najčešće zahtijeva velike količine teksta da bi imala smisla. Novija primjena tekstualne analize je korištenje statističkih postupaka u opisima i usporedbi jezičnih karakteristika teksta. Novije analize teksta uključuju analizu čitljivosti i analizu sentimenta.

12.5 Analiza čitljivosti i emocionalnih karakteristika teksta

Za demonstraciju analize čitljivosti nije dovoljno da imamo jednu riječ po redu u matrici. Potrebne su nam veće količine tekstova, kako bismo mogli izračunati potrebnu razinu čitljivosti i emocionalne karakteristike teksta, koje se ne mogu izračunati iz samo jedne riječi. Korištenjem paketa hcandersenr možemo analizirati 156 priča koje je napisao Hans Christian Andersen. Ta baza podataka će nam pomoći da pogledamo kako možemo analizirati prethodno navedene parametre i pripremiti tekst za statističku analizu. U ovom slučaju je važno naglasiti da je naš broj ispitanika (redova, n) zapravo broj analiziranih tekstova.

require(hcandersenr)

Kako možemo vidjeti iz paketa, tekst se prelama iz reda u red, te nema ujednačenog obrasca prema kojem bi se mogao spojiti, primjerice da kraj priče označava dvotočka ili neki izraz. Srećom, uz svaki redak teksta je navedeno o kojoj se priči radi, pa možemo tekst grupirati prema tom kriteriju. Ukoliko to ne bismo imali, bilo bi iznimno teško automatski spojiti priče jer, nažalost, ni analiza teksta korištenjem programa nije svemoguća. Ukoliko imate sreće, ili možete utjecati na slaganje tekstova u matricu, preporuka je uvijek koristiti ujednačen način odvajanja skupova podataka (u najboljem slučaju neki specijalni znak ili skup brojeva).

data<-as.data.frame(hcandersen_en)
x<-table(data$book)
attach(data)
library(dplyr)
data_aggregated<-data %>% group_by(book) %>% 
  summarise(text = paste(text, collapse = " "))
head(data_aggregated)

# A tibble: 6 × 2
  book                              text                                        
  <chr>                             <chr>                                       
1 "\"Beautiful\""                   "Alfred the sculptor - yes, you know him, d…
2 "\"Dance, dance, doll of mine!\"" "\"Yes, this is a song for very small child…
3 "\"Something\""                   "\"I mean to be somebody, and do something …
4 "A cheerful temper"               "From my father I received the best inherit…
5 "A leaf from heaven"              "High up in the thin, clear air there flew …
6 "A picture from the ramparts"     "It is autumn. We stand on the ramparts, an…

Sada imamo tablicu sa 156 priča, a varijable u bazi podataka su Book (ime knjige) i text (tekst knjige). Sada ćemo analizirati sentiment Andersenovih priča. Prijašnje vrste analize teksta si uglavnom opisne, te se sve temeljli na čestini riječi. Ipak, u pravoj kvantitativnoj analizi teksta najčešće želimo analizirati kakva su obilježja nekog teksta. Najčešći pristup u analizi obilježja teksta se odnosi na analizu sentimenta ili emocionalnih obilježja teksta. Taj pristup omogućuje da korištenjem R paketa analiziramo je li neki test sadržava riječi koje su povezane s pozitivnim ili negativnim emocijama (ili nekim drugim psihološkim kontruktom), te izračunom tih koeficijenata omogućava usporedbu. Neki od najpoznatijih paketa u ovom dijelu su sentimentr, SentimentAnalysis i syuzhet. Primjerice, korištenjem tih paketa (i pomoću paketa ggplot2) možemo napraviti slikovni prikaz emocionalnih karakteristika na cijelom skupu tekstova.

require(sentimentr)
require(SentimentAnalysis)
require(syuzhet)

sent <- analyzeSentiment(data_aggregated$text, language = "english")


sent2<-get_nrc_sentiment(data_aggregated$text)
head(sent2)

  anger anticipation disgust fear joy sadness surprise trust negative positive
1     6           35       8   16  42      31       17    57       46       96
2     1            5       2    2  10       1        4     7        5       16
3    15           38      16   25  40      36       27    48       53       92
4    13           26      11   15  28      22       17    30       28       49
5     9           25      10   11  30      12       16    35       32       49
6    10           10       8    9   7       8        2     8       14       16

sent3 <- as.data.frame(colSums(sent2))

sent3 <-tibble::rownames_to_column(sent3)
colnames(sent3) <- c("emotion", "count")
require(ggplot2)
ggplot(sent3, aes(x = emotion, y = count, fill = emotion)) +
  geom_bar(stat = "identity") + theme_minimal() + 
  theme(legend.position="none", panel.grid.major = element_blank()) + 
  labs( x = "Emotion", y = "Total Count") + ggtitle("Sentiment") +
  theme(plot.title = element_text(hjust=0.5))

Rezultat na slikovnom prikazu je broj riječi povezan s određenom emocijom ili psihološkim konstruktom.

Sljedeći aspekt analize teksta je analiza čitljivosti, odnosno procjena lakoće čitanja određenog teksta. Za to je preporuka koristiti pakete quanteda i quanteda.textstats, koji sadrže više od stotinu različitih koeficijenata za procjenu čitljivosti. Svaki od koeficijenata čitljivosti ima svoju interpretaciju, a sama interpretacija se može pronaći u opisu paketa. Za naš trenutni primjer koristiti ćemo SMOG formulu koja označava koliko godina obrazovanja osoba mora imati da bi s lakoćom pročitala opisani tekst.

require(quanteda)
require(quanteda.textstats)
readability<-quanteda.textstats::textstat_readability(data_aggregated$text, measure="SMOG.simple")
head(readability)

  document SMOG.simple
1    text1    8.739755
2    text2    6.872983
3    text3    8.659512
4    text4   10.427065
5    text5    8.353197
6    text6    8.477226

summary(readability$SMOG.simple)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  6.105   7.404   7.929   8.120   8.750  10.773

Dakle, medijan broja godina obrazovanja za čitanje Andersenovih priča je oko osam godina (IQR 7-9), što se može interpretirati da bi osoba trebala imati barem završenu osnovnu školu da bi mogla s lakoćom pročitati Andersenove priče.

12.6 Priprema podataka za statističku analizu

Ukoliko želimo raditi statističku analizu s podatcima, onda možemo napraviti i analizu sentimenta koja će pripremiti podatke za unos u matricu.

sentxy <- analyzeSentiment(data_aggregated$text, language = "english", 
                           removeStopwords = FALSE, stemming = FALSE)
head(sentxy)

  WordCount SentimentGI NegativityGI PositivityGI SentimentHE NegativityHE
1      2082  0.03554275   0.02929875   0.06484150 0.004803074  0.002401537
2       308  0.01948052   0.05519481   0.07467532 0.000000000  0.000000000
3      2154  0.03481894   0.04085422   0.07567317 0.008820799  0.004178273
4      1201  0.03913405   0.04662781   0.08576187 0.017485429  0.003330558
5       904  0.03761062   0.03318584   0.07079646 0.011061947  0.006637168
6       300  0.03000000   0.03333333   0.06333333 0.010000000  0.006666667
  PositivityHE  SentimentLM NegativityLM PositivityLM RatioUncertaintyLM
1  0.007204611 -0.001440922  0.009125841  0.007684918        0.008165226
2  0.000000000 -0.022727273  0.022727273  0.000000000        0.003246753
3  0.012999071 -0.013927577  0.023676880  0.009749304        0.010677809
4  0.020815987  0.009159034  0.010824313  0.019983347        0.008326395
5  0.017699115 -0.001106195  0.015486726  0.014380531        0.007743363
6  0.016666667 -0.006666667  0.013333333  0.006666667        0.003333333
  SentimentQDAP NegativityQDAP PositivityQDAP
1    0.04082613    0.012487992     0.05331412
2    0.05844156    0.003246753     0.06168831
3    0.02924791    0.032497679     0.06174559
4    0.03247294    0.027477102     0.05995004
5    0.03871681    0.022123894     0.06084071
6    0.01000000    0.033333333     0.04333333

Konačni korak je, prije nego možemo analizirati naše podatke, organizirati sve podatke u tablice u kojima možemo provoditi statističku analizu.

dataforanalysis<-cbind.data.frame(data_aggregated$book,readability, sent, sent2)
head(dataforanalysis)

           data_aggregated$book document SMOG.simple WordCount SentimentGI
1                   "Beautiful"    text1    8.739755      1197  0.11111111
2 "Dance, dance, doll of mine!"    text2    6.872983       198  0.10606061
3                   "Something"    text3    8.659512      1251  0.09912070
4             A cheerful temper    text4   10.427065       693  0.11976912
5            A leaf from heaven    text5    8.353197       506  0.09486166
6   A picture from the ramparts    text6    8.477226       175  0.05142857
  NegativityGI PositivityGI SentimentHE NegativityHE PositivityHE  SentimentLM
1    0.1086048    0.2197160 0.002506266  0.004177109  0.006683375 -0.002506266
2    0.1111111    0.2171717 0.005050505  0.000000000  0.005050505 -0.030303030
3    0.1031175    0.2022382 0.025579536  0.005595524  0.031175060 -0.019184652
4    0.1443001    0.2640693 0.040404040  0.001443001  0.041847042  0.010101010
5    0.1027668    0.1976285 0.029644269  0.003952569  0.033596838 -0.015810277
6    0.1542857    0.2057143 0.022857143  0.000000000  0.022857143 -0.051428571
  NegativityLM PositivityLM RatioUncertaintyLM SentimentQDAP NegativityQDAP
1   0.04010025  0.037593985        0.015037594    0.09690894     0.07351713
2   0.03535354  0.005050505        0.010101010    0.10606061     0.02020202
3   0.05115907  0.031974420        0.012789768    0.07993605     0.08073541
4   0.04617605  0.056277056        0.025974026    0.09523810     0.09235209
5   0.04940711  0.033596838        0.013833992    0.08300395     0.07509881
6   0.06285714  0.011428571        0.005714286    0.01714286     0.16000000
  PositivityQDAP anger anticipation disgust fear joy sadness surprise trust
1      0.1704261     6           35       8   16  42      31       17    57
2      0.1262626     1            5       2    2  10       1        4     7
3      0.1606715    15           38      16   25  40      36       27    48
4      0.1875902    13           26      11   15  28      22       17    30
5      0.1581028     9           25      10   11  30      12       16    35
6      0.1771429    10           10       8    9   7       8        2     8
  negative positive
1       46       96
2        5       16
3       53       92
4       28       49
5       32       49
6       14       16

I spremni smo za rad sa statističkim parametrima.