.Rhistory

install.packages(c("stringr", "stringi", "tm", "dplyr", "SnowballC", "dendextend", "ca", "factoextra", "wordcloud", "sentimentr", "eply"))
# Zadanie 1
moja_pg_funkcja_wczytanie_danych_z_wielu_plikow <- function(nazwa_folderu = ""){
# Dodanie / przed sciezka/nazwa folderu
sciezka <- paste0("/",nazwa_folderu)
# Sklejenie sciezki przestrzeni roboczej z nazwa folderu
sciezka_all <- paste0(getwd(), sciezka)
# Odczyt danych i zmiana kodowania
# windows-1250, UTF-8 itd
tekst_zrodlo <- DirSource(sciezka_all, encoding = "UTF-8", mode = "text")
# Wrzucenie danych do korpusu
tekst_korpus <- VCorpus(tekst_zrodlo)
}
install.packages("tm", "sentimentr", "ggplot2", "dplyr", "proxy")
library("tm")
library("sentimentr")
library("ggplot2")
library("dplyr")
library("proxy")
install.packages("proxy")
library("proxy")
getwd()
setwd("C:/Users/Anita/Documents/analiza danych i text mining/egzamin/egzamin")
getwd()
hrabia_wczytany_do_korpusu <- moja_pg_funkcja_wczytanie_danych_z_wielu_plikow("hrabia10")
hrabia_wczytany_do_korpusu
hrabia_wczytany_do_korpusu[[10]]$content
moja_pg_funkcja_czysc_korpus <- function(korpus_do_czyszczenia){
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "”", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "“", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "-", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "'", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "’", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "‘", "")))
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\n", "")))
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\r", "")))
# Zamiane duzych znakow na male
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(tolower))
# Usuniecie znakow przestankowych
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removePunctuation)
# Usuniecie numerow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeNumbers)
# Usuniecie stopwords
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeWords, stopwords("en"))
# Usuniecie bialych znakow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, stripWhitespace)
# Usuwanie spacji z poczatku i konca stringow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) trimws(x)))
# Usuwanie pustych linii
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) stri_remove_empty(x, na_empty = FALSE)))
}
hrabia_oczyszczony_korpus <- hrabia_wczytany_do_korpusu(hrabia_wczytany_do_korpusu)
hrabia_oczyszczony_korpus <- moja_pg_funkcja_czysc_korpus(hrabia_wczytany_do_korpusu)
install.packages("stringr")
library("stringr")
moja_pg_funkcja_czysc_korpus <- function(korpus_do_czyszczenia){
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "”", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "“", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "-", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "'", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "’", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "‘", "")))
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\n", "")))
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\r", "")))
# Zamiane duzych znakow na male
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(tolower))
# Usuniecie znakow przestankowych
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removePunctuation)
# Usuniecie numerow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeNumbers)
# Usuniecie stopwords
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeWords, stopwords("en"))
# Usuniecie bialych znakow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, stripWhitespace)
# Usuwanie spacji z poczatku i konca stringow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) trimws(x)))
# Usuwanie pustych linii
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) stri_remove_empty(x, na_empty = FALSE)))
}
hrabia_oczyszczony_korpus <- moja_pg_funkcja_czysc_korpus(hrabia_wczytany_do_korpusu)
install.packages("stringi")
install.packages("stringi")
library("stringi")
moja_pg_funkcja_czysc_korpus <- function(korpus_do_czyszczenia){
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "”", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "“", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "-", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "'", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "’", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "‘", "")))
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\n", "")))
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\r", "")))
# Zamiane duzych znakow na male
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(tolower))
# Usuniecie znakow przestankowych
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removePunctuation)
# Usuniecie numerow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeNumbers)
# Usuniecie stopwords
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeWords, stopwords("en"))
# Usuniecie bialych znakow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, stripWhitespace)
# Usuwanie spacji z poczatku i konca stringow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) trimws(x)))
# Usuwanie pustych linii
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) stri_remove_empty(x, na_empty = FALSE)))
}
hrabia_oczyszczony_korpus <- moja_pg_funkcja_czysc_korpus(hrabia_wczytany_do_korpusu)
hrabia_oczyszczony_korpus[[10]]$content
moja_pg_funkcja_ogarnij_stringi_w_korpusie<- function(korpus_oczyszczony, ilosc_datasetow){
for (i in 1:ilosc_datasetow){
wszystkie_slowa <- unlist(strsplit(korpus_oczyszczony[[i]]$content, " "))
korpus_oczyszczony[[i]]$content <- paste(wszystkie_slowa, collapse=' ')
}
return(korpus_oczyszczony)
}
hrabia_korpus_uporzadkowany <- moja_pg_funkcja_ogarnij_stringi_w_korpusie(hrabia_oczyszczony_korpus, 10)
hrabia_korpus_uporzadkowany
hrabia_korpus_uporzadkowany[[10]]$content
# Zadanie 3
moja_pg_funkcja_wyodrebnij_zdania<- function(vector){
return (get_sentences(vector))
}
View(hrabia_korpus_uporzadkowany)
hrabia_wyodrebnione_zdanie <- moja_pg_funkcja_wyodrebnij_zdania(hrabia_korpus_uporzadkowany["rozdz1.txt"]$content)
View(hrabia_korpus_uporzadkowany)
rozdzial_1 <- hrabia_korpus_uporzadkowany[[1]]$content
rozdzial_1
hrabia_wyodrebnione_zdanie <- moja_pg_funkcja_wyodrebnij_zdania(rozdzial_1)
hrabia_wyodrebnione_zdanie
rozdzial_1_characters <- as.character(rozdzial_1)
hrabia_wyodrebnione_zdanie <- moja_pg_funkcja_wyodrebnij_zdania(rozdzial_1_characters)
hrabia_wyodrebnione_zdanie
# ------------------------------------------------------------------------------------------------------------------
# Funkcja rysujaca magiczny wykres analizy sentymentu
# --- Przyjmuje data.frame z analiza sentymentu
# ------------------------------------------------------------------------------------------------------------------
f_rysuj_wykres_analizy_sentymentu <- function(sentiments){
moje_kolory <- c("deeppink", "gold", "green3")
sentiments %>%
mutate(kolor = ifelse(sentiment == 0, "Neutralna", ifelse(sentiment < 0, "Negatywna", "Pozytywna"))) %>%
ggplot(aes(element_id, sentiment, fill = kolor, color = kolor)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = moje_kolory) +
scale_color_manual(values = moje_kolory) +
labs(x = "Opinie", y = "Ocena sentymentu") +
theme_minimal()
}
kawa <- read.csv2("coffee_tweets.csv")
kawa <- read.csv2("coffee_tweets.csv")
coffee_tweets <- kawa$text
coffee_tweets_vector <- as.character(coffee_tweets)
coffee_tweets_vector
# ------------------------------------------------------------------------------------------------------------------
# Funkcja wyodrebnia zdania z tekstu
# --- Przyjmuje wektor
# --- Zwraca liste z wyodrebnionymi zdaniami
# ------------------------------------------------------------------------------------------------------------------
f_wyodrebnij_zdania<- function(vector){
return (get_sentences(vector))
}
f_wyodrebnij_zdania(coffee_tweets_vector)
hrabia_wyodrebnione_zdanie
moja_pg_funkcja_czysc_korpus <- function(korpus_do_czyszczenia){
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "”", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "“", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "-", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "'", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "’", "")))
#korpus <- tm_map(korpus, content_transformer(function(x) str_replace_all(x, "‘", "")))
#korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\n", "")))
#korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) str_replace_all(x, "\r", "")))
# Zamiane duzych znakow na male
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(tolower))
# Usuniecie znakow przestankowych
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removePunctuation)
# Usuniecie numerow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeNumbers)
# Usuniecie stopwords
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, removeWords, stopwords("en"))
# Usuniecie bialych znakow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, stripWhitespace)
# Usuwanie spacji z poczatku i konca stringow
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) trimws(x)))
# Usuwanie pustych linii
korpus_do_czyszczenia <- tm_map(korpus_do_czyszczenia, content_transformer(function(x) stri_remove_empty(x, na_empty = FALSE)))
}
hrabia_wczytany_do_korpusu <- moja_pg_funkcja_wczytanie_danych_z_wielu_plikow("hrabia10")
hrabia_wczytany_do_korpusu
hrabia_wczytany_do_korpusu[[10]]$content
hrabia_korpus_uporzadkowany <- moja_pg_funkcja_ogarnij_stringi_w_korpusie(hrabia_oczyszczony_korpus, 10)
hrabia_korpus_uporzadkowany[[10]]$content
rozdzial_1 <- hrabia_korpus_uporzadkowany[[1]]$content
rozdzial_1_characters <- as.character(rozdzial_1)
hrabia_wyodrebnione_zdanie <- moja_pg_funkcja_wyodrebnij_zdania(rozdzial_1_characters)
hrabia_wyodrebnione_zdanie
moja_pg_funkcja_analiza_sentymentu <- function(vector){
#moĹĽna wybraÄ‡ inne slowniki sentymentu
return (sentiment(vector, polarity_dt = lexicon::hash_sentiment_huliu))
}
wynik_analizy_sentymentu <- moja_pg_funkcja_analiza_sentymentu(rozdzial_1)
wynik_analizy_sentymentu
kawa <- read.csv2("coffee_tweets.csv")
coffee_tweets <- kawa$text
coffee_tweets_vector <- as.character(coffee_tweets)
f_wyodrebnij_zdania(coffee_tweets_vector)
coffee_result <- f_analiza_sentymentu(coffee_tweets_vector)
# ------------------------------------------------------------------------------------------------------------------
# Funkcja przeprowadza analize sentymentu
# --- Przyjmuje wektor
# --- Zwraca data.frame z opisem czy slowo w zdaniu bylo pozytywne, negatywne lub neutralne
# ------------------------------------------------------------------------------------------------------------------
f_analiza_sentymentu <- function(vector){
#moĹĽna wybraÄ‡ inne slowniki sentymentu
return (sentiment(vector, polarity_dt = lexicon::hash_sentiment_huliu))
}
coffee_result
coffee_result <- f_analiza_sentymentu(coffee_tweets_vector)
coffee_result
moja_pg_funkcja_rysuj_wykres_analizy_sentymentu <- function(sentiments){
moje_kolory <- c("deeppink", "gold", "green3")
sentiments %>%
mutate(kolor = ifelse(sentiment == 0, "Neutralna", ifelse(sentiment < 0, "Negatywna", "Pozytywna"))) %>%
ggplot(aes(element_id, sentiment, fill = kolor, color = kolor)) +
geom_bar(stat = "identity") +
scale_fill_manual(values = moje_kolory) +
scale_color_manual(values = moje_kolory) +
labs(x = "Opinie", y = "Ocena sentymentu") +
theme_minimal()
}
moja_pg_funkcja_rysuj_wykres_analizy_sentymentu(wynik_analizy_sentymentu)
rozdzial_1 <- hrabia_oczyszczony_korpus[[1]]$content
rozdzial_1
rozdzial_1_characters <- as.character(rozdzial_1)
hrabia_wyodrebnione_zdanie <- moja_pg_funkcja_wyodrebnij_zdania(rozdzial_1_characters)
hrabia_wyodrebnione_zdanie
wynik_analizy_sentymentu <- moja_pg_funkcja_analiza_sentymentu(hrabia_wyodrebnione_zdanie)
wynik_analizy_sentymentu
moja_pg_funkcja_rysuj_wykres_analizy_sentymentu(wynik_analizy_sentymentu)
# Zadanie 4
moja_pg_funkcja_steeming_korpusu <- function(korpus){
# Steeming - wyszukiwanie rdzenia slow dla korpusu
korpus <- tm_map(korpus, stemDocument)
# Konwersja na macierz Term-Dokument
macierz_term_dokument <- TermDocumentMatrix(korpus)
}
hrabia_macierz_term_dokument <- moja_pg_funkcja_steeming_korpusu(hrabia_oczyszczony_korpus)
hrabia_macierz_term_dokument
hrabia_macierz_dokument_term <- as.DocumentTermMatrix(hrabia_macierz_term_dokument)
hrabia_macierz_dokument_term
hrabia_odleglosci <- moja_pg_funkcja_oblicz_odleglosci_miedzy_dokumentami(hrabia_macierz_dokument_term)
moja_pg_funkcja_oblicz_odleglosci_miedzy_dokumentami<- function(macierz_dokument_term){
# Obliczenie odlegďż˝oďż˝ci pomiďż˝dzy dokumentami
dokumenty_data_matrix <- as.matrix(macierz_dokument_term)
odl <- dist(dokumenty_data_matrix) # domyslnie uzyta jest miara euklidesowa (method = "euclidean")
}
hrabia_odleglosci <- moja_pg_funkcja_oblicz_odleglosci_miedzy_dokumentami(hrabia_macierz_dokument_term)
hrabia_odleglosci
# Grupowanie hierarchiczne
hg <- hclust(hrabia_odleglosci)
hg
plot(hg)
moja_pg_funkcja_oblicz_odleglosci_miedzy_dokumentami<- function(macierz_dokument_term){
# Obliczenie odlegďż˝oďż˝ci pomiďż˝dzy dokumentami
dokumenty_data_matrix <- as.matrix(macierz_dokument_term)
odl <- dist(dokumenty_data_matrix, method = "jaccard") # domyslnie uzyta jest miara euklidesowa (method = "euclidean")
}
hrabia_odleglosci <- moja_pg_funkcja_oblicz_odleglosci_miedzy_dokumentami(hrabia_macierz_dokument_term)
hrabia_odleglosci
hg <- hclust(odl, method = "ward.D")
hg <- hclust(hrabia_odleglosci, method = "ward.D")
hg_ladne <- as.dendrogram(hg)
hg_ladne <- color_labels(hg_ladne,3, col = c("royalblue", "orangered", "seagreen"))
hg_ladne <- color_branches(hg_ladne,3, col = c("royalblue", "orangered", "seagreen"))
plot(hg_ladne, main = paste("Dendogram na podstawie miary:\n", "Jaccard"))
rect.dendrogram(hg_ladne, k = 3, border = "grey20", lty = 2)
hrabia_macierz_term_dokument <- moja_pg_funkcja_steeming_korpusu(hrabia_oczyszczony_korpus)
hrabia_macierz_dokument_term <- as.DocumentTermMatrix(hrabia_macierz_term_dokument)