Post hoc synopsis

Ова веројатно е еден од покорисните документи за нови TidyTuesdayAtKIKA посетители. Вклучен е код за инспекција и чистење на проблематични варијабли, како текстуални така и нумерички (датуми). Има неколку типови на визуализации на податоците, со основен ggplot2 код и специјализирани пакети. И има кратко теоретско објаснување за синтаксата на ggplot2 како и неколку корисни кратенки за RStudio.



  • .Rmd (R Markdown) е околината во која ќе работиме бидејќи овозможува код, текст, коментари и аутпут да се презентираат заедно;
  • Нов R Notebook: Мени: File -> New File -> R notebook
  • Корисни кратенки:
    • insert code chunk (ctrl+alt+i), execute all above/below cursor (ctr+alt+b/ctrl+alt+e),
    • pipes (ctrl+shift+m) [not a true bash pipe. More a function to chain other functions]
    • view()

The tidyverse

The tidyverse is an “opinionated collection of R packages designed for data science. All packages share an underlying design philosophy, grammar, and data structures.” (source:

TidyTuesday 37 недела, 2 пат КИКА

  • Податоци на github
  • Добар пример за реални, ‘валкани’ податоци што треба да се исчистат. Ако на пример работите во осигурителна куќа и ви речат ајде да видиме што да се прави за полиси за осигурување за повреди во забавни паркови.

Libraties (packages) and data

Load the libraries


Load the data from github

tx_injuries <- readr::read_csv("")

safer_parks <- readr::read_csv("")

Средување NA вредности

A lot of free text this week, some inconsistent NAs (n/a, N/A) and dates (ymd, dmy). A good chance to do some data cleaning and then take a look at frequency, type of injury, and analyze free text.

Прашање: Колку сѐ можни форми на NA (not applicable) има во податоците?

tx_injuries <- tx_injuries %>% 
    mutate(injury_date = case_when(
      str_length(injury_date) == 5 ~ as_date(
        as.numeric(injury_date), origin='1899-12-30'),
      str_detect(injury_date, "/") == TRUE ~ mdy(injury_date),
      TRUE ~ as.Date(NA)

Графици 101

Ако се присетите на чистењето на податоците, некако излегува дека решивме да работиме со три променливи кои се различни по тип: age, gender, injury_date.

## Rows: 542
## Columns: 13
## $ injury_report_rec <dbl> 2032, 1897, 837, 99, 55, 780, 253, 253, 55, 55, 2...
## $ name_of_operation <chr> "Skygroup Investments LLC DBA iFly Austin", "Will...
## $ city              <chr> "Austin", "Galveston", "Grapevine", "San Antonio"...
## $ st                <chr> "TX", "TX", "TX", "TX", "AZ", "TX", "TX", "TX", "...
## $ injury_date       <date> 2013-02-12, 2013-03-02, 2013-03-03, 2013-03-03, ...
## $ ride_name         <chr> "I Fly", "Gulf Glider", "Howlin Tornado", "Scooby...
## $ serial_no         <chr> "SV024", "GS-11-10-WG-14", "0643-C1-T1-TN60", "n/...
## $ gender            <fct> F, F, F, F, F, F, F, M, M, F, M, F, NA, M, M, F, ...
## $ age               <dbl> 37, 43, NA, 51, 17, 40, 36, 23, 40, 48, 10, NA, 4...
## $ body_part         <chr> "Mouth", "Knee", "Right Shoulder", "Lower Leg", "...
## $ alleged_injury    <chr> "Student hit mouth on wall", "Alleged arthroscopy...
## $ cause_of_injury   <chr> "Student attempted unfamiliar manuever", "Hit her...
## $ other             <chr> NA, "Prior history of problems with this knee. Fi...

Template за графици

ggplot(data = <DATA>) + 
  <GEOM_FUNCTION>(mapping = aes(<MAPPINGS>))


MAPPING: A variable is mapped onto a geom.

Examples: age is mapped to x, gender is mapped to fill

Many geoms. They have a corresponding stat function that transforms the data to make it suitable for the geom (?stat_boxplot)


ggplot(data = drop_na(tx_injuries, gender)) + 
  geom_histogram(mapping = aes(x = age, fill = gender), 
                 na.rm = TRUE, color="white") +
  labs(x="Години", y="Број") +
  labs(title="Број на повреди по години по пол", fill = "Пол") +


ggplot(data = drop_na(tx_injuries, gender)) + 
  geom_point(mapping = aes(x = age, y = injury_date, color=gender)) +
  labs(x="Година", y="Возраст") +
  labs(title="Повреди по години по возраст") +
  #facet_wrap("gender", ncol=2)


tx_injuries %>% select(age, gender, injury_date) %>% 
  mutate([month(injury_date)]) %>% 
  mutate(Year=factor(year(injury_date))) %>% 
  drop_na(Month, Year, gender) %>% 
  group_by(Year, Month, gender) %>% 
  tally() %>% 
  ggplot(data=.) + 
    geom_tile(aes(y=Month, x=Year, fill=n), color="white") +
    facet_wrap("gender", ncol=2) +



tx_injuries %>% select(age, gender, injury_date) %>%
  mutate([month(injury_date)]) %>%
  mutate(Year=factor(year(injury_date))) %>%
  group_by(Year) %>%
  mutate(Day_of_year=injury_date-min(injury_date)) %>%
  drop_na(Year, Day_of_year, gender) %>%
  ggplot(data=.) +
    geom_density_ridges(mapping = aes(
      x=Day_of_year, y=Year, fill=gender), alpha=.5) +
    facet_wrap("gender", ncol=2)

Homework: What was potentially wrong with the assumptions for the previous graph?

R референци