В первую очередь загляните в CRAN Task View: Web Technologies and Services -- на этой странице содержится список пакетов, позволяющих получить доступ и извлечь данные из Интернет.

dplyr

dplyr -- пакет для работы с таблицами (data frames) в R. Основные возможности:

  • Фильтрация строк: filter()
  • Упорядочение строк: arrange()
  • Выбор колонок: select()
  • Извлечение уникальных строк: select() %>% distinct()
  • Добавление новых колонок: mutate()
  • Вычисление итогов: summarise()
  • Выбор случайного набора строк: sample_n(), sample_frac()
  • Поддержка последовательных операций: %>%

Виньетка "Введение в dplyr".

datamart

datamart -- содержит набор классов, упрощающих сбор и обработку данных из различных веб-хранилищ. Пример работы с данными из Gapminder.



Комментарии

comments powered by Disqus