Вы попали на интернет-страницу книги

Храмов Д. А. Сбор данных в Интернете на языке R. М.: ДМК Пресс, 2017. 280 с. (ISBN 978-5-97060-459-5)

Сбор данных в Интернете на языке R

Здесь вы найдёте:

О книге

Аннотация

Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Часть из них находится в специальных хранилищах, готовые к использованию. Но гораздо чаще случается так, что данные разбросаны по всемирной сети на многочисленных страницах онлайновых магазинов, заметках в социальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга.

Основной материал книги разделён на две части.

В первой части дано краткое введение в R – описание среды разработки, языка и основных пакетов-расширений.

Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из социальных сетей. Также рассмотрены необходимые технические вопросы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных.

Оглавление

Контакты

Ваши вопросы и конструктивную критику по содержанию книги присылайте по электронному адресу: dkhramov<собака>mail.ru.

Код примеров

Файлы примеров можно скачать на GitHub.

Примеры доступа к источникам данных

Источник данных Глава с примером
Open Baltimor (портал открытых данных г. Балтимор, США) 9
Всемирный банк 10
Портал открытых данных РФ 11
Google Maps Geocoding 11, 21
UCI Machine Learning Repository 12
Gapminder Data 12
Google Spreadsheets 12
UNdata (данные ООН) 12
ACLED (Armed Conflict Location and Event Data Project) 14
Википедия 14
London Stock Exchange (Лондонская фондовая биржа) 14
Google Web Search 15
Facebook 17
ВКонтакте 18
Twitter 19

Новости

01.11.16. По адресу находится репозиторий дополнительных материалов и примеров к книге.

Дополнительные материалы

  • Примеры по R – сборник "кулинарных рецептов" по работе в пакете R.
  • Программирование на R – общие вопросы программирования на R, создания веб-приложений в Shiny и электронных документов в RMarkdown.
  • Изменения в главе 15. Обновился дизайн сайта, а вместе с ним изменился и пример, в котором скачивается файл по динамически генерируемой ссылке (с.180). Покажем, как собирать данные с новой версии сайта.
  • Является ли веб-страница динамической? – сравниваем структуру HTML-документа, полученного по HTTP-запросу и того же документа сохранённого в браузере, чтобы определить, содержит ли данная веб-страница динамически генерируемые элементы.
  • Время на обработку элемента веб-страницы. При работе с RSelenium нередко случается так, что скрипт скрапера пытается обратится к элементу страницы, который ещё не сгенерирован. Необходимо выждать паузу, дать JavaScript завершить формирование элемента и лишь затем извлекать его. Расскажем о том, как этого добиться.
  • RSelenium: обновление запуска Selenium-сервера

Ссылки



Комментарии

comments powered by Disqus