Вы попали на интернет-страницу книги

Здесь вы найдёте:
О книге
Аннотация
Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Часть из них находится в специальных хранилищах, готовые к использованию. Но гораздо чаще случается так, что данные разбросаны по всемирной сети на многочисленных страницах онлайновых магазинов, заметках в социальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга.
Основной материал книги разделён на две части.
В первой части дано краткое введение в R – описание среды разработки, языка и основных пакетов-расширений.
Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из социальных сетей. Также рассмотрены необходимые технические вопросы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных.
Оглавление
Контакты
Ваши вопросы и конструктивную критику по содержанию книги присылайте по электронному адресу: dkhramov<собака>mail.ru.
Код примеров
Файлы примеров можно скачать на GitHub.
Примеры доступа к источникам данных
Источник данных | Глава с примером |
---|---|
Open Baltimor (портал открытых данных г. Балтимор, США) | 9 |
Всемирный банк | 10 |
Портал открытых данных РФ | 11 |
Google Maps Geocoding | 11, 21 |
UCI Machine Learning Repository | 12 |
Gapminder Data | 12 |
Google Spreadsheets | 12 |
UNdata (данные ООН) | 12 |
ACLED (Armed Conflict Location and Event Data Project) | 14 |
Википедия | 14 |
London Stock Exchange (Лондонская фондовая биржа) | 14 |
Google Web Search | 15 |
17 | |
ВКонтакте | 18 |
19 |
Новости
- 01.11.16. gathering_data_addendum – репозиторий дополнительных материалов и примеров к книге "Сбор данных в Интернете на языке R".
- 28.07.17. mendeley – код примеров к статье "Автоматизация сбора данных из веб-сервиса Mendeley".
Дополнительные материалы
- Примеры по R – сборник "кулинарных рецептов" по работе в пакете R.
- Программирование на R – общие вопросы программирования на R, создания веб-приложений в Shiny и электронных документов в RMarkdown.
- Изменения в главе 15. Обновился дизайн сайта, а вместе с ним изменился и пример, в котором скачивается файл по динамически генерируемой ссылке (с.180). Покажем, как собирать данные с новой версии сайта.
- Является ли веб-страница динамической? – сравниваем структуру HTML-документа, полученного по HTTP-запросу и того же документа сохранённого в браузере, чтобы определить, содержит ли данная веб-страница динамически генерируемые элементы.
- Время на обработку элемента веб-страницы. При работе с RSelenium нередко случается так, что скрипт скрапера пытается обратится к элементу страницы, который ещё не сгенерирован. Необходимо выждать паузу, дать JavaScript завершить формирование элемента и лишь затем извлекать его. Расскажем о том, как этого добиться.
- RSelenium: обновление запуска Selenium-сервера
- Автоматизация сбора данных из веб-сервиса Mendeley
- Доступ к API Яндекс.Переводчик из R
Ссылки
- Mashape - Free API Management Platform & Marketplace — крупнейший каталог API. Поиск API по категориям.
- ProgrammableWeb — еще один представительный каталог API.
Комментарии
comments powered by Disqus