Введение
RStudio – это свободная среда разработки программного обеспечения на языке программирования R, основное назначение которого состоит в статистической обработке данных, а также в работе с графикой.
Сама среда RStudio создавалась на языке программирования C++, а для организации её пользовательского интерфейса был задействован фреймворк Qt.
RStudio поддерживает подсветку синтаксиса и используется как удобный калькулятор для вычисления сложных математических выражений.
При этом основная сфера применения RStudio – это проведение исследований в области Data Science, связанных с обработкой данных, их анализом и представлением полученной статистики в виде наглядных графиков и диаграмм.
Кроме того, в среде RStudio есть специальные возможности по работе с кодами таких типов файлов, как R-скрипты, документы Sweave и документы TeX.
Язык программирования R
К основным особенностям языка R относится то, что:
- в нем используется необычный синтаксис (например, присваивание обозначается не знаком =, а стрелкой);
R – это язык с динамическими типами данных, то есть одной и той же переменной можно присваивать различные типы значений. Например, здесь x сначала является строкой, потом числом, далее – логической переменной, и затем – снова строкой:
Рисунок 1. Код. Автор24 — интернет-биржа студенческих работв нем предусмотрена проверка на принадлежность переменной к определённому типу данных. Для этого используются следующие функции is.logical(), is.character(), is.integer(), is.double(), is.complex(), где три последних числовых типа можно проверить обобщённо с помощью специального теста is.numeric(). Например:
Рисунок 2. Код. Автор24 — интернет-биржа студенческих работв R используются следующие обозначения в случае отсутствия конкретных значений у переменных:
- NaN (not-a-number) – когда результат вычисления не является ни числом, ни бесконечностью;
- NA – означает отсутствующее, несуществующее значение;
- NULL – пустой объект. Проверить является ли значение NULL можно с помощью функции is.null().
В R имеется огромное количество библиотек. Среди них – библиотеки для загрузки и работы с табличными данными (в форматах csv, txt), собранными из различных источников, в том числе даже с web-страниц, для парсинга которых в R также предусмотрены специальные пакеты:
- Rcurl – пакет для работы с сетью.
- XML – пакет для работы с DOM-деревом XML-документа.
При написании программы на R рекомендуется всегда окружать знаки операторов пробелами. Иначе, может возникнуть непредвиденная ситуация, как в этом примере:
Рисунок 3. Код. Автор24 — интернет-биржа студенческих работ
Графика в RStudio
Рассмотрим, какие есть возможности для создания графики средствами языка программирования R. Поскольку RStudio используется как среда для анализа различных статистических данных, то, естественно, здесь предусмотрены средства для визуализации результатов, делающие их более наглядными.
Простой график можно изобразить с помощью функции plot (x = …, y = …), где данные по осям x и y, к примеру, извлекаются с какого-нибудь сайта, содержащего некую информацию со статистикой.
Построенный график отображается на специальной вкладке "Графики" (“Plots”) в RStudio. По умолчанию на языке R командой plot создаётся точечный график (scatterplot), составленный из кружков для каждой пары координат (х, у). Если требуется, чтобы точки были соединены в линию, то нужно добавить третий аргумент (параметр в виде буквы "l" соответствует сплошной линии): plot (x = …, y = …, type = "l").
Отметим, что в R все функции хорошо задокументированы. Поэтому, чтобы подробно изучить информацию о каждой функции и узнать, какие у неё могут быть аргументы, достаточно набрать вопросительный знак, а следом – имя функции. Например, команда ?plot используется для вызова справки о функции для рисования графиков.