Язык R для пользователей Excel (бесплатный видео курс) / Хабр
В связи с карантином многие сейчас львиную долю времени проводят дома, и это время можно, и даже нужно провести с пользой.
В начале карантина я решил довести до ума некоторые проекты начатые несколько месяцев назад. Одним из таких проектов был видео курс «Язык R для пользователей Excel». Этим курсом я хотел снизить порог вхождения в R, и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.
Если всю работу с данными в компании, в котороый вы работаете принято по-прежнему вести в Excel, то предлагаю вам познакомится с более современным, и при этом совершенно бесплатным инструментом анализа данных.
Если вы интересуетесь анализом данных возможно вам будут интересны мои telegram и youtube каналы. Большая часть контента которых посвящены языку R.
- Ссылки
- О курсе
- Для кого этот курс
- Программа курса
4.
4.2. Урок 2: Основные структуры данных в R
4.3. Урок 3: Чтение данных из TSV, CSV, Excel файлов и Google Таблиц
4.4. Урок 4: Фильтрация строк, выбор и переименование столбцов, пайпланы в R
4.5. Урок 5: Добавление вычисляемых столбцов в таблицу на языке R
4.6. Урок 6: Группировка и агрегация данных на языке R
4.7. Урок 7: Вертикальное и горизонтальное объединение таблиц на языке R
4.8. Урок 8: Оконные функции в R
4.9. Урок 9: Вращение таблиц или аналог сводных таблиц в R
4.10. Урок 10: Загрузка JSON файлов в R и преобразование списков в таблицы
4.11. Урок 11: Быстрое построение графиков с помощью функции qplot()
4.12. Урок 12: Построение графиков слой за слоем с помощью пакета ggplot2
4.13. Урок 13: Изменение элементов графика и применение тем в ggplot2 - Заключение
Курс построен вокруг архитектуры tidyverse
, и входящих в неё пакетов: readr
, vroom
, dplyr
, tidyr
, ggplot2
. Конечно в R есть и другие хорошие пакеты выполняющие подобные операции, например data.table
, но синтаксис tidyverse
интуитивно понятен, его легко читать даже неподготовленному пользователю, поэтому я думаю, что начинать обучение языку R лучше именно с tidyverse
.
Курс проведёт вас через все операции анализа данных, от загрузки до визуализации готового результата.
Почему именно язык R, а не Python? Потому, что R функциональный язык, пользователям Excel на него перейти легче, т.к. не надо вникать в традиционное объектно-ориентированное программирование.
На данный момент запланировано 13 видео уроков длительностью от 5 до 20 минут каждый.
Уроки будут открываться постепенно. Каждый понедельник я буду открывать доступ к новому уроку у себя на YouTube канале в отдельном плей листе.
Думаю это понятно из названия, тем не менее опишу более подробно.
Курс ориентирован на тех, кто в работе активно использует Microsoft Excel и там же реализует всю работу с данными. В общем, если вы открываете приложение Microsoft Excel хотя бы раз в неделю то курс вам подойдёт.
Навыков программирования для прохождения курса от вас не требуется, т.к. курс ориентирован на начинающих.
Но, возможно начиная с 4 урока найдётся материал интересный и для активных пользователей R, т.к. основной функционал таких пакетов как dplyr
и tidyr
будет рассмотрен достаточно подробно.
Урок 1: Установка языка R и среды разработки RStudio
Дата публикации: 23 марта 2020Ссылки:
Видео:
Описание:
Вступительный урок в ходе которого мы скачаем и установим необходимое программное обеспечение, и немного разберём возможности и интерфейс среды разработки RStudio.
Тест
Ссылка на тест для проверки знаний.
Урок 2: Основные структуры данных в R
Дата публикации: 30 марта 2020
Ссылки:
Видео:
Описание:
Этот урок поможет вам разобраться с тем, какие структуры данных есть в языке R. Мы подробно разберём векторы, дата фреймы и списки. Научимся их создавать и обращаться к их отдельным элементам.
Тест
Ссылка на тест для проверки знаний.
Урок 3: Чтение данных из TSV, CSV, Excel файлов и Google Таблиц
Дата публикации: 6 апреля 2020
Ссылки:
Видео:
youtube.com/embed/vVFFtgcBp-w?rel=0&showinfo=1&hl=en-US» allowfullscreen=»» scrolling=»no» allow=»encrypted-media; accelerometer; gyroscope; picture-in-picture»/>
Описание:
Работа с данными, не зависимо от инструмента, начинается с их добычи. В ходе урока используются пакеты vroom
, readxl
, googlesheets4
для загрузки данных в среду R из csv, tsv, Excel файлов и Google Таблиц.
Тест
Ссылка на тест для проверки знаний.
Урок 4: Фильтрация строк, выбор и переименование столбцов, пайпланы в R
Дата публикации: 13 апреля 2020
Ссылки:
Видео:
Описание:
Этот урок посвящён пакету dplyr
. В нём мы разберёмся как фильтровать датафреймы, выбирать нужные столбцы и переименовывать их.
Также узнаем что такое пайпланы и как они помогают делать ваш код на языке R более читабельным.
Тест
Ссылка на тест для проверки знаний.
Урок 5: Добавление вычисляемых столбцов в таблицу на языке R
Дата публикации: 20 апреля 2020
Ссылки:
Видео:
Описание:
В этом видео мы продолжаем знакомство с библиотекой tidyverse
и пакетом dplyr
.
Разберём семейство функций mutate()
, и научимся с их помощью добавлять в таблицу новые вычисляемые столбцы.
Тест
Ссылка на тест для проверки знаний.
Урок 6: Группировка и агрегация данных на языке R
Дата публикации: 27 апреля 2020
Ссылки:
Видео:
Описание:
Данный урок посвящён одной из основных операций анализа данных, группировке и агрегации. В ходе урока мы будем использовать пакет dplyr
и функции group_by()
и summarise()
.
Мы рассмотрим всё семейство функций summarise()
, т.е. summarise()
, summarise_if()
и summarise_at()
.
Тест
Ссылка на тест для проверки знаний.
Урок 7: Вертикальное и горизонтальное объединение таблиц на языке R
Дата публикации: 4 мая 2020
Ссылки:
Видео:
youtube.com/embed/oCU30z-_qUQ?rel=0&showinfo=1&hl=en-US» allowfullscreen=»» scrolling=»no» allow=»encrypted-media; accelerometer; gyroscope; picture-in-picture»/>
Описание:
Этот урок поможет вам разобраться с операциями вертикального и горизонтального объединения таблиц.
Вертикальное объединение является аналогом операции UNION в языке запросов SQL.
Горизонтальное объединение пользователям Excel более известно благодаря функции ВПР, в SQL такие операции осуществляются оператором JOIN.
В ходе урока мы решим практическую задачу, в ходе которой будем использовать пакеты dplyr
, readxl
, tidyr
и stringr
.
Основные функции которые мы рассмотрим:
bind_rows()
— вертикальное объединение таблицleft_join()
— горизонтальное объединение таблицsemi_join()
— включающее объединение таблицanti_join()
— исключающее объединение таблиц
Тест
Ссылка на тест для проверки знаний.
Урок 8: Оконные функции в R
Дата публикации: 11 мая 2020
Ссылки:
Видео:
Описание:
Оконные функции по смыслу похожи на агрегирующие, они также принимают на вход массив значений и проводят над ними арифметические операции, но в исходящем результате не изменяют количество строк.
В этом уроке мы продолжаем изучать пакет dplyr
, и функции group_by()
, mutate()
, а также новые cumsum()
, lag()
, lead()
и
.
Тест
Ссылка на тест для проверки знаний.
Урок 9: Вращение таблиц или аналог сводных таблиц в R
Дата публикации: 18 мая 2020
Ссылки:
Видео:
youtube.com/embed/C72nlpBo9Cc?rel=0&showinfo=1&hl=en-US» allowfullscreen=»» scrolling=»no» allow=»encrypted-media; accelerometer; gyroscope; picture-in-picture»/>
Описание:
Большинство пользователей Excel используют сводные таблицы, это удобный инструмент с помощью которого вы можете в считанные секунды превратить массив сырых данных в читабельные отчёты.
В этом уроке мы разберёмся с тем как вращать таблицы в R, и преобразовывать их из широко формата в длинный и наоборот.
Большая часть урока посвящена пакету tidyr
и функциям pivot_longer()
и pivot_wider()
.
Тест
Ссылка на тест для проверки знаний.
Урок 10: Загрузка JSON файлов в R и преобразование списков в таблицы
Дата публикации: 25 мая 2020
Ссылки:
Видео:
Описание:
JSON и XML являются чрезвычайно популярными форматами хранения и обмена информацией, как правило, за счёт своей компактности.
Но анализировать данные представленные в таких форматах сложно, поэтому их перед анализом необходимо привести к табличному виду, именно этому мы и научимся в данном видео.
Урок посвящён пакету tidyr
, входящему в ядро библиотеки tidyverse
, и функциям unnest_longer()
, unnest_wider()
и hoist()
.
Тест
Ссылка на тест для проверки знаний.
Урок 11: Быстрое построение графиков с помощью функции qplot()
Дата публикации: 1 июня 2020
Ссылки:
Видео:
Описание:
Пакет ggplot2
является одним из наиболее популярных средств визуализации данных не только в R.
В этом уроке мы научимся построению простейших графиков с помощью функции qplot()
, и разберём все её аргументы.
Тест
Ссылка на тест для проверки знаний.
Урок 12: Построение графиков слой за слоем с помощью пакета ggplot2
Дата публикации: 8 июня 2020
Ссылки:
Видео:
Описание:
В уроке продемонстрирована вся мощь пакета ggplot2
и заложенной в него грамматики построения графиков слоями.
Мы разберём основные геометрии которые присутствуют в пакете и научимся накладывать слои для построения графика.
Тест
Ссылка на тест для проверки знаний.
Урок 13: Изменение элементов графика и применение тем в ggplot2
Дата публикации: 15 июня 2020
Ссылки:
Описание:
Заключительный урок курса посвящён приведению готовых графиков к корпоративному стилю, мы научимся применять готовые темы из пакетов ggthemes
и ggthemr
, и разберёмся со слоем theme()
.
Видео:
Тест
Ссылка на тест для проверки знаний.
Я старался подойти к формированию программы курса максимально лаконично, выделить только самую необходимую информацию которая понадобится вам для того, что бы сделать первые шаги в изучении такого мощного инструмента анализа данных как язык R.
Курс не является исчерпывающим руководством по анализу данных с помощью языка R, но поможет вам разобраться со всеми необходимыми для этого приёмами.
Пока программа курса рассчитана на 12 недель, каждую неделю, по понедельникам я буду открывать доступ к новым урокам, поэтому рекомендую подписаться на YouTube канал, что бы не пропустить публикацию нового урока.
Попробуй R / Хабр
С утра я обнаружил у себя в почте приятный предновогодний сюрприз: Code School совместно с O’Reilly выпустили бесплатный курс по языку R.
Курс выполнен в традициях Code School, т.е. его запросто можно пройти в браузере за пару-другую перерывов на кофе. Для этого даже не потребуется регистрация.
Курс поделен на восемь уровней, каждый из которых займет не более 10-15 минут:
- Синтаксис R — Легкое введение в выражения, переменные и функции языка R.
- Векторы — Группировка значений в векторы и последующее работа с ними.
- Матрицы — Создание и отображение двумерных наборов данных.
- Суммарная статистика — Просчет и построение базовых графиков: абсолютного, среднего и квадратичного отклонений.
- Факторы — Создание и построение графиков с категоризированными данными.
- Фреймы данных — Организация значений во фреймы, загрузка фреймов из файлов и их объединение.
- Работа с реальными данными — Проверка на корреляцию между наборами данных, линейные модели.
- Установка дополнительных пакетов — Расширение R с помощью дополнительных библиотек.
Получился эдакий брифинг по возможностям языка, рассчитаный на человека с любым уровнем понимания темы и имеющиего базовые навыки программирования. Получилось качественно и очень интересно — хотя, признаюсь, я и далек от этой области знаний.
Язык R — не первая тема, которая затрагивается в Code School бесплатно. До этого уже были выпущены
Кроме того, на начало 2013 года Code School запланировали выпуск бесплатного курса Try Objective-C, который сейчас разрабатывается как побочный продукт их успешной кампании на Kickstarter.
Комментарий от хабраюзера barmaley_exe:
А ещё по R’у есть серия видео, которыеThese were created as a supplement for the online course Stats 1 on Coursera (taught by Andrew Conway). They are an hour of content in total.и курс на Coursera Computing for Data Analysis, вскоре стартующий.
Руководство по изучению языка R и его использование в Data Science
Подборка ресурсов для изучения языка программирования R, которая поможет начать изучение «с нуля» и пройти этот путь быстро и эффективно.
Для людей, столкнувшихся лицом к лицу с языком программирования R, существует одна общая проблема — это отсутствие структурированного плана изучения. Они не знают, с чего начать, куда двигаться, какой путь выбрать. А огромное количество информации по этой теме в Сети зачастую лишь сбивает с толку.
После перебирания бесконечных ресурсов и архивов получилось данное всеобъемлющее пособие по языку программирования R, которое поможет начать изучение «с нуля» и пройти этот путь быстро и эффективно.
Прежде, чем отправиться в путь, ответьте для себя на вопрос: почему R? Как он сможет помочь? Посмотрите вот этот 90-секундный ролик от Revolution Analytics, чтобы понять, чем может быть полезен язык программирования R. К слову, Revolution Analytics не так давно была приобретена Microsoft.
Теперь, когда вы решились, самое время настроить машину. Первое, что нужно сделать — это загрузить базовую версию языка программирования R и инструкцию по ее установке с CRAN — Comprehensive R Archive Network (Всеобъемлющая архивная сеть R).
Затем можно поставить различные дополнительные библиотеки. Существует over9000 разных дополнений для языка программирования R – и это может сбить с толку. Посему, мы будем руководствоваться лишь установкой базовых пакетов, для начала. По этой ссылке можно посмотреть библиотеки из CRAN Views. Собственно, там можно выбрать те подтипы библиотек, которые вам интересны.
Как подключать библиотеки, смотрите здесь;
Некоторые важные библиотеки, о которых стоит знать, смотрите тут;
Необходимо установить все три нижеследующих GUI вместе с зависимыми пакетами:
- Rattle – для анализа данных (Ссылка) или
install.packages(“rattle”, dep=c(“Suggests”))
- R Commander — для базовой статистики (Ссылка) или
install.packages(“Rcmdr”)
- Deducer (вместе с JGR) для визуализации данных (Ссылка)
Также нужно установить RStudio. Работать на языке программирования R в ней значительно быстрее и проще, так как RStudio позволяет писать множественные строки кода, подключать и поддерживать библиотеки и вообще более продуктивно обустроить свою рабочую среду.
Задание:
- Установить R и RStudio;
- Установить библиотеки Rcmdr, rattle и Deducer. Установить все предложенные или сопутствующие пакеты, включая GUI;
- Загрузить эти библиотеки, используя соответствующие команды, поочередно открыть GUI.
Чтобы начать, необходимо постичь основы языка программирования R, его библиотек и структур данных. Начать изучение лучше всего с Datacamp. Особое внимание обратите на бесплатный курс введения в язык программирования R (вот тут можно почитать). К концу этого курса вы сможете писать небольшие скрипты на R, а также понять принципы анализа данных. В качестве альтернативы можно пройти «Школу программирования на R» вот здесь.
Если вы хотите изучать R офлайн в свободное время, можно использовать интерактивный пакет со Swirlstats.
Особое внимание следует уделить изучению read.table, структур данных, таблиц, сводок, описаний, загрузки и установки библиотек, визуализации данных с использованием команд.
Задание:
- Подписаться на ежедневную рассылку, относительно проекта R здесь;
- Создать аккаунт на Github;
- Учиться разбираться с установкой проблемных библиотек, используя Google для справки;
- Установить swirl-пакеты (см. выше) и изучать программирование на R;
- Черпать знания с Datacamp.
Дополнительные источники:
Если интерактивное программирование — не ваш стиль, можно смотреть двухминутные туториалы по языку программирования R тут. Данный видеокурс частично затрагивает поднятые здесь вопросы. Также можно ознакомиться с этим постом, чтобы получить более ясное представление о функциях языка R.
Вам придется много работать для чистки данных, особенно если доведется обрабатывать текстовую информацию. Самое правильное, что можно сделать для начала – это пройти соответствующие упражнения. О соединении с базами данных можно узнать с помощью библиотеки RODBC, а о написании sql-запросов к структурам данных через sqldf.
Задание:
- Почитайте о разделенном, прикладном и комбинированном подходах к анализу данных в Journal of Statisical Software;
- Попытайтесь изучить подход «аккуратных данных» для проведения анализа;
- Почитайте о работе языка программирования R с реляционными базами данных в статье на decisionstats.com;
- Сделайте несколько упражнений на понимание качества данных;
- Не сидите только на анализе цифр. Разберите с помощью R спортивную аналитику на примере крикета.
Если вам нужно больше практики, на Datacamp можно оформить подписку на все обучающие программы за $25/месяц. Но начать стоит с введения в plyr вот здесь.
Вот здесь и начинается самая веселая часть! Ниже – рекомендации к прочтению и выполнению. Практику начнем с некоторых общих операций.
Дополнительные источники:
- Если вам нужна книга по бизнес-аналитике на языке программирования R, то вот — «R for Business Analytics» от Аджая Ори;
- Если нужна книга для изучения R по-быстрому, то ее можно найти тут.
- Почитайте об Эдварде Тафте и его мыслях о том, как стоит (и не стоит) делать визуализацию данных здесь.
- Также, почитайте о подводных камнях при разработке дашбордов в материале Стивена Фью.
- Освойте грамотное построение графиков и практические способы их построения на R. По ссылке доступен курс по ggplot2 от доктора Хардли Уикхэма, создателя ggplot2 — одной из самых лучших библиотек для R на сегодняшний день.
- Если вы заинтересованы в пространственной визуализации данных, не проходите мимо библиотеки ggmap.
- Если интересуетесь анимацией данных, взгляните на эти примеры. Взять библиотеку для анимации можно здесь.
- С помощью Slidify можно визуализировать данные в виде слайдов на HTML5.
Сейчас мы подошли к наиболее ценным для аналитика навыкам – глубокому анализу и машинному обучению. Исчерпывающий набор информации о глубоком анализе с помощью R можно найти на RDM. А также свободно распространяемую и простую для понимания книгу по этой теме за авторством Грэхэма Уильямса можно найти здесь.
Обзор таких алгоритмов, как регрессия, дерева решений, ансамбли моделирования и кластеризация, а также опции для машинного обучения, доступные в R, можно найти по этой ссылке.
Дополнительные источники:
- «Data Mining with Rattle and R» — хорошая книга по глубокому анализу данных.
- Почитать о прогнозировании временных рядов на языке программирования R можно тут.
- Кое-что по машинному обучению в R есть здесь, а также здесь можно записаться на бесплатные курсы.
Поздравления! Вы добились своего. Теперь у вас есть все, что нужно, осталось оттачивать технические навыки.
- Итак, теперь необходимо практиковаться, и для этого как нельзя лучше подойдут соревнования с коллегами-аналитиками на Kaggle. Начать этот практический курс можно отсюда.
- Оставаться на связи с коллегами по R-цеху можно подписавшись на R-bloggers.
- Для большего социального взаимодействия можно использовать в Твиттере хештег # rstats.
- Если на чем-то застряли, этот сайт поможет быстро разобраться и даст нужное количество информации.
Теперь, когда вы знаете об анализе данных с помощью R все, что нужно, настало время получить некоторые дополнительные задания. Есть вероятность, что кое-что из этого вы уже видели, но, все же, ознакомьтесь с этими материалами тоже.
- Занятие на тему совместного использования R и MongoDB есть тут.
- Еще один хороший материал по анализу Больших Данных с помощью R в NoSQL-эру.
- К слову, используя Shiny из RStudio, можно сделать интерактивное веб-приложение.
- Гайд для интересующихся в изучении синтаксиса R и Python здесь.
P.S. В случае, если вам приходится много работать с большими данными, взгляните на библиотеку RevoScaleR от Revolution Analytics. Это коммерческая библиотека, но она бесплатна для академического пользования. Пример проекта приведен здесь
Первоисточник
Перевел Сергей Ворничес
Бесплатный видеокурс «Язык R для пользователей Excel»
Статья подготовлена читателем Библиотеки программиста. Не стесняйтесь присылать материалы для публикации по кнопке +
в верхней панели – тексты проходят редактуру, мы поможем сделать статью понятной для широкой аудитории.
***
В связи с карантином многие разработчики львиную долю времени проводят дома. Я решил потратить освободившееся время на проекты, начатые несколько месяцев назад, в том числе видеокурс «Язык R для пользователей Excel». Этим курсом я хотел снизить порог вхождения в R и немного восполнить существующий дефицит обучающих материалов по данной теме на русском языке.
Обучение построено вокруг архитектуры tidyverse
и входящих в неё пакетов: readr
, vroom
, dplyr
, tidyr
и ggplot2
. Конечно, в R есть и другие хорошие пакеты, выполняющие те же функции, но синтаксис tidyverse
интуитивно понятен – его легко читать даже неподготовленному пользователю. Курс проведёт вас от загрузки данных в среду R до визуализации готового результата.
Почему именно R, а не Python? R – функциональный язык, поэтому пользователям Excel обычно на него перейти легче. На данный момент запланировано 12 видеоуроков длительностью от 5 до 20 минут каждый. Уроки будут открываться постепенно. Каждый понедельник я буду открывать доступ к новому уроку у себя на YouTube-канале в отдельном плейлисте.
Курс ориентирован на тех, кто активно использует Microsoft Excel и там же реализует всю работу с данными. Навыков программирования для прохождения курса не требуется, курс ориентирован на начинающих. Начиная с четвёртого урока может материал может быть интересен и для активных пользователей R – подробно рассматриваются пакетов dplyr
и tidyr
.
Ниже я приведу программу курса с подробным описанием каждого урока.
Урок 1: Установка языка R и среды разработки RStudio: На вступительном уроке мы скачаем и установим необходимое программное обеспечение, обсудим возможности и интерфейс среды разработки RStudio.
Урок 2. Основные структуры данных в R. В этом уроке подробно разберём векторы, датафреймы и списки. Научимся их создавать и обращаться к их элементам.
Урок 3. Чтение данных из TSV, CSV, Excel файлов и Google Таблиц. В ходе урока я буду использовать пакеты vroom
, readxl
, googlesheets4
для загрузки данных в среду R из csv, tsv, Excel файлов и Google-таблиц.
Урок 4. Фильтрация строк, выбор и переименование столбцов, пайпланы в R. Этот урок посвящён пакету dplyr
. Разберёмся, как фильтровать датафреймы, выбирать нужные столбцы и переименовывать их. Узнаем, что такое пайпланы и как они помогают делать код на R более читаемым.
Урок 5. Добавление вычисляемых столбцов в таблицу на языке R (20 апреля 2020). Этот и следующий уроки будут постепенно открываться каждый понедельник. В этом видео мы продолжим знакомство с библиотекой tidyverse
и пакетом dplyr
. Разберём семейство функций mutate()
и научимся добавлять в таблицу новые вычисляемые столбцы.
Урок 6. Группировка и агрегация данных на языке R (27 апреля 2020). Урок посвящён одной из основных операций анализа данных – группировке и агрегации. В ходе урока будем использовать пакет dplyr
и функции group_by()
и summarise()
. Рассмотрим семейство функций summarise()
: summarise()
, summarise_if()
и summarise_at()
.
Урок 7. Вертикальное и горизонтальное объединение таблиц на языке R (4 мая 2020). Урок поможет разобраться с операциями вертикального и горизонтального объединения таблиц. Вертикальное объединение является аналогом операции UNION
в языке запросов SQL. Горизонтальное объединение пользователям Excel более известно благодаря функции ВПР, в SQL такие операции осуществляются оператором JOIN
. Во время урока мы решим практическую задачу, применив пакеты dplyr
, readxl
, tidyr
и stringr
. Основные функции объединения таблиц, которые мы рассмотрим:
bind_rows()
– вертикальное объединение,left_join()
– горизонтальное объединение,semi_join()
– включающее объединение,anti_join()
– исключающее объединение.
Урок 8. Оконные функции в R (11 мая 2020). Оконные функции по смыслу похожи на агрегирующие, они также принимают на вход массив значений и проводят над ними арифметические операции, но в исходящем результате не изменяют количество строк. В этом уроке мы продолжим изучать пакет dplyr
и функции group_by(),
mutate()
, а также новые cumsum()
, lag()
, lead()
и arrange()
.
Урок 9. Вращение таблиц или аналог сводных таблиц в R (18 мая 2020). Большинство пользователей Excel используют сводные таблицы. Это удобный инструмент, с помощью которого вы можете в считаные секунды превратить массив сырых данных в читабельные отчёты. Мы разберёмся с тем, как вращать таблицы в R, и преобразовывать их из «широкого» формата в «длинный» и наоборот. Большая часть урока посвящена пакету tidyr
и функциям pivot_longer()
и pivot_wider()
.
Урок 10: Загрузка JSON-файлов в R и преобразование списков в таблицы (25 мая 2020). JSON и XML за счёт своей компактности являются чрезвычайно популярными форматами хранения и обмена информацией. Но анализировать данные, представленные в таких форматах, сложно. Поэтому перед анализом их необходимо привести к табличному виду. Именно этому мы и научимся в данном видео. Урок посвящён пакету tidyr
, входящему в ядро библиотеки tidyverse
, и функциям unnest_longer()
, unnest_wider()
и hoist()
.
Урок 11: Быстрое построение графиков с помощью функции qplot() (1 июня 2020). Пакет ggplot2
является одним из наиболее популярных средств визуализации данных не только в R. В этом уроке мы научимся построению простейших графиков с помощью функции qplot()
и разберём все её аргументы.
Урок 12: Построение графиков слой за слоем с помощью пакета ggplot2 (8 июня 2020). В уроке продемонстрирована вся мощь пакета ggplot2
и заложенной в него грамматики построения графиков. Мы разберём основные геометрии которые присутствуют в пакете и научимся накладывать слои для построения графика.
Курс не является исчерпывающим руководством по анализу данных с помощью языка R, но поможет разобраться с необходимыми для этого приёмами. Я старался подойти к формированию программы курса максимально лаконично, выделив самую необходимую информацию, которая понадобится для того, чтобы сделать первые шаги в изучении такого мощного инструмента анализа данных, как язык R.
Пока программа курса рассчитана на 12 недель. Каждую неделю, по понедельникам я буду открывать доступ к новым урокам. Соответствующие ресурсы вы найдёте по следующим ссылкам:
более 70 бесплатных русскоязычных онлайн-курсов по IT-специальностям
Пандемия COVID-19 закрывает границы государств, но открывает людей и компании друг другу. Библиотека программиста поддерживает коллег по онлайн-образованию, открывших доступ к своему контенту. Мы также не забываем о ресурсах, которые предоставляли свои материалы бесплатно и раньше. В этом посте мы сгруппировали по категориям доступные сейчас русскоязычные IT-курсы, чтобы наши читатели могли с толком потратить время на карантине.
Категории мы дополнили нашими ключевыми статьями, а в конце списка указали теги сайта, чтобы во время прохождения курсов вы могли посмотреть реальные примеры использования изучаемых технологий.
На всех перечисленных платформах имеются платные курсы, однако акценты расставлены различным образом. Обычно бесплатны лишь наиболее общие разделы в больших специализациях. Такие курсы служат рекламой и показателем качества ресурса для того, чтобы заинтересовать пользователей подписаться на платные курсы или оформить подписку. Но бывают и другие подходы. Например, стратегия монетизации Stepik.org построена на том, чтобы предоставить платформу другим компаниям для создания собственных платных специализаций.
Множество качественных русскоязычных курсов доступны на популярной МООК-платформе Coursera, но их подробное рассмотрение требует отдельной публикации. Напишите в комментариях, если вам это интересно.
В эту подборку мы включили бесплатные образовательные материалы, имеющие большое количество подписчиков и высокие оценки на их платформах (указаны в скобках при наличии информации). Чтобы у читателей был выбор между различными источниками информации, по возможности для одной темы мы старались найти несколько ресурсов.
Stepik
Stepik.org – это образовательная платформа и конструктор онлайн-курсов. Основные темы: программирование, информатика, математика, статистика и анализ данных, биология и биоинформатика, инженерно-технические и естественные науки. Можно учиться не только на сайте, но и в мобильных приложениях для iOS и Android.
Хекслет
Три составляющие курсов Хекслет: лекция с упором на практическую задачу, тест на проверку понимания и практика, доступная через браузер. Полный список курсов.
GeekBrains
В этой подборке мы указали те курсы GeekBrains, что постоянно находятся в свободном доступе. Недавно мы писали про то, что компания на время карантина также открыла ряд других курсов. Чтобы на них записаться, нужно зарегистрироваться на сайте, а потом заполнить анкету.
Яндекс.Практикум
Яндекс.Практикум предоставляет бесплатный доступ к первым курсам пяти специализаций. После прохождения вы можете оценить, насколько вам подходит формат занятий и сама профессия. Что входит в бесплатные курсы – перечислено на странице Яндекс. Помощи. Обычно это 20 часов теории и доступ к онлайн-тренажеру, практические задания или проект.
Для абсолютных новичков
Если вы хотите составить ваш собственный план, советуем прочитать нашу публикацию Детальный план самообразования в Computer Science за 1.5 года. Можно использовать этот план в качестве шаблона.
Открытое образование — R для лингвистов: программирование и анализ данных
- 10 недели
- от 5 до 6 часов в неделю
- 3 зачётных единицы
Данный курс знакомит слушателей с основами программирования на языке R, а также позволяет разобраться во всех этапах анализа данных. В ходе курса на примере задач теоретической и компьютерной лингвистики будут рассмотрены математические основы методов статистического анализа. Курс рассчитан на студентов-лингвистов, однако не предполагает никаких предварительных знаний по лингвистике, программированию и математике.
О курсе
Данный курс знакомит с основами программирования и обработки данных в R. Курс в первую очередь предназначен для теоретических лингвистов, хотя и не предполагает никаких предварительных знаний в какой-то конкретной области. В противовес стандартным курсам R, обычно основанным на статистической обработке данных и их визуализации, значительная часть курса посвящена работе со строками и обработке естественного языка. Курс состоит из 10 недель, которые охватывают все разделы анализа данных: загрузка, чистка, разведочный анализ, визуализация и статистическое моделирование. Большинство недель будет заканчиваться 4 часовым тестом, в ходе которого нужно будет решить несколько задач на программирование или анализ данных. В части курса, посвященной статистическому анализу данных, мы обсудим основы статистического вывода и обсудим базовые статистические тесты. Кроме того мы обсудим методы построения регрессий и кластеризации, что станет хорошей базой для дальнейших курсов посвященных продвинутому статистическому анализу и машинному обучению. Для работы на курсе необходимо будет установить программы R и RStudio. Пакеты необходимые для установки, будут перечислены в ходе лекций.
Формат
Курс состоит из коротких видеолекций от 8 до 15 минут длиной, внутри которых встроены неоцениваемые вопросы. На каждой неделе будет представлен оцениваемый тест содержащий задачи на программирование, анализ и визуализацию данных.
Информационные ресурсы
— Levshina, N. (2015). How to do linguistics with R: Data exploration and statistical analysis. John Benjamins Publishing Company.
— Gries S. Th. (2009) Quantitative Corpus Linguistics with R: A Practical Introduction
— Baayen R. H. (2006) Analyzing Linguistic Data
— Wickham H. (2015) Advanced R
— Everitt B. S., Hothorn T. (2006) A handbook of statistical analyses using R
Требования
В основном обучение ведется с нуля, однако базовые элементы программирования: такие как функция, переменные, циклы, подробно объясняться не будут. Так что знание других языков программирования, например, Python облегчит понимание, но не является обязательным. Примеры все будут приводится на данных для лингвистов, но никакого предварительного лингвистического образования не требуется.
Программа курса
1. Введение в R: основные элементы, функции, циклы
2. Продвинутая обработка данных: пакеты tidyr и dplyr
3. Работа со строками: строки в R, регулярные выражения
4. Визуализация данных: base R vs. ggplot2
5. Интерактивная визуализация: rmarkdown, plotly, lingtypology
6. Работа с текстами: пакет tidytext
7. Введение в статистику: основы фриквентисткой статистики, формулировка гипотез
8. Корреляция и линейная регрессия
9. Кластеризация
10. Логистическая регрессия
Результаты обучения
- Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике
Формируемые компетенции
- ОНК-1 Готовность использовать основные законы научных дисциплин в профессиональной деятельности, применять методы математического анализа и моделирования, теоретического и экспериментального исследования в лингвистике
- ИК-1 Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО
- ПК-4 Умение осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач
- ПК-10 Способность использовать для решения аналитических и исследовательских задач
Знания
- Язык программирования R
- Основы статистики
Умения
Умение осуществлять сбор, анализ и обработку данных, необходимых для решения поставленных экономических задач
Навыки
- Способность самостоятельно работать на компьютере с использованием современного общего и профессионального прикладного ПО
- Способность использовать для решения аналитических и исследовательских задач современные технические средства и информационные технологии
лучших курсов R и сертификатов R в Интернете от программистов R
Работа в области науки о данных и машинного обучения очень востребована в эту эпоху искусственного интеллекта, студенты и профессионалы склонны изучать язык программирования R, когда дело доходит до поиска высокооплачиваемых технологий рабочие места.
Для тех, кто не очень знаком с языком программирования R, вот его обзор.
R — это функциональный язык, который предлагает бесплатную программную среду для статистических вычислений и графики.R предлагает создавать хорошо продуманные графики, пригодные для публикации, включая математические символы и формулы.
Характеристики R
- Обработка и обработка данных.
- Операторы для расчета по массивам.
- Большая и связная коллекция инструментов.
- Графические средства для анализа данных.
Лучшие курсы R
Давайте теперь посмотрим следующие курсы программирования R, чтобы начать вашу карьеру в качестве кодера на R.
1. R Программирование Университета Джона Хопкинса: Coursera
Курс знакомит вас с кодом на R и с тем, как использовать R для эффективного анализа данных. Вы научитесь устанавливать и настраивать программное обеспечение, необходимое для среды статистического программирования, и описывать общие концепции языка программирования, поскольку они реализованы на языке статистики высокого уровня.
Курс также охватывает практические вопросы статистических вычислений, в том числе:
- Программирование на R
- Чтение данных в R
- Доступ к пакетам R
- Написание функций R
- Отладка
- Профилирование R код
- Упорядочивание и комментирование R code
Предварительные требования: Знакомство с Python
Уровень : Средний
Рейтинг: 4.6
Стоимость: Доступна финансовая помощь
Продолжительность : 20 часов
Язык (и): Субтитры: арабский, французский, китайский, португальский, вьетнамский, английский, испанский, японский.
Вы можете зарегистрироваться здесь.
2. Сертификат по основам Data Science R, выданный Гарвардским университетом: edX
Курс предназначен для ознакомления слушателей с основами программирования R. Курс охватывает функции и типы данных R, а затем обращается к работе с векторами и когда использовать расширенные функции, такие как сортировка. Вы научитесь применять общие функции программирования, такие как вероятность, логический вывод, регрессия и машинное обучение.
Наконец, курс развивает наборы навыков, которые включают:
- Обработка данных с dplyr
- Визуализация данных с помощью ggplot2
- Файловая организация UNIX / Linux
- Контроль версий
- Подготовка воспроизводимых документов с помощью R studio
Предварительное условие: Обновленный браузер рекомендуется для включения программирования непосредственно в интерфейсе на основе браузера.
Уровень: Вводный
Рейтинг: 4.6
Стоимость: БЕСПЛАТНО добавлен сертификат за 50 долларов
Продолжительность: 8 недель (1-2 часа в неделю)
Язык (и): Английский
Вы можете зарегистрироваться здесь.
3. R Учебный курс: Lynda
Автор обучает языку статистической обработки на R, включая установку R, чтение данных из SPSS и электронных таблиц, а также использование пакетов для расширенных функций R. В курсе также объясняются примеры создания диаграмм и графиков с использованием других инструментов анализа данных.Он также обучается получать диаграммы и таблицы из R и делиться своими результатами с презентациями и веб-страницами.
К концу курса вы выучите:
- Что такое R?
- Установка R
- Создание символа полосы для категориальных переменных
- Построение гистограмм
- Расчет частот и описания
- Вычисление новых переменных
- Создание диаграмм рассеяния
- Средство сравнения
Предпосылка: Нет
Уровень: Начинающий
Рейтинг: 4.6
Стоимость: Подписка LinkedIn
Продолжительность: 2 часа 25 минут
Язык (и): Английский
Вы можете зарегистрироваться здесь.
4. Программирование R A — Z: R для науки о данных: Udemy
R требует сложного обучения и, следовательно, предлагает пошаговое обучение, что упрощает обучение. Вы получаете новые ценные концепции, которые можно сразу применить на живых примерах. Обучение состоит из реальных аналитических задач, которые предстоит решить учащимся.Курс предназначен для всех уровней подготовки и даже для людей без опыта программирования.
Программа предлагает следующее:
- Научитесь программировать на R на хорошем уровне
- Узнайте, как использовать R Studio
- Изучите основные принципы программирования
- Узнайте, как создавать векторы в R
- Узнайте, как создавать переменные
- Узнайте о целочисленных, двойных, логических, символьных и других типах в R
- Узнайте, как создать цикл while () и цикл for () в R
- Узнайте, как создавать и использовать матрицы в R
- Изучите функцию matrix (), изучите rbind () и cbind ()
- Узнайте, как устанавливать пакеты в R
- Узнайте, как настроить R studio в соответствии со своими предпочтениями
- Понять закон больших чисел
- Общие сведения о нормальном распределении
- Практика работы со статистическими данными в R
- Практика работы с финансовыми данными в рэндов
- Практика работы со спортивными данными в R
Предварительные требования: Нет
Уровень: Все уровни
Рейтинг: 4. 6
Стоимость: 6 долларов США (после скидки)
Продолжительность: 10,5 часов
Язык (и): Английский
Вы можете зарегистрироваться здесь.
5. Интернет-курс и учебное пособие по программированию на языке R: Pluralsight
Платформа составляет список из 14 курсов, которые могут пригодиться для улучшения навыков программирования и разработки на R. Различные курсы сосредоточены на различных аспектах использования этого языка в различных областях различными методами. Эти курсы укрепят ваши основы с помощью основ программирования на R, науки о данных с помощью R, визуализации данных и многого другого.Есть и другие программы, которые ориентированы на R в различных областях, таких как машинное обучение, управление данными и анализ.
К концу выбранного курса кандидат будет иметь уверенность и навыки для реализации полученных знаний в различных проектах.
Характеристики:
- Реализуйте концепции, рассмотренные в уроках, работая с различными функциями и написав код.
- Работайте на нескольких платформах, таких как Microsoft Data Platform, RStudio, и разрабатывайте приложения Spark с использованием Cloudera, Python и Scala.
- Установите, настройте необходимое программное обеспечение и инструменты, необходимые для выполнения уроков.
- К курсу, на который вы записались, можно получить доступ бесплатно в течение первых десяти дней пробного периода.
Предварительные требования: Нет
Уровень: Все уровни
Рейтинг: 4.6
Стоимость: Подписка варьируется от 19 до 239 долларов
Продолжительность: варьируется
Язык (и): Английский
Вы можете зарегистрироваться здесь.
6. Учебный курс по науке о данных и машинному обучению с R: Udemy
Работа в области науки о данных и машинного обучения набирает обороты, поскольку, согласно Glassdoor, это также высокооплачиваемая работа. Хосе Марсиаль Портилья, магистр наук из Университета Санта-Клары, является автором этого курса и учит вас использовать R для анализа данных, машинного обучения и визуализации данных. Кроме того, вы также узнаете о расширенных функциях R, таких как использование фреймов данных R для решения сложных задач и обработки файлов Excel.
К концу программы вы узнаете следующее:
- Программа в R
- Использование R для анализа данных
- Создание визуализаций данных
- Используйте R для обработки файлов CSV, Excel, SQL или веб-скрапинга
- Используйте R для легкого управления данными
- Использование R для алгоритмов машинного обучения
- Используйте R для науки о данных
Предварительные требования: Нет
Уровень: Все уровни
Рейтинг: 4.6
Стоимость: 170 $
Продолжительность: 17,5 часов
Язык (и): Английский
Вы можете зарегистрироваться здесь.
7. Программирование на языке R: расширенная аналитика на языке R для науки о данных: Udemy
Курс предназначен для тех, кто хочет углубиться и изучить R для анализа данных, науки о данных, статистического анализа в бизнесе, GGPlot2 со ссылкой на R and R. Этот курс продвинутого уровня преподает с использованием уникальных наборов данных живыми примерами и упражнениями.Он также предлагает профессиональные видео-тренировки по R, которые доставляют удовольствие, но также улучшают ваши навыки.
Курс научит следующему:
- Как подготовить данные для анализа в R
- Как выполнить метод вменения медианы в рандов
- Как работать с датой и временем в R
- Что такое списки и как ими пользоваться
- Что такое семейство функций Apply
- Как использовать apply (), lapply () и sapply () вместо циклов
- Как вложить свои собственные функции в функции применяемого типа
- Как вложить функции apply (), lapply () и sapply () друг в друга.
Предварительные требования: Базовое программирование на R
Уровень: Продвинутый
Рейтинг: 4.6
Стоимость: Доступна финансовая помощь
Продолжительность: 7 месяцев (4 часа в неделю)
Язык (и): Английский , Корейский
Вы можете зарегистрироваться здесь.
8. Статистика со специализацией R: Coursera
Курс со специализацией «Статистика» в R, созданный Университетом Дьюка, предназначен для людей, которые хотят овладеть статистикой в R или хотят стать специалистами в области анализа данных, включая выводы, моделирование и байесовские подходы.Авторы программы Майне Четинкая-Рундель, доцент; Дэвид Бэнкс, профессор; Колин Рундель, доцент; и Мерлиз А. Клайд, профессор обучает анализу и визуализации данных в R. Кроме того, курс учит вас следующему:
- Создание отчетов анализа воспроизводимых данных. Демонстрация концептуального понимания единой природы статистического вывода.
- Выполнение частотных и байесовских статистических выводов и моделирования для понимания природных явлений и принятия решений на основе данных.
- Правильное, эффективное и контекстное сообщение статистических результатов без использования статистического жаргона. Критикуйте утверждения, основанные на данных, и оценивайте решения, основанные на данных.
- Преобразуйте и визуализируйте данные с помощью пакетов R для анализа данных.
По окончании курса вы создадите портфель проектов по анализу данных из специализации, демонстрирующей мастерство статистического анализа данных, который подходит для подачи заявки на статистический анализ или позиции исследователя данных.
Предварительные требования: Нет
Уровень: Начинающий
Рейтинг: 4,6
Стоимость: $ 6 (после скидки)
Продолжительность: 6 часов
Язык (и): Английский
Вы можете зарегистрироваться здесь.
9. Основы R — Введение в язык программирования R: Udemy
Курс знакомит с программированием на языке R с нуля. Он основан на пошаговом подходе и поэтому отлично подходит для начинающих. Курс начинается с настройки разработки, установки интерфейса R и R studio, добавления пакетов, обучения использованию базы данных R и средств справки R.
Далее курс обучает различным способам импорта данных, а затем кодированию языка, включая базовые функции R.
Ниже перечислены преимущества, которые можно получить:
- Вы узнаете, как ориентироваться в интерфейсе RStudio
- Вы научитесь строить базовые графики
- Вы узнаете о базовой структуре R, включая пакеты
- Вы узнаете, как выполнять основные команды на языке программирования R
- Вы также узнаете, как обрабатывать добавление пакетов, как использовать инструменты справки R и вообще как ориентироваться в мире R.
Предварительные реквизиты:
- Искренний интерес к статистическому программированию
- Компьютер готов к запуску R и RStudio
- Базовое понимание статистики и структуры данных
- НЕ ТРЕБУЕТСЯ предварительных знаний в области программирования
Уровень: Начальный
Рейтинг: 4.5
Стоимость: БЕСПЛАТНО
Продолжительность: 4 часа
Язык (и): Английский
Вы можете зарегистрироваться здесь.
10. Программирование для науки о данных с помощью R: Nanodegree Program от Udacity
Если вы хотите сделать свою карьеру в области науки о данных, это как раз правильный курс для начала. В этом курсе вы изучите фундаментальные инструменты анализа данных, такие как SQL, R и Git, которые позволят вам решать реальные проблемы анализа данных.
В этом курсе вы узнаете:
- основы программирования на языке R, такие как переменные, циклы и функции.
- использование контроля версий, чтобы поделиться своей работой с другими людьми.
- введение в SQL
- программирование в R
- Реальные проекты от экспертов отрасли
Предварительные требования: Нет
Уровень: Начинающий
Рейтинг: 4.6
Стоимость: $ 764
Продолжительность: 3 месяца (10 часов в неделю)
Язык (и): Английский
Вы можете зарегистрироваться здесь.
Давайте теперь посмотрим некоторые лучшие сертификаты R. Эти сертификаты помогут вам проверить свои навыки в языке программирования R и помогут вам в реализации реальных проектов, а при успешном завершении вы получите сертификат.
Лучшие сертификаты R
1. Advanced DataRobot с сертификатом R
Это однодневный обзор экспертных методов для достижения наилучших результатов машинного обучения с помощью мощного API DataRobot.
Сертификация также учит нас создавать собственные визуализации и процессы автопилота для улучшения результатов с помощью сложных статистических методов.
Схема сертификации
- О DataRobot API
- Создание и запуск проектов
- Извлечение информации для визуализации
- Автоматизация трубопроводов
- Продвинутые методы
- Создание собственного автопилота
- Методы выбора признаков
- Оценка отклонения вашего результата
Вы можете зарегистрироваться здесь.
2. Программа науки о данных
Эта степень предоставляется KPMG, мировым лидером в области науки о данных и консультирования по машинному обучению, и разработана отраслевыми экспертами, чтобы помочь вам изучить концепции науки о данных для создания мощных моделей искусственного интеллекта для предоставления бизнес-аналитики или прогнозов.
Он также предоставляет практический опыт решения реальных бизнес-проблем и тематических исследований, чтобы дать вам лучший опыт обучения и научить вас анализировать сложные бизнес-данные и делать прогнозы продаж.
Он охватывает следующее:
- Статистика с R
- Наука о данных с R
- Наука о данных с Python
- Программирование на SQL
- Таблица
Вы можете зарегистрироваться здесь.
Заключение
Это подводит нас к концу лучших курсов R, которые нужно изучить, и лучших сертификатов R в этом году. Я бы порекомендовал вам выбрать из этого списка карьеру в области науки о данных или даже биоинформатики. Большинство курсов имеют высокий рейтинг и не требуют каких-либо предварительных условий, поэтому это должно побудить вас отправиться в это путешествие.Как только вы обретете уверенность и тщательно изучите, вы можете захотеть пройти сертификацию, так как вы можете проверить сертификаты R. Когда вы станете профессионалом R и будете готовы к работе, вы можете подготовиться к собеседованию R, чтобы получить работу своей мечты. Если у вас есть другие курсы с высоким рейтингом, которыми вы можете поделиться, это может помочь сообществу R поделиться с нами в комментариях ниже.
Еще читают:
Учебное пособие поR — Изучите программирование на R
Хотя RStudio — прекрасный инструмент для начала изучения R, это всего лишь интерфейс к консоли R.Важно быть знакомым с запуском программ R непосредственно через командную строку или терминал, поскольку у вас не всегда может быть доступ к графическому интерфейсу, если вы запускаете программы R на сервере.
Если R установлен правильно, вы можете открыть консоль R, набрав «R» на терминале и нажав Return / Enter.
Когда вы запустите R, первое, что вы увидите, это консоль R с приглашением по умолчанию «>». Мы можем начать вводить команды прямо в приглашении и нажать «Return», чтобы выполнить его.
Например, попробуйте ввести следующие команды в командной строке R
> n <- c (2, 3, 5, 10, 14)
> означает (п)
[1] 6,8
Как видите, каждая команда выполняется, как только вы нажимаете клавишу возврата, и если есть какой-либо вывод (среднее значение в приведенном выше примере), он отображается.
Если команда не завершена, когда вы нажмете «Return», подсказка изменится на «+» и будет продолжать принимать ввод до тех пор, пока команда не будет синтаксически завершена.
В качестве альтернативы мы можем выполнять команды R, хранящиеся во внешнем файле, используя функцию source () следующим образом.
> источник ("example.R")
Чтобы выйти из командной строки, мы можем вызвать функцию q () (как в quit).
> q ()
Различные способы запуска сценариев R
Иногда может потребоваться запустить программу R внутри пакета или сценария оболочки. Есть разные способы добиться этого.
Метод 1. Использование команды R CMD BATCH
Сохраните сценарий R в текстовом файле с расширением .R и введите следующую команду.
R CMD BATCH / home / demo / learnR / Rпрограммирование.R
Вывод этой команды будет сохранен в файле с именем Rprogramming.Rout
Метод 2: Использование Rscript
Используйте следующую команду
Rscript /home/demo/learnR/Rprogramming.R
Разница между R CMD
и Rscript
заключается в том, что Rscript
печатает вывод в STDOUT вместо файла.
Если вы хотите превратить вашу программу R в исполняемый файл, вы можете указать, что вы хотите, чтобы файл запускался с использованием Rscript
, добавив следующую строку в начало вашего R-скрипта.
#! / Usr / bin / env Rscript
Например, если ваша программа R выглядит как
#! / usr / bin / env Rscript
п <- с (2, 3, 5, 10, 14)
среднее (п)
Вы можете выполнить его прямо из терминала как ./Rprogramming.R
бесплатных курсов по статистическому программированию | R Язык статистического программирования
Этот список немного отличается от других. Большая часть этого сайта сосредоточена на материалах R, которые вы можете быстро использовать. Приведенные ниже ссылки предназначены для онлайн-курсов, которые помогут вам глубже понять статистическое программирование.Если у вас есть время посвятить регулярному изучению этого материала, вы обязательно будете рады, что вы это сделали.
Если это все кажется слишком сложным, взгляните на бесплатные курсы статистики.
Следует отметить, что это не программы для получения степени. Некоторые из них предоставляют сертификат после успешного завершения, но вы не получите зачет колледжа. Не позволяйте этому вас отговаривать, это отличная инструкция, которую можно бесплатно принять.
Computing for Data Analysis at Coursera - Это начнется в сентябре 2013 года.Я взял его прошлой осенью и очень понравилось. Материал хорошо представлен и прост для понимания, и мне нравится стиль доктора Роджера Пэна. Курсы Coursera великолепны, просты в изучении и содержат качественные материалы из авторитетных школ. Кроме того, после завершения курса у вас будет возможность загрузить сертификат об окончании. Начинается в сентябре 2013 года.
Попробуйте R в Code School - это бесплатный интерактивный курс для самостоятельного изучения, охватывающий вводные концепции программирования на R и простой анализ данных.Это совместная работа Code School и O'Reilly Media. Курс состоит из семи глав, в каждой из которых есть собственная викторина для обеспечения понимания. Если вы новичок в R, это отличное место для начала.
Алгоритмы: анализ социальных сетей на Udacity - это курс для самостоятельного изучения, который ведет доктор Майкл Литтман. Этот курс тоже новый, поэтому без обзора. Udacity имеет репутацию поставщика качественных инструкций, а их курсы разбиты на короткие, легко читаемые видеоролики.Есть короткие викторины и еженедельные задания. Обратите внимание, что вы, вероятно, будете работать с Python в этом курсе, но между программированием на Python и R существует довольно сильная связь, так что это безусловно будет преимуществом.
Введение в науку о данных на Coursera - это еще один курс Coursera, который немного больше, чем ваш стандартный курс R. Он охватывает статистический анализ и визуализацию данных, но также включает в себя реляционную алгебру, SQL, mapReduce, алгоритмы машинного обучения и многое другое.Если вы действительно заинтересованы в анализе данных и науке о данных, то вам нужен этот материал. Курс начался в мае 2013 года, так что на данный момент он почти завершен, но видеолекции и форумы курсов должны оставаться доступными в течение нескольких месяцев.
Компьютерные науки at Khan Academy - это набор обучающих видео, представленных Салманом Кханом, что означает, что вы можете выполнять их в удобном для вас темпе. Это не курс в строгом смысле слова, это сборник видео по научному программированию на Python.Тем не менее, это ценная информация для всех, кто хочет углубить свои знания в области статистического программирования с помощью R. Khan Academy, которая позволяет вам идти в своем собственном темпе, и инструкции весьма хороши.
Статистические вычисления by Университет Карнеги-Меллона - Этот курс для самостоятельного изучения немного отличается тем, что в него не включены обучающие видео.