Ответы пользователя по тегу R
  • Как правильно называется вакансия?

    @protven
    Он на взлете (опять) зарубежом, используется как правило аналитиками (data scientist). Взлет связан в основном с хайпом вокруг анализа данных, машинного обучения и бигдаты. R очень хорош для быстрого прототипирования на небольшом наборе данных или уже для "окончательного" анализа и визуализации, опять же на небольшом или среднем наборе данных, которые прошли предварительную обработку и очистку. Много библиотек связанных с матстатистикой, машинным обучением, анализом данных, визуализацией. Оракл обещал вставить возможность писать хранимки на R в свою базу данных, но я не следил сделали ли.
    Я проходил в свое время курсы на Coursera по анализу данных, мне R как сам язык понравился средне. Сейчас идет конкуренция между R и питоном с библиотеками типа numpy, pandas, sklearn и тд за звание лучшего инструмента для анализа данных. Плюс есть вендорские инструменты, типа SPSS, которые предлагают ту же возможность.
    Что касаемо вакансий в вашем регионе, то они есть, но их мало. Вот пример https://hh.ru/vacancy/20496633?query=%D0%B0%D0%BD%...
    Я бы не стал расчитывать что в России вообще, а тем более за пределами Москвы вы сможете легко найти работу аналитиком данных, не имея реального опыта и успехов в этой области. Но, повторюсь, за рубежом профессия Аналитка Данных сейчас очень популярна и язык R часто считается одним из необходимых инструментов, которым он должен владеть (см. ремарку про питон).
    Ответ написан
    2 комментария
  • Как удалить из Data Frame все дубликаты?

    @protven
    Я не большой знаток R, пока только учу. Поэтому сходу могу предложить воспользоваться только пакетом sqldf, который позволяет работать с data.frame как с реляционной БД.
    A <-data.frame(c('A','A','B','C','C','A','C','B','A'),c(1:9))
    names(A) <-c('name','number')
    install.packages('sqldf')
    library(sqldf)
    > A
      name number
    1    A      1
    2    A      2
    3    B      3
    4    C      4
    5    C      5
    6    A      6
    7    C      7
    8    B      8
    9    A      9
    > sqldf("SELECT a1.name,a1.number from A a1 where a1.number=(SELECT min(a2.number) from A a2 where a2.name=a1.name)")
      name number
    1    A      1
    2    B      3
    3    C      4
    >


    С удовльствием увидел бы вариант получше и поэлегантнее.
    Ответ написан
    Комментировать
  • R неправильно считает, почему?

    @protven
    d <- read.csv("fish.csv", header=TRUE)
    PS Сильно рекомендуется выучить команду help.
    Ответ написан
    7 комментариев
  • Как быстро портировать .csv в Oracle?

    @protven
    Пользуйтесь инструментами, которые вам предоставляет сам Oracle. В данном случае оптимально воспользоваться утилитой SQL*Loader.
    По моему опыту, если не будет никаких блокировок на таблицу и БД работает на относительно быстром сервере,100к строк должно вставиться за 2-4 минуты.
    Ответ написан
    2 комментария