Ответы пользователя по тегу Big data
  • Есть готовые решения для DataMine групп VK?

    @lPolar
    data scientist
    Пишите - polarpersonal@gmail.com
    Ответ написан
    Комментировать
  • Какая БД лучше всего делает аггрегации?

    @lPolar
    data scientist
    Как вариант, можно использовать Impala, Hive on Tez с Hadoop кластером. Масштабируемость будет 100%, та же CDH или HDP достаточно легко разворачивается.
    Если у Вас много денег и CPU не проблема, можно использоваться Spark SQL поверх того же Hive.
    Ответ написан
    Комментировать
  • Хочу занятся проектом (стартапом) с использованием Big Data - с чего начать?

    @lPolar
    data scientist
    Для начала надо понять нужна ли Вам Big Data habrahabr.ru/post/194434
    Если у вас не совсем Big Data, то можно взять вот такие инструменты:
    1. Pandas - обработка данных, I/O
    2. Sklearn - построение моделей
    3. В плане БД для хранения возможны варианты:
    3.1 SQL-базы - SQLite, постгрес
    3.2 NoSQL - Mongo и т.д.
    4. Если предполагается, что часть данных будет использоваться более активно, т.е. вам нужно горячее кеширование - возьмите Redis или его аналоги
    Если у Вас действительно Big Data, то на мой взгляд вам хватит следующих инструментов:
    Apache Kafka - онлайн процессинг данных
    Apache Sqoop - для того чтобы тягать данные из реляционных баз
    Apache Hive - чтобы все это хранить в удобоваримом виде
    Apache Spark - чтобы строить предиктивные модели и всякие неклассические группировки
    С визуализацией дела обстоят сложнее. Для начала нужно понять какая визуализация нужна - статическая или динамическая + язык, на котором лично Вам будет удобнее писать визуализацию.
    Если визуализируем в статике (в .jpg файлы, например), то вот так:
    R - lattice,ggplot2
    Python - matplotlib,seaborn
    Если хотим суперклассные дешборды в реалтайме, то вот так:
    R - Shiny
    Python - bokeh
    P.S. Вы бы для начала написали какие источники данных у Вас, будет проще понять что копать и какими инструментами.
    Ответ написан
    Комментировать
  • В чем преимущество Python перед Java для анализа больших данных / машинного обучения?

    @lPolar
    data scientist
    ИМХО, Python.
    Причина - предельная простота языка + набор готовых библиотек.
    Парсите сайты параллельно через grab, который оперирует C-библиотеками (lxml) в удобной питоновой обертке.
    Далее, если у вас данных <10 GB после парсинга - берите машинку с большим объемом оперативки, и используйте pandas +sklearn+hdf5 storage для хранения.
    Если данных >10 GB - берите распределенный кластер и pyspark + hive для хранения и моделей
    Java вам при решении data science задач не поможет - все равно python оперирует библиотеками с C-модулями и функциями (pandas/sklearn) или pyspark, это та же производительность Java, но в удобной обертке.
    Ответ написан
    Комментировать