Как лучше хранить данные для последующей обработки?

Question

Kroid @Kroid

Как лучше хранить данные для последующей обработки?

Начал играться с анализом языковых данных и такой вопрос возник - как обычно хранят данные перед обработкой? Есть, к примеру, сотня гигов текстовых файлов, данные в которых разделены табами. И я пока не знаю, что именно мне в них понадобится. Можно их распарсить и залить в постгрес или монгу, а в дальнейшем брать оттуда огромнейшие выборки (использовать курсор?) и что-то с ними делать. Или оставить как есть, а как что понадобится - парсить каким-нибудь хадупом или чем-то вроде того.

В общем - поделитесь кто знает, как рабочий процесс происходит в этой области. Может, есть статьи по теме хорошие?

Вопрос задан более трёх лет назад
2925 просмотров

Комментировать

Подписаться 13 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

1 комментарий

Kroid @Kroid Автор вопроса

Dmitry спасибо за такой подробный ответ.

Задача на самом деле довольно размытая: мне интересно, можно ли с помощью технологий сделать более эффективным изучение английского языка, чем с помощью традиционных методов. Не в смысле интерактивности, вроде "наведи мышкой на слово, появится перевод", а за счет большой базы даных и определенных алгоритмов.

Для начала я пытаюсь составить нормализованный словарь с частотностью, толкованием и примерами употребления, также отсортированных по частотности. Дальше можно попробовать найти минимальный список слов, зная который, можно изучить все остальные без перевода на русский.

При этом я не лингвист и не специалист по анализу данных, так что может чушь несу. Но довольно интересно этим заниматься в свободное время. А за ссылки спасибо.

P. S. Пока писал, вспомнил, как некоторые лингвисты пытались из 8 английских слов объяснить все остальные. Интересно, что стало с тем экспериментом.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Машинное обучение

+3 ещё

Средний
Какие есть стандартные наборы данных для тестирования и сравнения нейронных сетей?
- 1 подписчик
- 19 авг. 2023
- 86 просмотров
2

ответа
PostgreSQL

+3 ещё

Средний
Какую БД выбрать для хранения и обработки большого кол-ва сообщений?
- 1 подписчик
- 24 мая 2023
- 227 просмотров
1

ответ
Big data

Простой
Какой процент распознавания точности артикула штучного товара на витрине по его внешнему виду считается «хорошим» а какой — «отличным»?
- 1 подписчик
- более года назад
- 97 просмотров
1

ответ
Big data

Средний
Как эффективно составить гистограмму слов (big data)?
- 1 подписчик
- более года назад
- 113 просмотров
4

ответа
Data mining

+1 ещё

Средний
Система управления майниг — ЦОДом, такое вообще существует?
- 2 подписчика
- более года назад
- 142 просмотра
2

ответа
Python

+2 ещё

Средний
Как оптимизировать алгоритм SlopeOne в python?
- 1 подписчик
- более года назад
- 109 просмотров
1

ответ
API

+3 ещё

Простой
Каким образом сервисы аналитики типа MPStats получают данные о продажах с Wildberries, Ozon, итд?
- 1 подписчик
- более года назад
- 333 просмотра
1

ответ
Google

+3 ещё

Простой
Как устроен поисковый индекс Google?
- 4 подписчика
- более года назад
- 346 просмотров
2

ответа
Алгоритмы

+2 ещё

Средний
Какой можно применить алгоритм для хранение индекса для 50 миллиардов записей в golang?
- 3 подписчика
- более года назад
- 571 просмотр
6

ответов
Аналитика

+1 ещё

Простой
Какие существуют методы анализа связанности тегов?
- 4 подписчика
- более года назад
- 161 просмотр
1

ответ
Показать ещё Загружается…

Администратор BigData

SM Lab • Москва

До 225 000 ₽

Тестировщик SQL

Bell Integrator • Санкт-Петербург

До 200 000 ₽

Менеджер по контенту / Копирайтер в сфере трейдинга

Finandy

от 90 000 ₽

Скопировать верстку, посадить на функционал

20 апр. 2024, в 12:01

20000 руб./за проект

Разработать сайт-визитку на Wordpress

20 апр. 2024, в 11:52

5000 руб./за проект

Написать программу иммитирующую поведение человека для выбора услуг

20 апр. 2024, в 11:21

1000 руб./за проект

Answer 1 · 2014-12-22 14:21:01

Хранение данных в BigData порой граничит с искусством. В целом, тут как и везде -- всё зависит от задачи, которая ставится. В любом случае, работа/анализ с текстовыми данными неминуемо приведет вас к Инвертируемому индексу (причем к нескольким).

Если пока вкратце, то вам надо проиндексировать содержимое "сырых данных" (файлы, веб, БД, etc). Пока проиндексировать как есть, без изменения самих данных. Если это реально BigData, то надо подумать о распределенном индексе, понимать стоит ли (а если да, то как) реплицировать индекс (но это уже вопрос производительности).

Так же, для работы и анализа вам обязательно понадобится такой же по структуре индекс, с той лишь разницей, что данные, которые в нем будут храниться, необходимо нормализовать. Как минимум к токенам (словам) применить алгоритм стемминга (или лемматизация, если хотите получить лучшее качество).

Опять же, в зависимости от задач (направления анализа) вам надо подумать о тезаурусах, для решения синонимии терминов в вашем индексе. Но, это я уже пошел в сторону более глубокого анализа данных. Там много что вам понадобится.

Если бы был пример конкретной задачи, то я бы по конкретнее написал о инструментах, подходах, методах.

Немого ссылок:
1. По информационному поиску / анализу данных читайте вот это:
Введение в информационный поиск, Маннинг
Обработка неструктурированных текстов. Поиск, орга...
2. Импорт / фреймворки / библиотеки индексирования и поиска:
Apach Solr
Apach Tika
3. Инвертированный индекс

PS: всё же хотелось бы узнать о конкретной задачи, тогда было бы больше конкретики.

UPD: в ряде случаев в BigData надо манипулировать графовой структурой данных. Соответственно, посмотрите в сторону соответствующих СУБД, например neo4j. Главное требования к СУБД в BigData -- минимализм функционала, иначе на больших данных работать будет всё крайне медленно.

Как лучше хранить данные для последующей обработки?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт