@D_DeYneko

Как использовать R для лемматизации, токенизации, удаления стоп слов и последующим анализом в lda?

Здравствуйте!
Имеется база новостного сайта ~за 20 лет с заголовками, текстами и датой под каждой в формате csv. Объемом это где-то гигабайт.
Собственно хотел бы это как-то обработать, но не знаю как. С консолью знаком только по скачиванию архивов с гитхаба, так что дело тяжкое.
Кто-нибудь делал что-то подобное в R (выбрал его потому что имеет хоть какой-то интерфейс и более-менее бодро работает с данными на ~700к строк), возможно подскажет последовательность действий?
Возможно существуют приложения, в которых этот вопрос можно было бы решить с меньшей кровью?
Видел так же topicminer от вышки, но он отказывается обрабатывать csv и хочет, чтобы ему скормили данные в тхт по каждому документу отдельно, что невозможно в моей ситуации.
  • Вопрос задан
  • 256 просмотров
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы