Задать вопрос

D_DeYneko @D_DeYneko

R

Как использовать R для лемматизации, токенизации, удаления стоп слов и последующим анализом в lda?

Здравствуйте!
Имеется база новостного сайта ~за 20 лет с заголовками, текстами и датой под каждой в формате csv. Объемом это где-то гигабайт.
Собственно хотел бы это как-то обработать, но не знаю как. С консолью знаком только по скачиванию архивов с гитхаба, так что дело тяжкое.
Кто-нибудь делал что-то подобное в R (выбрал его потому что имеет хоть какой-то интерфейс и более-менее бодро работает с данными на ~700к строк), возможно подскажет последовательность действий?
Возможно существуют приложения, в которых этот вопрос можно было бы решить с меньшей кровью?
Видел так же topicminer от вышки, но он отказывается обрабатывать csv и хочет, чтобы ему скормили данные в тхт по каждому документу отдельно, что невозможно в моей ситуации.

Вопрос задан более трёх лет назад
256 просмотров

Комментировать

Подписаться 1 Простой Комментировать

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

R

Простой
Error in glimpse(d): could not find function «glimpse»?
- 1 подписчик
- 24 сент. 2023
- 50 просмотров
1

ответ
R

Простой
Почему при подключении к PostgreSQL выходит ошибка?
- 1 подписчик
- 08 сент. 2023
- 64 просмотра
0

ответов
Машинное обучение

+1 ещё

Простой
Как работает оценка влияния признаков в методе vip() библиотеки vip в R?
- 1 подписчик
- 23 мая 2023
- 37 просмотров
1

ответ
Python

+1 ещё

Простой
Почему Python adf работает хуже чем R adf?
- 4 подписчика
- более года назад
- 303 просмотра
1

ответ
R

Средний
Почему не работает else if?
- 1 подписчик
- более года назад
- 103 просмотра
1

ответ
Кириллица

+1 ещё

Средний
R плохо отображает кириллицу?
- 1 подписчик
- более года назад
- 78 просмотров
1

ответ
R

Простой
Код сломался просто так?
- 1 подписчик
- более года назад
- 62 просмотра
1

ответ
R

Простой
Как использовать RSelenium с браузером Opera?
- 1 подписчик
- более года назад
- 27 просмотров
0

ответов
R

+1 ещё

Средний
Как расположить элементы на странице shiny dashboard?
- 1 подписчик
- более года назад
- 56 просмотров
1

ответ
Высшая математика

+2 ещё

Простой
Найти экстремумы функции двух переменных в R?
- 1 подписчик
- более года назад
- 249 просмотров
1

ответ
Показать ещё Загружается…

Программист микроконтроллеров

Future Technologies • Новосибирск

от 120 000 ₽

Тест-аналитик

Bell Integrator • Санкт-Петербург

До 150 000 ₽

Менеджер по продажам Cloud&Security

beeline • Красноярск

от 150 000 ₽

Разработать интранет сайт (корпоративный портал)

20 апр. 2024, в 07:24

100000 руб./за проект

Исправить адаптивную верстку на Tilda Zero Block

20 апр. 2024, в 06:39

4000 руб./за проект

Доработка аддона для Xenforo v2.2.13

20 апр. 2024, в 06:06

200 руб./за проект