Необходимо получить первые N наиболее встречающиеся слова в текстовом файле?

Question

Иван Ершов @iwanerhov

Программист С/C++

Необходимо получить первые N наиболее встречающиеся слова в текстовом файле?

Товарищи. Задача такова. Есть текстовый файл. Нужно получить первые N наиболее часто повторяющиеся слова (в порядке убывания частоты встречаемости). При сравнении регистр не учитывать. И необходимо составить стоп словарь ! Словарь хранить в файле.... Разделителями слов считаются пробел, табуляция, символы перевода строки, знаки препинания

Можно пользоваться чем угодно (STL)! Товарищи подскажите :D

Вопрос задан более трёх лет назад
2883 просмотра

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 3

1 комментарий

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- 2 часа назад
- 36 просмотров
0

ответов
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- 6 часов назад
- 234 просмотра
0

ответов
C++

+2 ещё

Средний
Как сделать маштабирование относительно центра екрана?
- 1 подписчик
- 12 часов назад
- 49 просмотров
0

ответов
C++

Простой
Как составить план по изучению языка C++?
- 1 подписчик
- вчера
- 109 просмотров
2

ответа
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- вчера
- 66 просмотров
1

ответ
C++

+2 ещё

Простой
Как подключить библиотеку TgBot к срр проекту?
- 1 подписчик
- вчера
- 63 просмотра
1

ответ
C++

+2 ещё

Простой
Как выровнять по центру текст подсказки и вводимый текст в QTextEdit?
- 1 подписчик
- вчера
- 35 просмотров
1

ответ
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- вчера
- 30 просмотров
1

ответ
C++

Простой
Как можно разделить данный код (см. ниже) по header'ам и cpp'ам, учитывая зависимости в нём?
- 1 подписчик
- вчера
- 67 просмотров
2

ответа
Показать ещё Загружается…

Kotlin Backend-разработчик

vivaCRM • Москва

от 200 000 до 250 000 ₽

Backend разработчик

Unicorn • Санкт-Петербург

До 350 000 ₽

Системный аналитик

ЦИФРА

До 270 000 ₽

Настройка сервера

18 апр. 2024, в 21:56

2000 руб./за проект

Помощь с водпресс

18 апр. 2024, в 21:00

150 руб./за проект

Спарсить ссылки на все товары конкретного продавца в озон

18 апр. 2024, в 20:13

2000 руб./за проект

Answer 1 · 2014-10-28 18:59:17

brutal_lobster @brutal_lobster

Посмотрите код uniq из coreutils ;)

Ответ написан более трёх лет назад

1 комментарий

Answer 2 · 2014-10-28 21:29:28

Есть тупой (в лоб), но медленный вариант — сортировка и подсчет количества повторов с составлением эдакого псевдодерева. Есть сложный вариант чуть побыстрей - деревья. Можно и еще уйму более быстрых и значительно более сложных вариантов рассмотреть.

Answer 3 · 2014-10-29 19:18:24

А что подсказать? В чем вопрос?

Или написать за Вас код?

Алгоритм прост:
Читаем слова из файлового потока и собираем в map примерно так

ifstream fs("filename.txt");
map freq; // частоты файлов
string word;
while(read_next_word(fs, word)) // read and skip spaces tabs etc... (тут логика пропуска ненужных символов)
{
transform(word.begin(), word.end(), word.begin(), tolower); //lowercase
freq[word]++; // увеличиваем счетчик для нашего слова
}

теперь у нас есть частоты всех слов в мапе скопируем ее в вектор и отсортируем по частотам

vector > vocabulary(freq.begin(), freq.end());
sort(vocabulary.begin(), vocabulary.end(), less_second); // можно лямбдой будет проще если можно с++11

Слова в контейнере vocabulary отсортированы по частоте и делать с ними можно что угодно

где
bool less_second(const pair& a, const pair& b)
{
return a.second < b. second;
}

Это действительно весь код. (кроме логики пропуска символов, но там все просто по моему)

Необходимо получить первые N наиболее встречающиеся слова в текстовом файле?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт