Как подобрать статьи к 1000 кейвордам?

Question

vante_scribaxxi @vante_scribaxxi

Python

Как подобрать статьи к 1000 кейвордам?

Есть 1000 ключевых фраз, максимум 5-6 слов. Есть так-же 20 тысяч статей, в которых эти фразы разбавлены. Нужно каждой фразе подобрать пару, т.е. ту статью, которая более всех остальных использует эту фразу.
Написал функцию, которая сначала разбивает все фразы на слова, удаляет дубликаты и заносит в dict в таком формате - {фраза:ключ.слова}. Далее поочередно берется каждая статься, разбивается на слова и методом левинштейна рассчитывает схожесть каждого ключ.слова с словом из статьи, общее кол-во суммируется и складывается в список, а когда все тексты обработаны выбирается тот, что набрал макс. кол-во очков и таким образом находится пара.
Эта функция работает слишком медленно - я ставил обработку текстов в multiproccecing.pool и выходило максимум 3-4 статьи в секунду. А мне нужно всего обработать 20к * 1000 = 20млн раз, и это минут за 15 максимум.
Помогите пожалуйста.

Вопрос задан более трёх лет назад
94 просмотра

Комментировать

Подписаться 2 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 7 часов назад
- 42 просмотра
0

ответов
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 9 часов назад
- 43 просмотра
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- 15 часов назад
- 33 просмотра
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- 17 часов назад
- 78 просмотров
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 133 просмотра
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 220 просмотров
3

ответа
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- вчера
- 134 просмотра
2

ответа
Python

+1 ещё

Простой
Почему не срабатывает клик по элементу при открытии станицы selenium python?
- 1 подписчик
- 16 апр.
- 51 просмотр
1

ответ
Python

Простой
Выполнение парсинга странцы?
- 2 подписчика
- 16 апр.
- 130 просмотров
3

ответа
Python

Простой
Как исправить ошибку?
- 1 подписчик
- 16 апр.
- 106 просмотров
1

ответ
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Скрыть / убрать лишние поля в форме заказа

19 апр. 2024, в 07:30

1500 руб./в час

Взлом автомобильной программы

19 апр. 2024, в 05:01

999999 руб./за проект

Доработать телеграм бота

19 апр. 2024, в 03:52

1000 руб./за проект

Answer 1 · 2018-04-07 15:03:41

действуй кувалдой, потом тюнингуй

кувалдой может быть
1) Sphinxsearch (и аналоги типа Эластика) + SPH_MATCH_ALL
2) Полнотекстовый поиск в MySQL/PostgreSQL

сторого говоря, правильно настроенный (1) может и тюнинг сделать ненужным

Как подобрать статьи к 1000 кейвордам?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт