Задать вопрос

marazmiki

Укротитель питонов

142

вклад
1

вопрос
147

ответов
48%

решений

Ответы пользователя по тегу ORM

Как оптимальным образом в Django проверить текст на наличие слов из базы?
marazmiki @marazmiki
Укротитель питонов
Если абстрагироваться от базы данных, то задача выглядит слегка проще. Считайте, что есть два множества: множество плохих слов и множество слов в тексте. Остаётся определить, пересекаются ли эти множества. Если пересекаются, то как минимум одно плохое слово есть :-)

>>> a = { 1, 2, 3 } >>> b = { 2, 3, 4 } >>> c = { 5, 6 } >>> >>> a & b {2, 3} >>> a & c set()

Теперь ближе к прикладной задаче. Поскольку множество "плохих слов" у нас хоть и хранится в БД (к слову, модели принято называть в единственном числе — BadWord — а не во множественном, как у Вас), но пока не происходят изменений, его можно считать статичным. Поэтому можно без зазрения совести брать это множество из кеша.

# utils.py from django.core.cache import cache def get_bad_words(): return cache.get('bad_words')

и пересчитывать кеш при создании, редактировании или удалении записей из BadWords. Например, с помощью сигналов:

# models.py def set_bad_words(**kwargs): from django.core.cache import cache cache.set('bad_words', {w.bword for w in BadWords.objects.all()}) models.signals.post_save.connect(set_bad_words, sender=BadWords) models.signals.post_delete.connect(set_bad_words, sender=BadWords)

Теперь остаётся только преобразовать входящий текст в множество слов

И пример использования:
# utils.py def get_words_from_text(text_string): return set([w for w in text_string.lower().split()])

и определять, есть ли плохие слова (т.е. пересекаются ли множества):

# utils.py def has_bad_words(text_string): return bool(get_bad_words() & get_words_from_text(text_string))

В общем, пространство для рефакторинга и улучшений ещё есть (неплохо бы вычистить из текста пунктуацию, стоп-слова, лишние пробелы, сигналы перенести в apps.py согласно новым правилам application loading, а то и вовсе выкинуть их), но идея, думаю, ясна.

Ответ написан более трёх лет назад

4 комментария
4 комментария
Оптимизация objects.all() для огромной БД. Как получить все и не зависнуть на N минут?

marazmiki @marazmiki
Укротитель питонов

При итерировании кверисет целиком загружается в память, отсюда и проблема. Решение, которое предложил Александр Втюрин, хоть и несколько топорное, будет работать: идея там верная. Несколько лет тому эта проблема стояла очень остро, поэтому даже появился широко известный в узких кругах Сниппет #1949, сделанный именно на этом принципе.

Но начиная с Django версии, если не ошибаюсь, 1.4, появилось штатное средство, предназначенное для аналогичных целей — метод iterator() у кверисета.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Самые активные сегодня

rPman
- 13 ответов
- 0 вопросов
Laotzi
- 5 ответов
- 0 вопросов
Shaman_RSHU
- 4 ответа
- 0 вопросов
YX1978
- 4 ответа
- 0 вопросов
Rsa97
- 3 ответа
- 0 вопросов
Drno
- 3 ответа
- 0 вопросов

Как оптимальным образом в Django проверить текст на наличие слов из базы?

Оптимизация objects.all() для огромной БД. Как получить все и не зависнуть на N минут?

Войдите на сайт