Как лучше всего почистить КЛАДР?

Question

Игорь Баляс @ihorbalias

PHP
MySQL

Как лучше всего почистить КЛАДР?

Есть стандартная база КЛАДР, но там очень много населенных пунктов с названиями которые тяжело искать, например есть добавления как "сдт", ищет точное совпадение, и оно очень мешает, может у кого то уже есть база почищена, или кто то подскажет как лучше всего убрать регионы которые трудно искать, например как "Овинчище(садоводческое товарищество)" такое добавление совсем не к месту "садоводческое товарищество"

Вопрос задан более трёх лет назад
2321 просмотр

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

3 комментария

Игорь Баляс @ihorbalias Автор вопроса

саму идею понял, но нету примера на php? или это просто preg_replace на php?

Написано более трёх лет назад
Максим Васильев @qmax

RE.sub(подстанова, строка) - это замена выражения на подстанову
RE.split(строка) - разбиение строки в список считая выражение разелителями
filter(функция проверки, список) - просто фильтрация списка
list(хрень) - просто конвертирование итерируемой хрени в список

Написано более трёх лет назад
Игорь Баляс @ihorbalias Автор вопроса

спасибо, буду пробивать

Написано более трёх лет назад

2 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

MySQL

+1 ещё

Средний
MySQL ошибка InnoDB: Attempted to open a previously opened tablespace. Куда копать?
- 1 подписчик
- 13 часов назад
- 30 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Как из php передать ошибки в js?
- 1 подписчик
- 14 часов назад
- 145 просмотров
2

ответа
MySQL

+1 ещё

Простой
Как получить доступ к БД mySQL через терминал?
- 1 подписчик
- 16 часов назад
- 62 просмотра
2

ответа
MySQL

+1 ещё

Средний
Как скрестить ElasticSearch и MySQL?
- 3 подписчика
- 18 часов назад
- 415 просмотров
3

ответа
PHP

+2 ещё

Средний
Версии файлов на сайте отличаются от тех что я вижу через админку?
- 1 подписчик
- 19 часов назад
- 91 просмотр
1

ответ
PHP

+1 ещё

Простой
Регулярное выражение поиск по группам или нет?
- 1 подписчик
- 20 часов назад
- 100 просмотров
1

ответ
PHP

Простой
Как переделать код php, что бы отправлялись несколько файлов?
- 1 подписчик
- вчера
- 126 просмотров
1

ответ
JavaScript

+1 ещё

Простой
Почему в консоли вылетатет ошибка unexpected character at line 1 column 1 of the JSON data, когда поля формы не заполнены?
- 1 подписчик
- вчера
- 128 просмотров
2

ответа
MySQL

Простой
Что сработает быстрее, что лучше использовать?
- 2 подписчика
- вчера
- 892 просмотра
1

ответ
PHP

+1 ещё

Простой
Как связать таблицы по одному столбцу и посчитать сумму?
- 2 подписчика
- вчера
- 292 просмотра
2

ответа
Показать ещё Загружается…

PHP разработчик

Living Core

от 120 000 ₽

PHP разработчик

Ведисофт • Екатеринбург

от 25 000 ₽

PHP-разработчик

M-Social Production • Брянск

от 70 000 ₽

Нужен кто сделает трафик в Тик Ток

16 апр. 2024, в 10:47

80000 руб./за проект

Сделать работу на R studio

16 апр. 2024, в 10:41

1000 руб./за проект

Написание проекта на микроконтроллер

16 апр. 2024, в 10:39

2000 руб./за проект

Answer 1 · 2014-09-24 02:32:53

Делал примерно так с базой фиас, засовывая её в монгодб на питоне.
Не совпадает ни одного пункта, но идея, думаю, ясна :)

namstrip = re.compile(' *\([^)]*\) *') # всякая хрень в скобочках
namsplit = re.compile('\W+') # небуквы
namnum = re.compile('([0-9]+)[\w-]+') # 5ый, 6-ой, 101км, итп
num = re.compile('^[0-9]+') # числа
def idx_name(name):
    name = name.lower()
    name = namstrip.sub(' ', name) # нахер всё в скобочках
    name = namnum.sub('\\1', name) # 5ый, 6-ой, 101км -> 5, 6, 101
    namelems = namsplit.split(name) # разбить на слова
    namelems = filter(lambda e: len(e) > 1 or num.match(e), namelems) # оставить числа и длиннее 1 букв
    return list(namelems)

результат - писался в поле name_idx и индексировался

Answer 2 · 2014-09-24 07:53:03

Лучше его не чистить, а искать не по точному совпадению, а по началу названия. В большинстве случаев, в скобках указывается разъяснение, в каком именно месте расположен населенный пункт. Если в одном районе находятся два населенных пункта одного типа (хутор, деревня...) и с одинаковыми названиями, то, убрав информацию в скобках, вы никогда не сможете их различить.

Как лучше всего почистить КЛАДР?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт