Python какими средствами проанализировать массив строк и выделить наиболее употребляемую маску?

Question

If-so-girl1 @If-so-girl1

Python какими средствами проанализировать массив строк и выделить наиболее употребляемую маску?

Мне необходимо проанализировать массив url-ов, и выделить каким-то образом часто употребляемую маску ссылки. К примеру, у меня есть такие url-ы:
"lenta.ru/articles/2014/10/08/mosclassicgp"
"lenta.ru/photo/2014/10/07/longway"
"lenta.ru/photo/2014/10/03/misstuning"
"lenta.ru/photo/2014/08/27/nivajpg"
"lenta.ru/photo/2014/02/18/dynamic"
"lenta.ru/news/2014/10/08/nsxprice"
"lenta.ru/autosport"

При визуальном анализе можно выделить, что наиболее часто использующаяся маска будет lenta.ru/photo<4цифры>/<2 цифры>/<2 цифры>/<текст>
Хотелось бы что-то подобное автоматизированными средствами, может, какие-то библиотеки есть для этого, ну или на крайний случай алгоритм какой-то.

Вопрос задан более трёх лет назад
2550 просмотров

Комментировать

Подписаться 3 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Простой
Как показать зависимость скорости от O(nlogn)?
- 1 подписчик
- 6 часов назад
- 45 просмотров
2

ответа
Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 9 часов назад
- 45 просмотров
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 11 часов назад
- 55 просмотров
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 15 часов назад
- 86 просмотров
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 18 часов назад
- 59 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 21 час назад
- 46 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- вчера
- 66 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 167 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 30 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 39 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Разработать электронику для весов с Wi-Fi

26 апр. 2024, в 01:22

1000 руб./в час

Очень срочно нужно помочь запустить программу с UI

26 апр. 2024, в 00:13

1000 руб./за проект

Создание бота/скрипта для сайта забронирование мест

26 апр. 2024, в 00:10

30000 руб./за проект

Answer 1 · 2014-10-10 13:58:10

Библиотеки специфичной навряд ли найдете, но алгоритм предельно прост:

# Критерии
def isdigits(str):
   for i in str:
      if not i.isdigit()
         return False
   return True

def istext(str):
# какая-то логика

token = ("type_of_token", "value_of_token", len("value_of_token"))

def process_link(link):
   tokenlist = []
   for i in link.split('/'):
      if isdigit(i):
         tokenlist.append(("digit", i, len(i))
      if istext():
         tokenlist.append(("text", i, len(i))
   return tokenlist

Остается только получить список токенов для каждой ссылки и посчитать похожие варианты)

Python какими средствами проанализировать массив строк и выделить наиболее употребляемую маску?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт