Что сделать с текстами 372-х тысяч песен?

Question

Сергей Ванюшин @wapmorgan

Автоматизация обработки текста

Что сделать с текстами 372-х тысяч песен?

Так случилось, что у меня есть спарсенная база данных текстов песен на английском с сайта www.lyrics.net. В ней содержится 56 198 исполнителей, 113 151 альбомов и 372 357 песен.

Все метаданные хранятся в mysql со следующей структурой:

Тексты же хранятся в txt.gz файлах, занимают 1.5 Gb.

~~Что сделать с этими данными?~~

Выложил дамп бд и всех текстов в файлах. С весом ошибся. Архив размером 170 мб, в распакованном виде — около 700 мб.

Скачать: yadi.sk/d/K5XoBd9S8hgGF

Вопрос задан более трёх лет назад
6501 просмотр

Комментировать

Подписаться 14 Оценить Комментировать

Решения вопроса 1

2 комментария

Пригласить эксперта

Ответы на вопрос 5

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+3 ещё

Средний
Какие существуют библиотеки Python для комплексной обработки текста, включая исправление ошибок и удаление лишних символов?
- 1 подписчик
- 01 апр.
- 83 просмотра
1

ответ
Автоматизация обработки текста

+1 ещё

Сложный
Кто знает user-friendly инструмент для поиска по файлам с помощью языковых моделей (RAG)?
- 3 подписчика
- 11 мар.
- 122 просмотра
2

ответа
Автоматизация обработки текста

Простой
Как автоматизировать заполнение бланка docx, меняя лишь часть текста?
- 1 подписчик
- 29 февр.
- 41 просмотр
1

ответ
Автоматизация обработки текста

Простой
Как быстро менять ссылки Django?
- 1 подписчик
- 20 февр.
- 34 просмотра
1

ответ
Python

+2 ещё

Средний
Обучение нейросети по распознаванию рукописного текста на русском. Как повысить loss при обучении?
- 2 подписчика
- 22 янв.
- 144 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Как можно автоматически поменять гендер действующего лица в тексте?
- 1 подписчик
- 01 янв.
- 50 просмотров
0

ответов
Искусственный интеллект

+2 ещё

Простой
Как разбить распознанный текст на абзацы?
- 2 подписчика
- 10 дек. 2023
- 290 просмотров
1

ответ
Автоматизация обработки текста

Простой
Как определить фамилию из строки?
- 1 подписчик
- 05 дек. 2023
- 112 просмотров
2

ответа
Автоматизация обработки текста

Простой
Как на python составить из букв слово?
- 1 подписчик
- 29 окт. 2023
- 155 просмотров
1

ответ
Парсинг

+2 ещё

Простой
Парсинг данных из текста?
- 2 подписчика
- 22 окт. 2023
- 145 просмотров
0

ответов
Показать ещё Загружается…

IT HR менеджер

Bright Mobile Apps

До 1 700 $

Рекрутер

IGA Technologies • Москва

До 70 000 ₽

IT-Рекрутер

KVANDO Technologies • Брянск

от 30 000 ₽

Отрисовка дизайна главной и внутренней

19 апр. 2024, в 11:08

5000 руб./за проект

Работы по АСУТП

19 апр. 2024, в 10:59

150000 руб./за проект

Нужен директолог с опытом работы

19 апр. 2024, в 10:02

6000 руб./за проект

Answer 1 · 2013-09-04 16:24:23

Сергей Ванюшин @wapmorgan Автор вопроса

выложил — yadi.sk/d/K5XoBd9S8hgGF

Ответ написан более трёх лет назад

2 комментария

Answer 2 · 2013-08-30 16:11:12

Можно искать похожие песни, объединять их в группы, смотреть статистику (популярные названия песен, популярные слова и т.п.)

Answer 3 · 2013-08-30 22:40:59

В структуре таблицы «wc_lyricsnet_songs» не понял, где собственно сами тексты песен. Но видимо, они есть, иначе не интересно.

Сначала можно разобраться, что же, собственно, в этих данных содержится, и какие метрики от этих данных можно вычислять:

Исполнитель:
Данные:
— Название исполнителя
Метрики:
— Число зарегистрированных альбомов
— Число зарегистрированных песен
— Средние/максимальные/etc значения метрик альбомов и песен исполнителя

Альбом:
Данные:
— Название альбома
— Год выпуска альбома
Метрики:
— Число песен в альбоме
— Длинна названия альбома
— Количество слов в названии альбома
— Год выпуска альбома
— Средние/максимальные/etc значения метрик песен в альбоме

Песня:
Данные:
— Название
— Текст
Метрики:
— Длина названия песни
— Количество слов в названии песни
— Длинна текста
— Число слов в тексте
— Число уникальных слов в тексте
— Среднее число повторений слов в тексте

Потом подумать, что из всего этого можно извлечь:
а)
Для всей базы или для выборок по метрикам посчитать частотные словари по текстовым данным. Выявить популярные шаблоны в названиях {исполнителей/альбомов/песен} — сделать свой генератор названий.
б)
Искать экстремальные значения метрик (не забывая про нормирование).
Например, самые многословные исполнители. Или авторы самых ёмких текстов.
в)
Нарисовать сетку «метрика х метрика». Посмотреть, получается ли что-нибудь интересное на пересечениях.
Например, [Год выпуска альбома] x [Число уникальных слов в тексте]. За каждый год (выборка по метрике 1) берём среднее значение метрики 2, делим на общее число зарегистрированных песен за этот год (размер выборки). Строим график и проверяем, становятся ли тексты в среднем более примитивными.
г)
Частотные словари для выборок. Нарисовать сетку «метрика х данные». Посмотреть, получается ли что-нибудь интересное на пересечениях. Посчитать частотные словари по данным из выборок на основе метрики. Сравнить результаты и найти отклонения.
Например, [Год выпуска альбома] х [Название песни]. Удастся ли так проследить за музыкальной модой?

При использовании внешних данных (частотный словарь английского языка, lastfm и т.д.) можно ещё всяких метрик напридумывать. Не всегда тривиальных, правда. Но более перспективных. Например:
— «Простота текста» — насколько он состоит из частых или, наоборот, редких слов. Это круче, чем число уникальных слов в тексте.
— Отношение исполнителя к тому или иному муз. направлению(жанру). Имея статистические данные по ярким представителям жанра можно попробовать сделать свою распознавалку жанра для произвольных текстов, например.

Идея, надеюсь, понятна. Можно продолжить мозговой штурм и эксперименты, чтобы придумать новые и комбинированные метрики, найти откуда извлечь дополнительные данные и т.д…

Answer 4 · 2013-08-30 16:58:00

если реально делать нечего, то можно на основании текстов составить статистику наиболее часто используемых слов в песнях (о чем поют), длину песен (кто самый сочинитель), ну и всякие там рейтинги.