Что сделать с текстами 372-х тысяч песен?

Так случилось, что у меня есть спарсенная база данных текстов песен на английском с сайта www.lyrics.net. В ней содержится 56 198 исполнителей, 113 151 альбомов и 372 357 песен.

Все метаданные хранятся в mysql со следующей структурой:

9f5cb97412ba994518914a3d756b46d2.png

Тексты же хранятся в txt.gz файлах, занимают 1.5 Gb.



Что сделать с этими данными?





Выложил дамп бд и всех текстов в файлах. С весом ошибся. Архив размером 170 мб, в распакованном виде — около 700 мб.

Скачать: yadi.sk/d/K5XoBd9S8hgGF
  • Вопрос задан
  • 6501 просмотр
Решения вопроса 1
@wapmorgan Автор вопроса
Пригласить эксперта
Ответы на вопрос 5
@janitor
Веб-разаботчик
Можно искать похожие песни, объединять их в группы, смотреть статистику (популярные названия песен, популярные слова и т.п.)
Ответ написан
Комментировать
Killy
@Killy
В структуре таблицы «wc_lyricsnet_songs» не понял, где собственно сами тексты песен. Но видимо, они есть, иначе не интересно.

Сначала можно разобраться, что же, собственно, в этих данных содержится, и какие метрики от этих данных можно вычислять:

Исполнитель:
Данные:
— Название исполнителя
Метрики:
— Число зарегистрированных альбомов
— Число зарегистрированных песен
— Средние/максимальные/etc значения метрик альбомов и песен исполнителя

Альбом:
Данные:
— Название альбома
— Год выпуска альбома
Метрики:
— Число песен в альбоме
— Длинна названия альбома
— Количество слов в названии альбома
— Год выпуска альбома
— Средние/максимальные/etc значения метрик песен в альбоме

Песня:
Данные:
— Название
— Текст
Метрики:
— Длина названия песни
— Количество слов в названии песни
— Длинна текста
— Число слов в тексте
— Число уникальных слов в тексте
— Среднее число повторений слов в тексте

Потом подумать, что из всего этого можно извлечь:
а)
Для всей базы или для выборок по метрикам посчитать частотные словари по текстовым данным. Выявить популярные шаблоны в названиях {исполнителей/альбомов/песен} — сделать свой генератор названий.
б)
Искать экстремальные значения метрик (не забывая про нормирование).
Например, самые многословные исполнители. Или авторы самых ёмких текстов.
в)
Нарисовать сетку «метрика х метрика». Посмотреть, получается ли что-нибудь интересное на пересечениях.
Например, [Год выпуска альбома] x [Число уникальных слов в тексте]. За каждый год (выборка по метрике 1) берём среднее значение метрики 2, делим на общее число зарегистрированных песен за этот год (размер выборки). Строим график и проверяем, становятся ли тексты в среднем более примитивными.
г)
Частотные словари для выборок. Нарисовать сетку «метрика х данные». Посмотреть, получается ли что-нибудь интересное на пересечениях. Посчитать частотные словари по данным из выборок на основе метрики. Сравнить результаты и найти отклонения.
Например, [Год выпуска альбома] х [Название песни]. Удастся ли так проследить за музыкальной модой?

При использовании внешних данных (частотный словарь английского языка, lastfm и т.д.) можно ещё всяких метрик напридумывать. Не всегда тривиальных, правда. Но более перспективных. Например:
— «Простота текста» — насколько он состоит из частых или, наоборот, редких слов. Это круче, чем число уникальных слов в тексте.
— Отношение исполнителя к тому или иному муз. направлению(жанру). Имея статистические данные по ярким представителям жанра можно попробовать сделать свою распознавалку жанра для произвольных текстов, например.

Идея, надеюсь, понятна. Можно продолжить мозговой штурм и эксперименты, чтобы придумать новые и комбинированные метрики, найти откуда извлечь дополнительные данные и т.д…
Ответ написан
Комментировать
@deserg
если реально делать нечего, то можно на основании текстов составить статистику наиболее часто используемых слов в песнях (о чем поют), длину песен (кто самый сочинитель), ну и всякие там рейтинги.
Ответ написан
@QZip
Из такого материала делают дорвеи ;)
Ответ написан
begemot_sun
@begemot_sun
Программист в душе.
У вас картинка структуры БД поломалась.
Ответ написан
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы