Задать вопрос

avtel

Антон @avtel

Junior Java Developer

парсинг

Какими методами выделить семантические элементы библиографической ссылки?

Здравствуйте. Пишу курсовую. На вход подаётся строка вида:

Финансовые рынки и нейронные сети [Текст] : [учеб. пособие по специальностям Прикладная математика, Прикладная информатика (по обл.) и другим специальностям] / В. И. Ширяев. - М. : URSS, 2007. - 221, [1] с. ; 22 см. - ISBN 978-5-382-00330-6 : 137.59 р.

Задача - выделить полезную информацию (автор, название,издание, страница).
Формат может сильно изменяться от ссылки к ссылке. (Есть ГОСТ но далеко не все его соблюдают).
Пока что лучшее, что придумал - использовать 3-граммы для построения вероятностной модели расположения семантических блоков типа

P(TRUE | "<start><book_title>:<additional_title>/<autors>_<publishers>_<pages>;<library_info>_<ISBN>:<cost><end>") = P(TRUE | "<start><book_title>:")*P(TRUE | "<book_title>:<additional_title>")*...*P(TRUE | ":<cost><end>")

А затем определять принадлежность текста к конкретному блоку при помощи тех же 3-грамм, предварительно разбив на токены.

Wwlww[W]:[w.wwwWw,Ww(ww.)lww]/L.L.W_L.:A,n_n,[n]l.nw_An-n-n-n-n:n.nl.

P(<book_title> | "Wwlww[w]") = P(<book_title> | "<start>Ww")*P(<book_title> | "Www")*...

Но тут неопределённость с тем, как в точности определять границы семантических блоков.
По правде, я сильно сомневаюсь в том, что мыслю в правильном направлении. Подскажите, пожалуйста, кто знаком с темой, какие существуют эффективные подходы к решению. Заранее благодарен.

Вопрос задан более трёх лет назад
154 просмотра

Комментировать

Подписаться 1 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

becks

becks @becks

Возьмите Яндекс-Томиту (нужно будет написать правила, ничего сложного нету) или АОТ.

Ответ написан более трёх лет назад

Комментировать

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Средний
Как переместить мышь вместе с элементом в pyppeteer?
- 1 подписчик
- 21 апр.
- 97 просмотров
0

ответов
Python

+2 ещё

Средний
Как пофиксить ошибку с сертификатом при работе с selenium?
- 1 подписчик
- 19 апр.
- 71 просмотр
0

ответов
WordPress

+1 ещё

Средний
Парсинг сайта на wordpress?
- 1 подписчик
- 19 апр.
- 83 просмотра
2

ответа
Парсинг

+1 ещё

Средний
Как правильно написать функцию IMPORTJSON для парсинга цен криптовалют в гугл таблицу?
- 1 подписчик
- 19 апр.
- 25 просмотров
0

ответов
Python

+1 ещё

Простой
Выбор: парсить на питоне с aiohttp, asyncio, bs4 или requests + bs4?
- 1 подписчик
- 17 апр.
- 155 просмотров
2

ответа
PHP

+1 ещё

Простой
Как получить данные title на TradingView?
- 1 подписчик
- 17 апр.
- 33 просмотра
1

ответ
Парсинг

Средний
Как парсить сайты на Wordpress в определённой доменной зоне?
- 1 подписчик
- 16 апр.
- 26 просмотров
3

ответа
Python

+1 ещё

Простой
Как вывести конкретное значение из класса в python?
- 1 подписчик
- 14 апр.
- 123 просмотра
1

ответ
Парсинг

Простой
Есть кто copart.com парсил?
- 1 подписчик
- 14 апр.
- 108 просмотров
0

ответов
Python

+1 ещё

Средний
Почему ответ из request, появляется только после того как зашёл сайт, с которого и пытаемся получить ответ через запрос, а так он пуст?
- 1 подписчик
- 13 апр.
- 104 просмотра
3

ответа
Показать ещё Загружается…

Веб-разработка и управление IT в Sortage

Sortage • Москва

от 180 000 ₽

Php-developer / full stack developer

Aporia • Севастополь

от 100 000 до 120 000 ₽

Менеджер по персоналу / Рекрутер

.White Code • Санкт-Петербург

от 55 000 до 85 000 ₽

Настроить и запустить email кампанию на Gmail

25 апр. 2024, в 17:54

30000 руб./за проект

Разработать программу для сбора Bitcoin кошельков ( только адреса )

25 апр. 2024, в 17:53

100000 руб./за проект

Сделать простецкого тг бота для подсчёта зп

25 апр. 2024, в 17:50

2000 руб./за проект