Как правильно поставить задачу по разработке приложения или какое готовое приложение использовать?

Question

YaTe @YaTe

Как правильно поставить задачу по разработке приложения или какое готовое приложение использовать?

Стоит задача:
Разбирать документы из относительно неструктурированного вида и трансформировать данные из них в структурированный вид для загрузки в БД, при этом список полей в БД конечен и заранее известен.

Нюансы:
1) Документы могут быть в разных форматах, например Excel, PDF, а иногда это просто веб-страница на сайте
2) Как следствие, данные поступающие из различных источников представлены в разном виде. При этом, если в excel'ке данные более структурированные (почти все содержится в таблице), то в PDF'е часть данных может быть представлена текстом и быть общей для всех представленных элементов
3) Задача повторяющаяся, то есть в любом формате со временем будет несколько документов
4) Есть вероятность, что в каких-то документах недостаточно данных для полного заполнения БД, тогда в идеале должна быть возможность добавить дополнительный документ

Чтобы было нагляднее возьмем пример: спецификации каких-нибудь железок, к примеру жестких дисков. Хотим составить БД со спеками дисков. Есть определенный набор параметров, который мы хотим в нашу базу занести.
У самсунга на сайте есть PDF'ки со спецификациями их дисков (как пример, 983-я серия. Большая часть нужных спецификаций лежит в таблице. Там представлены диски сразу в двух форм-факторах, соответственно, например, размерные характеристики будут общими для двух разных семейств: 2.5" и М.2 дисков. А какая-то информация, например, интерфейс или наработка на отказ, будет общей для всех дисков. В таком случае, ячейки будут объединяться. А какая-то часть информации будет доступна в тексте, а не таблице, и ее оттуда тоже надо вытащить.
А вот у тошибы спецификации представлены прямо на сайте. Но информация там структурирована по другому и объем ее отличается. А у условного производителя XYZ на сайте будут лежать эксели и информация будет структурирована иным образом.

Вопрос:
Какая дисциплина позволяет решить задачу по наполнению данными БД? Изучение описание таких дисциплин (процессов), как Data Mining, Data Wrangling и прочим не помогуают понять, в какую сторону именно смотреть. То есть тут с одной стороны не надо ничего предсказывать и искать insights, про которые по идее говорит Data Mining, с другой стороны для Data Wrangling'а информация слишком плохо структурирована. То есть скорее всего нужен какой-то инструмент эксплуатирующий машинной обучение / нейронные сети (для повышения качества вычленения информации, особенно из нетабличных блоков), но непонятно как спросить у гугла про правильный инструмент или как поставить задачу разработчикам. Идеальный ответ - какой инструмент (если он существует) решает такую задачу, а если не существует, то какого профиля разработчиков искать, чтобы разработать приложение, рещающее данную задачу.

Спасибо.

Вопрос задан более трёх лет назад
93 просмотра

Комментировать

Подписаться 1 Средний Комментировать

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 15 часов назад
- 22 просмотра
0

ответов
IT-образование

+3 ещё

Простой
Какая есть литература полезная и понятная по Data Science на русском?
- 3 подписчика
- 17 апр.
- 1033 просмотра
1

ответ
Машинное обучение

+2 ещё

Простой
Создание нейронной сети для определения сортов яблок. Как осуществить?
- 1 подписчик
- 11 апр.
- 97 просмотров
0

ответов
Машинное обучение

+1 ещё

Средний
Как работает адаптивный бустинг для регрессии?
- 1 подписчик
- 05 апр.
- 24 просмотра
0

ответов
Машинное обучение

+1 ещё

Средний
Чем отличается стекинг от блендинга?
- 1 подписчик
- 02 апр.
- 48 просмотров
1

ответ
Машинное обучение

+2 ещё

Простой
Что технически(какие it решения, технологический стек) нужны для создания ии ,который сможет на основе жалоб ставить диагноз?
- 1 подписчик
- 21 мар.
- 116 просмотров
3

ответа
Машинное обучение

Средний
Какой метод машинного обучения применить и как?
- 1 подписчик
- 19 мар.
- 62 просмотра
1

ответ
Машинное обучение

Средний
Как исправить переобучение сверточной нейронной сети(keras)?
- 1 подписчик
- 18 мар.
- 49 просмотров
0

ответов
Машинное обучение

+2 ещё

Простой
Как выбрать своё направление из двух совершенно разных?
- 1 подписчик
- 16 мар.
- 98 просмотров
2

ответа
Машинное обучение

+1 ещё

Сложный
Как реализовать обучение нейросети в реальном времени?
- 2 подписчика
- 11 мар.
- 168 просмотров
2

ответа
Показать ещё Загружается…

Data Scientist (Финтех)

Intelinvest

от 60 000 ₽

Senior ML Engineer (Computer Vision)

Gradient

от 450 000 ₽

Python/Django-разработчик (mobile+AI)

4Taps AI • Тольятти

от 150 000 до 250 000 ₽

Фронтер - DevOps. Развернуть фронт на хостинге. Прокинуть в телегу-бот

25 апр. 2024, в 04:38

15000 руб./за проект

Приложение или модуль для Wordpress для учета поездок по QR

25 апр. 2024, в 03:58

10000 руб./за проект

Ошибка в 1с при выгрузке товаров на сайт на Битриксе

25 апр. 2024, в 03:08

3000 руб./за проект

Answer 1 · 2018-11-04 21:24:49

В общем случае - такое решается наемом персонала, который будет писать парсеры для каждого производителя
Или покупкой апи или всего массива информации

Парсить пдф/ексель - занятие слабо подьемное

Тем более, что все уже есть в вебе
https://www.samsung.com/semiconductor/minisite/ssd...

Answer 2 · 2018-11-04 21:27:32

Dimonchik @dimonchik2013

non progredi est regredi

тамита парсер

но вообще простого решения нет, как sim3x и сказал, обычно пишется набор парсеров

Ответ написан более трёх лет назад

Комментировать

Answer 3 · 2018-11-11 16:32:52

Если я правильно понимаю, то парсеры - это решение, которое было доступно и в "прошлой жизни", то есть их можно было написать и 10 лет назад. Весь смысл в том, чтобы избавиться от написания жестко алгоритмизированных парсеров за счет новых технологий (ML/нейросети/...), особенно с учетом того, что данные могут меняться от документа к документу (состав, формат) даже у одного "вендора"

Есть еще идеи?

Как правильно поставить задачу по разработке приложения или какое готовое приложение использовать?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт