VadimSoloviev
@VadimSoloviev
Человек из касты создателей

Существует ли на мировом рынке софт для быстрой, автоматической коррекции правописания текстовых файлов?

Ищу софт который позволит в считанные секунды выполнить коррекцию правописания спаршенного с форума текста на русском и английском языках.
Открыл текст, нажал 1 или 2 кнопочки для разных языков - получил готовый результат.
Ищу софт который действует по принципу не навреди и корректирует только те слова в опечатках которых он уверен с высокой долей вероятности и который не заставляет пользователя просматривать километровый текстовый файл предлагая ему вручную подтверждать коррекцию 1000 неверно написанных слов. В первую очередь он должен уметь автоматически корректировать орфографию и опечатки так как итоговый текст будет подвергнут речевому синтезу. И когда синтезатор речи читает текст с опечатками это прям очень критично. Волей неволей встаёт вопрос о том что бы уменьшить их количество настолько насколько это вообще возможно автоматическим способом.
  • Вопрос задан
  • 94 просмотра
Решения вопроса 2
gobananas
@gobananas
botbot.ru
На английском есть www.grammarly на русском могу ошибаться, но ничего такого нет, все проверяльщики как минимум сленгом не владеют.
Думал для русского такое сделать как pet-project но пока всё упирается во время.
Ответ написан
Moskus
@Moskus
Для решения этой проблемы есть фундаментальное препятствие.
Для разработки подобного софта нужен общедоступный корпус языка (набор размеченных текстовых данных), создание которого - задача для лингвистов. Далее, этот набор данных должен быть интегрирован в достаточно специфическое ПО. А еще он должен быть доступен для разработчиков.

В случае русского языка, случилось закономерное: государственные институты занялись этой проблемой, но программную часть стал делать Яндекс. Это их традиционная манера - подмять под себя данные, которые созданы на деньги налогоплательщиков, превратив это либо в закрытый, либо в коммерческий продукт. Например, так происходит с данными о пробках, которые собираются гос. организациями, с данными о местоположении общественного транспорта и т.п. Результат - национальный корпус русского языка - закрытый проект с чертами коммерческого.

Потому такая штука как открытый корпус русского языка делается параллельно на добровольной основе www.opencorpora.org
Этого набора данных пока недостаточно для разработки того, о чем вы мечтаете.
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через TM ID
Похожие вопросы
Onetrak Москва
от 60 000 до 80 000 руб.
CallKeeper Люберцы
от 80 000 до 120 000 руб.
CallKeeper Люберцы
от 80 000 до 120 000 руб.