Производительность Scala vs Python

Question

un1t @un1t

Python
Scala

Производительность Scala vs Python

Есть скрипт на Питоне, его задача парсить большие xml файлы — 1.5Gb и больше. В какой-то момент я уперся в производительность Питона. Питон как известно не очень быстрыя язык, но обычно его скорости хавает за глаза.
Решил что нужно перепистать программу на более быстром языке. Посмотрел всякие тесты производительности, судя по ним Скала в среднем в 10 раз быстрее Питона.

Переписал програму на Скале. Скала оказалась быстрее чем CPython, но медленне чем PyPy.
Python 7 мин 40 сек
PyPy 3 ммн 58 сек
Scala 4 мин 20 сек

Резльтат меня несколько удивил. Это моя первая программ на Скале. Прога на Скале у меня в виде скрипта, который я запускаю так
$ scala parser.scala
Будет ли это работать быстрее если скомпилить в .jar? Или может быть можно указать какие-то параметры оптимизации компиляции?

ПРОДОЛЖЕНИЕ:
Скорость работы программы на Скале меня тоже совершенно не устроила. Я пошел дальше — С++. Написал парсер без использования всяких xml парсеров и регулярок. Только стандратная библиотека, результат — 40 секунд.
Результат клевый, но мысль пошла дальше, что если на Скале также использовать только низкоуровневые средства работы со строками — результат 50 секунд. И конечно же я не мог после этого не пойти в Питон и не выкинуть все регулярки из кода.

CPython 4m12.204s
PyPy 2m47.724s
Scala 0m56.901s
C++ 0m46.801s

Вопрос задан более трёх лет назад
9265 просмотров

Комментировать

Подписаться 6 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 1

3 комментария

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Средний
Как выполнить авторизацию MS CHAP 2?
- 1 подписчик
- 2 часа назад
- 22 просмотра
0

ответов
Python

+1 ещё

Простой
Как вычислить количество записей?
- 1 подписчик
- 6 часов назад
- 61 просмотр
2

ответа
Python

+1 ещё

Простой
Почему при использование webdriverIE все равно открывается EDge?
- 1 подписчик
- 7 часов назад
- 14 просмотров
0

ответов
Python

Простой
Почему мой discord бот не реагирует на свои команды?
- 1 подписчик
- 8 часов назад
- 52 просмотра
0

ответов
Python

Простой
Как получить экземпляр родителя из дочернего класса?
- 1 подписчик
- 20 часов назад
- 118 просмотров
1

ответ
Python

Простой
Как указать когда нужна рекурсия а когда нет?
- 1 подписчик
- 22 часа назад
- 75 просмотров
1

ответ
Python

+1 ещё

Простой
Как сохранять сессию во Flask?
- 1 подписчик
- вчера
- 46 просмотров
0

ответов
Python

+1 ещё

Простой
Как реализовать Python-код, который будет распознавать речь, но будет реагировать только тогда, когда будет упомянуто определенное слово?
- 1 подписчик
- вчера
- 104 просмотра
2

ответа
Python

Простой
Как создать offline карту на python?
- 1 подписчик
- вчера
- 141 просмотр
2

ответа
Python

Простой
Какие модули есть в Python для целей анализа, форматирования, вывода текста?
- 2 подписчика
- вчера
- 235 просмотров
3

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Разработка VST-плагина

19 апр. 2024, в 20:43

20000 руб./за проект

Нарисовать баннер для интернет-магазина

19 апр. 2024, в 20:35

500 руб./в час

Разработать несистемный алерт

19 апр. 2024, в 20:11

500 руб./за проект

Answer 1 · 2013-02-07 14:55:14

Мне кажется проблема производительности в xml парсере. Как выше уже спрашивали, используете DOM или SAX? Если критична производительность/большой объём xml-файлов, то стоит использовать SAX.

А для ускорения scala программы, имеет смысл поиграться с параметрами jvm, например включить «AggressiveOpts»:

Запускать так:

$ JAVA_OPTS="-XX:+AggressiveOpts" scala parser.scala

P.S. исходный код парсера на scala покажете?
P.P.S. и ещё, для замера производительности желательно «прогреть» jvm, производительность при первом запуске сильно ниже чем спустя некоторое время, т.к. классы ещё не загружены класслоадером и горячие точки не скомпилированы в машинный код jit компилятором. Для более правильной оценки, сделайте «бесконечный» цикл, в котором запускайте парсер, и выводите в консоль время работы парсера, затем ждите некоторое время, пока это число не стабилизируется.
P.P.P.S. Надеюсь время вы замеряете внутри программы (scala)?

Производительность Scala vs Python

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт