Почему поиск уникальных значений в двух таблицах Excel работает медленно и как сделать чтобы было быстрее?

Question

beduin01 @beduin01

Почему поиск уникальных значений в двух таблицах Excel работает медленно и как сделать чтобы было быстрее?

Есть два файла CSV в каждом по 100 тыс записей. Задача найти строки которые которые есть в первом файле, но нет во втором. Сама процедура поиска предполагается по ключу записей т.е.
Файл 1:
1
2
4
5

Файл 2:
1
2
3
4
5

Итого вывод должен быть 3 т.к. в первом файле этого ID нет, но он есть во втором.

Сейчас все делается средствами Excel. Люди жалуются на то, что подобная сверка происходит долго. На сколько долго сказать не могу. Думаю десятки минут.

Отсюда вопросы.
Почему в Excel все так медленно.
Будет ли разница в скорости если если решение сделать на C# или к примеру Python.
Будет ли профит если все выгружать в какой нить SQLite и делать его средствами?

Вопрос задан более трёх лет назад
155 просмотров

2 комментария

Подписаться 1 Простой 2 комментария

Пригласить эксперта

Ответы на вопрос 3

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Алгоритмы

Простой
Как устроен вывод в задаче?
- 1 подписчик
- 10 часов назад
- 80 просмотров
1

ответ
Алгоритмы

Простой
Какую формулу использовать?
- 1 подписчик
- вчера
- 101 просмотр
3

ответа
C++

+1 ещё

Простой
Рекурсивный ввод-вывод последовательности без использования массивов и списоков?
- 2 подписчика
- вчера
- 428 просмотров
1

ответ
Алгоритмы

Средний
Справится ли алгоритм с задачей по поиск слов в словаре?
- 1 подписчик
- 17 апр.
- 73 просмотра
1

ответ
Excel

+1 ещё

Простой
Как с помощью VBA найти изображение в ячейке Excel?
- 1 подписчик
- 17 апр.
- 48 просмотров
0

ответов
Excel

Средний
Как реализовать поиcк значений для множества ячеек excel?
- 2 подписчика
- 16 апр.
- 51 просмотр
0

ответов
Алгоритмы

Простой
Как определить сложность алгоритма?
- 1 подписчик
- 16 апр.
- 102 просмотра
3

ответа
JavaScript

+4 ещё

Простой
Что делать, если после залива приложения на VPS страница остается недоступной?
- 1 подписчик
- 15 апр.
- 86 просмотров
2

ответа
Excel

Средний
Как из ячейки извлечь структурированные данные?
- 2 подписчика
- 14 апр.
- 272 просмотра
1

ответ
Excel

Средний
Как разделить содержимое ячейки?
- 2 подписчика
- 14 апр.
- 301 просмотр
1

ответ
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Разработчик программного обеспечения авионики

Котлин-Новатор • Санкт-Петербург

от 50 000 до 150 000 ₽

Ведущий разработчик программного обеспечения авионики

Котлин-Новатор

от 150 000 до 250 000 ₽

Дописать функцию на Flutter, работа с yandex map kit

20 апр. 2024, в 04:18

3000 руб./за проект

Английская версия для сайта на WordPress

20 апр. 2024, в 03:34

8000 руб./за проект

Доработать клиентское приложение для GTA 5 на C#

20 апр. 2024, в 00:51

1000 руб./за проект

Хрустальный шар на профилактике, но основные причины перечислены в моём профиле. Python из коробки в 7 раз медленнее VBA, впрочем, никто не мешает вам его использовать. Такого объёма данные лучше хранить в БД.
Согласен, БД ваше всё.

ЗЫ И нормальное приложение к нему.

Answer 1 · 2018-04-06 10:38:38

igorsmi @igorsmi

Full stack web developer

Скажу коротко, если перенести всё в SQL, разница в скорости будет огромная.

Ответ написан более трёх лет назад

Комментировать

Answer 2 · 2018-04-06 18:37:03

у ёкселя есть excel power query ("редактор запросов" по-русски), как раз для таких вещей.

а если сейчас вы проверяете строки в одной таблице поиском по второй, можно сильно ускорить процесс отсортировав вторую таблицу по этой колонке, и используя поиск значения с третьим параметром (интервальный поиск) и дополнительной проверкой на совпадение потом.

в русском ёкселе это наверное что-то вроде

=ВПР(<искомое>;<таблица>;1;ИСТИНА)=<искомое>

Answer 3 · 2018-04-06 11:33:42

А ключи отсортированы?
Десятки минут даже для Excel как-то медленно.
Это как будто для каждого ключа одного файла пробегать все ключи другого.
Если взять два отсортированных списка и пройтись по ним, то недостающие ключи можно за один проход найти - это секунды для 100000 записей.

Почему поиск уникальных значений в двух таблицах Excel работает медленно и как сделать чтобы было быстрее?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт