Как разбить парсинг XML файла на несколько потоков в C#?

Question

Дмитрий Филиппов @HorrorInferno

веб-разработчик, бэкэндер

Как разбить парсинг XML файла на несколько потоков в C#?

Добрый день.

Есть задача распарсить огромный XML файл (1ТБ) и занести данные в БД.
В одном единственном потоке это всё работает очень медленно, и парсер закончит свою работу приблизительно через три года :D

В общем нужно как-то грамотно разбить парсинг на несколько потоков. Есть варианты?

P.S. с многопоточностью в C# я еще ни разу не работал.

Вот код, который у меня работает в данный момент:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Xml;
using System.Xml.Linq;
using Npgsql;

namespace MapReader
{
    class Program
    {
        static void Main(string[] args)
        {
            Console.Write("> ");

            string path = Console.ReadLine();

            IEnumerable<XElement> root = from el in Root(path) select el;

            Osm2Pg pgosm = new Osm2Pg();

            pgosm.CreateTables();

            foreach (XElement item in root)
            {

                if (item.Name == "way")
                {

                    long wayID = long.Parse(item.Attribute("id").Value);

                    Console.WriteLine("way: " + item.Attribute("id").Value);

                    foreach (XElement nd in item.Elements("nd"))
                    {

                        long nodeReference = long.Parse(nd.Attribute("ref").Value);
                        pgosm.InsertWayNds(wayID, nodeReference);

                        Console.WriteLine("--nd: " + nd.Attribute("ref").Value);
                    }

                    foreach (XElement tag in item.Elements("tag"))
                    {

                        string key = tag.Attribute("k").Value;
                        string value = tag.Attribute("v").Value;
                        pgosm.InsertWayTags(wayID, key, value);

                        Console.WriteLine("--tag: " + tag.Attribute("k").Value);
                    }

                }


                // проходимя по node.
                if (item.Name == "node")
                {
                    // конвертируем координаты из географической системы в декартову.
                    double lon = double.Parse(item.Attribute("lon").Value);
                    double lat = double.Parse(item.Attribute("lat").Value);

                    float x = (float)GeoHelper.lonToX(lon);
                    float z = (float)GeoHelper.latToY(lat);


                    long nodeId = long.Parse(item.Attribute("id").Value);
                    pgosm.InsertNodes(nodeId, x, z);
                    
                    Console.WriteLine("node: " + x + "," + z);

                    if (item.HasAttributes)
                    {
                        foreach (XElement tag in item.Elements("tag"))
                        {

                            string key = tag.Attribute("k").Value;
                            string value = tag.Attribute("v").Value;
                            pgosm.InsertNodeTags(nodeId, key, value);

                            Console.WriteLine("--tag: " + tag.Attribute("k").Value);
                        }
                    }
                }
            }

            Console.WriteLine("End of program...");
            Console.Read();

        }

        // магия б***ь...
        static IEnumerable<XElement> Root(string path)
        {
            using (XmlReader reader = XmlReader.Create(path))
            {
                while (reader.Read())
                {
                    if (reader.Name == "way" || reader.Name == "node")
                    {
                        XElement el = XElement.ReadFrom(reader) as XElement;
                        if (el != null)
                            yield return el;
                    }
                }
            }

        }

    }
}

Вопрос задан более трёх лет назад
626 просмотров

5 комментариев

Подписаться 2 Средний 5 комментариев

Станислав Макаров @Nipheris Куратор тега C#

Есть задача распарсить огромный XML файл (1ТБ) и занести данные в БД.

Вот можете для начала спросить у того, кто его записал, как он это сделал :D

Чёт три года много даже для 1ТБ

Написано более трёх лет назад
freeExec @freeExec

Не занимайтесь фигнёй, используйте osm2pgsql. И да, файл планеты будет импортироваться несколько дней.

Написано более трёх лет назад
freeExec @freeExec

Станислав Макаров, Потому что там вывод в консоль занимает времени больше чем сам парсинг.

Написано более трёх лет назад
Дмитрий Филиппов @HorrorInferno Автор вопроса

freeExec, я знаю про эту утилиту, не подружил я ее со своим сервером.

Написано более трёх лет назад
freeExec @freeExec

Дмитрий Филиппов, Тогда добавьте в вопрос, что в xml 3 блока и каждый последующий ссылается на все предыдущие.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

C#

+1 ещё

Простой
Как решить проблему database is locked?
- 1 подписчик
- 20 часов назад
- 59 просмотров
1

ответ
C#

Простой
C# и несколько CPU?
- 6 подписчиков
- 15 апр.
- 3088 просмотров
3

ответа
C#

+1 ещё

Простой
Как сделать смену обьекта при приближении?
- 1 подписчик
- 14 апр.
- 66 просмотров
1

ответ
Windows

+2 ещё

Простой
Как обеспечить относительный путь к БД SQLite?
- 1 подписчик
- 14 апр.
- 114 просмотров
3

ответа
XML

+1 ещё

Простой
Ошибка синтаксического анализа XML: префикс не связан c пространством имён (у поставщика RSS)?
- 1 подписчик
- 12 апр.
- 29 просмотров
1

ответ
C#

+1 ещё

Простой
Как понять что я выучил основы C#?
- 1 подписчик
- 12 апр.
- 450 просмотров
4

ответа
C#

+1 ещё

Средний
Почему не работают миграции при переходе на новый csproj формат?
- 1 подписчик
- 12 апр.
- 54 просмотра
1

ответ
C#

Простой
Что означает оператор => в linq c#?
- 1 подписчик
- 12 апр.
- 131 просмотр
2

ответа
C#

+1 ещё

Простой
Почему некорректно работает параметр маршрутизатора Razor Pages?
- 1 подписчик
- 11 апр.
- 52 просмотра
1

ответ
C#

Простой
Как сделать чтобы приложение для win ce открывалось на весь экран?
- 1 подписчик
- 11 апр.
- 50 просмотров
1

ответ
Показать ещё Загружается…

Разработчик C# (криптография)

Avanpost

от 200 000 ₽

Middle+ .Net(C#) developer

RateX

от 200 000 до 300 000 ₽

Middle C# developer

ЮГПА • Ростов-на-Дону

от 130 000 до 170 000 ₽

Аспирант/Преподаватель по Юриспруденции, Таможенному делу и ГМУ

18 апр. 2024, в 09:15

12000 руб./за проект

Аспирант/Преподаватель по Промышленному и гражданскому строительству

18 апр. 2024, в 09:12

15000 руб./за проект

Разработать мини-приложение Windows 7-11, Linux,Macos

18 апр. 2024, в 07:22

45000 руб./за проект

Есть задача распарсить огромный XML файл (1ТБ) и занести данные в БД.

Вот можете для начала спросить у того, кто его записал, как он это сделал :D

Чёт три года много даже для 1ТБ
Не занимайтесь фигнёй, используйте osm2pgsql. И да, файл планеты будет импортироваться несколько дней.
Станислав Макаров, Потому что там вывод в консоль занимает времени больше чем сам парсинг.
freeExec, я знаю про эту утилиту, не подружил я ее со своим сервером.
Дмитрий Филиппов, Тогда добавьте в вопрос, что в xml 3 блока и каждый последующий ссылается на все предыдущие.

Answer 1 · 2018-03-29 17:45:13

В добавок к сказанному у cicatrix
заменить циклы foreach на

Parallel.Invoke(() => DoSomeWork(), () => DoSomeOtherWork());

При помощи библиотеки Task-based Asynchronous Programming
Это избавит от необходимости в

Количество потоков подобрать под конкретное железо, либо (если есть желание заморочиться) можно сделать настраиваемым - начать с 4 потоков, считать среднюю скорость обработки узлов (кол-во узлов в минуту), вводить по одному потоку в минуту, измеряя, увеличилось ли время или уменьшилось. Если время увеличилось - возвращаем прежнее количество, если уменьшилось - добавляем ещё поток, пока не найдём оптимальный вариант.

Answer 2 · 2018-03-29 17:25:49

Я смотрю, у вас какой-то XML ридер особый. Многое зависит от его реализации, а именно - его потокобезопасности.
В принципе, у вас главный foreach можно распараллелить следующим образом:
Делаем по шаблону "производитель-потребитель"

Производитель у вас будет один - ваш ридер, который должен "поставлять" ссылки на отдельные узлы вашего файла. Потребителем должны стать потоки, хватающие первый попавшийся (и учтите это сразу - они будут хватать не по порядку, а именно - первый попавшийся узел) и парсящие их.
Количество потоков подобрать под конкретное железо, либо (если есть желание заморочиться) можно сделать настраиваемым - начать с 4 потоков, считать среднюю скорость обработки узлов (кол-во узлов в минуту), вводить по одному потоку в минуту, измеряя, увеличилось ли время или уменьшилось. Если время увеличилось - возвращаем прежнее количество, если уменьшилось - добавляем ещё поток, пока не найдём оптимальный вариант.

Как разбить парсинг XML файла на несколько потоков в C#?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт