Как разделить текстовый файл на части с равным количеством строк?

Question

Pastun @Pastun

Windows

Как разделить текстовый файл на части с равным количеством строк?

Доброго времени суток.
Имеется текстовый файл, количество строк в исходном тексте неизвестно, может пятьдесят, а может тысыча.
Нужно разбить его на несколько частей, так, чтобы количество строк в выходных файлах было одинаково (ну ± одна строка). Количество частей задается в самом батнике.

Поскольку я плохо разбираюсь в CMD, навалял такую белиберду на пять частей:

spoiler

:movech
for %%I in (list.txt) do if %%~zI==0 (goto exit)

@echo off
setlocal enabledelayedexpansion
 
set file=list.txt
set first=1
set second=1
set out=V_Obrabotku1.txt
 
set counter=0
<nul set /p x=>>"%out%"
for /f "usebackq tokens=*" %%A IN ("%file%") DO (
 set /a counter=!counter!+1
 if !counter! GEQ %first% (
  if !counter! LEQ %second% (
   echo.%%A>>"%out%"
  )
 )
)

set n=1
set File_Src=list.txt
set file_Dest=textfile_out.txt
 
more +%n% < "%File_Src%" > "%file_Dest%"
move /y textfile_out.txt list.txt

::V_Obrabotku2

set file=list.txt
set first=1
set second=1
set out=V_Obrabotku2.txt
 
set counter=0
<nul set /p x=>>"%out%"
for /f "usebackq tokens=*" %%A IN ("%file%") DO (
 set /a counter=!counter!+1
 if !counter! GEQ %first% (
  if !counter! LEQ %second% (
   echo.%%A>>"%out%"
  )
 )
)

set n=1
set File_Src=list.txt
set file_Dest=textfile_out.txt
 
more +%n% < "%File_Src%" > "%file_Dest%"
move /y textfile_out.txt list.txt

::V_Obrabotku3

set file=list.txt
set first=1
set second=1
set out=V_Obrabotku3.txt
 
set counter=0
<nul set /p x=>>"%out%"
for /f "usebackq tokens=*" %%A IN ("%file%") DO (
 set /a counter=!counter!+1
 if !counter! GEQ %first% (
  if !counter! LEQ %second% (
   echo.%%A>>"%out%"
  )
 )
)

set n=1
set File_Src=list.txt
set file_Dest=textfile_out.txt
 
more +%n% < "%File_Src%" > "%file_Dest%"
move /y textfile_out.txt list.txt

::V_Obrabotku4

set file=list.txt
set first=1
set second=1
set out=V_Obrabotku4.txt
 
set counter=0
<nul set /p x=>>"%out%"
for /f "usebackq tokens=*" %%A IN ("%file%") DO (
 set /a counter=!counter!+1
 if !counter! GEQ %first% (
  if !counter! LEQ %second% (
   echo.%%A>>"%out%"
  )
 )
)

set n=1
set File_Src=list.txt
set file_Dest=textfile_out.txt
 
more +%n% < "%File_Src%" > "%file_Dest%"
move /y textfile_out.txt list.txt

::V_Obrabotku5

set file=list.txt
set first=1
set second=1
set out=V_Obrabotku5.txt
 
set counter=0
<nul set /p x=>>"%out%"
for /f "usebackq tokens=*" %%A IN ("%file%") DO (
 set /a counter=!counter!+1
 if !counter! GEQ %first% (
  if !counter! LEQ %second% (
   echo.%%A>>"%out%"
  )
 )
)

set n=1
set File_Src=list.txt
set file_Dest=textfile_out.txt
 
more +%n% < "%File_Src%" > "%file_Dest%"
move /y textfile_out.txt list.txt

Goto movech

:exit

Скрипт работает, но уж больно громоздкий, да и тысячу строк довольно долго обрабатывает.
Подскажите, пожалуйста, более изящное решение. Заранее спасибо.

Вопрос задан более трёх лет назад
16023 просмотра

4 комментария

Подписаться 1 Средний 4 комментария

Пригласить эксперта

Ответы на вопрос 3

4 комментария

tegrato @tegrato

Да, код перегружен, и работает не корректно - делит файл на части с хаотическим количеством строк - от 3 до 10 тыс, причем, в исходном файле было ~21 тыс строк.

Написано более года назад
Евгений @yellowmew

tegrato, ну так отдебажьте и покажите как исправить те проблемы, что найдете, без вашего файла я этого сделать все равно не смогу ))
с удовольствием отмечу как "ответ" ваше решение (если критиковать не захочется)

Написано более года назад
tegrato @tegrato

Евгений,
Специально для вас и для себя на будущее сохранил шпаргалку:
https://skalolaskovy.ru/comp-various/582-split-tex...
(Честно признаюсь, сам не смог написать, после часа не очень удачных экспериментов запросил помощь у гуру regexp. )

Написано более года назад
tegrato @tegrato

Евгений,
Если вам на самом деле интересно, что мне выдал ваш скрипт, могу повторить заново и прислать (хотя, если количество строк в итоговых файлах формируется случайным образом, то результат будет отличаться от вчерашней обработки).

Написано более года назад

Комментировать

1 комментарий

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Windows

+2 ещё

Простой
Для Windows 10 какой браузер по умолчанию использует меньше трафика?
- 1 подписчик
- 14 минут назад
- 19 просмотров
0

ответов
Python

+2 ещё

Простой
Почему Планировщик задач Windows 10 не выполняет скрипт Python?
- 3 подписчика
- 23 часа назад
- 682 просмотра
2

ответа
Linux

+2 ещё

Простой
Почему в наутилусе папка распаковывается за 1 секунду, а в Windows 1 минуту?
- 4 подписчика
- вчера
- 1754 просмотра
2

ответа
Windows

Простой
Из-за чего возникает ошибка (синий экран) в Windows 11 и после этого ошибка с Boot Device?
- 1 подписчик
- вчера
- 295 просмотров
1

ответ
Windows

+4 ещё

Простой
Программно гасить монитор в Windows (11). Как?
- 1 подписчик
- 20 апр.
- 211 просмотров
1

ответ
Windows

+4 ещё

Средний
Lenovo ThinkPad T480 Windows 11 Когда окончание поддержки драйверами?
- 1 подписчик
- 20 апр.
- 130 просмотров
6

ответов
Windows

Простой
Как открывать новые окна терминала и проводника на вкладках а не в новых окнах?
- 1 подписчик
- 19 апр.
- 70 просмотров
1

ответ
Windows

+2 ещё

Средний
Зарезервированная память, как решить проблему?
- 1 подписчик
- 19 апр.
- 205 просмотров
1

ответ
Windows

+1 ещё

Простой
После апдейта Win10 перестала видеть HDD 18TB, как починить?
- 1 подписчик
- 18 апр.
- 202 просмотра
2

ответа
MySQL

+1 ещё

Средний
Как восстановить базу данных mysql, если служба mysql не запускается на windows?
- 1 подписчик
- 18 апр.
- 101 просмотр
1

ответ
Показать ещё Загружается…

Оператор 1-я, 2-я линия техподдержки(поддержка клиентов)

MYRTEX

от 40 000 ₽

Системный администратор

Метта • Уфа

от 50 000 до 60 000 ₽

Специалист технической поддержки (чат)

WebSoft

от 50 000 до 50 000 ₽

Залить товары и опции на сайт Опенкарт

23 апр. 2024, в 10:05

5000 руб./за проект

Верстка и прикрутка к сайту нового дизайна

23 апр. 2024, в 10:05

5000 руб./за проект

Переделать скрипт на питоне (добавить прокси с авторизацией)

23 апр. 2024, в 09:39

500 руб./за проект

пробуй powershell или python.
cmd это для мазахистов

Answer 1 · 2018-10-03 08:23:01

забудьте про cmd
Powershell гораздо легче дастся вам в освоении.
пример для вашего случая

$file = get-content "путь к файлу"
$parts = 4 #количество частей
$lines = [math]::Round($file.Length/$parts) 
for ($i = 0; $i -le $parts; $i++) {
    $file | Select -Skip ($lines*$i/1) -First ($lines*($i+1)/1) | Set-Content -Path "путь к целевой папке\part_$i.txt"
}

Быстро он будет работать только в случае относительно небольших файлов. поскольку файл загружается в память полностью.
Если размер вашего файла идет на гигабайты - можете попробовать адаптировать под вас скрипт
https://stackoverflow.com/questions/1001776/how-ca...
В скрипте есть условие сравнения с размером целевых файлов - вы можете изменить его на условие сравнения с количеством строк в файле

Answer 2 · 2018-10-03 10:26:58

Нагромоздили кода вы не меряно, все это можно сделать гораздо компактнее.
Я не стал разбираться, т.к. реально много кода для такой задачи.

Из вашего описания не ясно как именно разбивать на строки:
1.брать первые несколько строк и писать в один файл, следующую порцию в другой и т.д.
2.берем одну строку кладем в первый файл, вторую - во второй и т.д., когда заканчиваются файлы начинаем снова с первого файла.

Пункт 2 реализовывается вообще элементарно в одном цикле чтения и с одним счетчиком файлов.
Пункт 1: нужно сначала подсчитать общее количество строк (можно циклом и счетчиком, а можно поиграть с find /c /v "" <имя файла>, понятно, что find будет работать гораздо быстрее, но не совсем понятно как find будет вести себя с пустыми строками, нужно поэксперименировать) и прикинуть по сколько строк будет приходиться на каждый из файлов. Затем с помощью for /f "skip=X" - читаем файл построчно с пропуском нужного количества строк, и подсчетом скопированных строк. Так же не сильно сложно. Я думаю, после ваших героических усилий вы сможете упростить ваш код.
Будут вопросы - кидайте сюда.

PS: PowerShell, конечно, гораздо мощнее, но его синтаксис кажется мне страшней, чем у батников, возможно это по тому, что то я язык cmd знаю, а пош до сих пор нет :-)

Answer 3 · 2021-02-26 22:47:13

Проще в воспользоваться готовым решением, зачем тратить время на написание батника? Это решение основано на HTML5, делит файлы размером несколько гигабайт за доли секунд.

Как разделить текстовый файл на части с равным количеством строк?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт