Как из текстового файла БЫСТРО создать заданное количество файлов с заданным количеством строк Python?

Question

Алексей @Ger4

Python

Как из текстового файла БЫСТРО создать заданное количество файлов с заданным количеством строк Python?

Интересует самая оптимальная методика решения такой задачи на Python (оптимальность определяется скоростью выполнения всех итераций)

Входные данные: указываем текстовый файл с большим количеством строк (количество неизвестно), нуказываем файл со строками-названиями подпапки и сколько в исходящих файлах должно быть строчек (задается не четкое число, а минимум и максимум)

В итоге скрипт должен самым быстрым способом сделать количество файлов (количество равно количество строк файла со строками-названиями) с одинаковым именем и распихать их по папкам (имя папки брать из текущей строки-названия). Важно: в исходящем файле строки не должны повторяться (одна строка уникальна на весь файл).

Например: есть файл names.txt (в нём 1 000 000 строк), есть файл cities.txt
Содержимое файла cities.txt:
Москва
Абакан
Тверь
Питер

Мы указываем эти два файла и говорим, что должно быть от 1000 до 1200 строк.

На выходе получаем папки: Москва, Абакан, Тверь, Питер в каждой из которых есть файл name.txt в котором содержится от 1000 до 1200 уникальных внутри файла строк, которые взяты из файла names.txt ПРОИЗВОЛЬНО

Вопрос задан более трёх лет назад
3416 просмотров

Комментировать

Подписаться 2 Оценить Комментировать

Пригласить эксперта

Ответы на вопрос 2

Комментировать

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Средний
Как из проекта на python RenPY сделать установщик?
- 1 подписчик
- 18 минут назад
- 1 просмотр
0

ответов
Python

+2 ещё

Простой
Как сделать простой калькулятор в боте, через сбор данных от пользователя?
- 1 подписчик
- 33 минуты назад
- 8 просмотров
0

ответов
Python

+3 ещё

Простой
С чем и как есть gRPC?
- 1 подписчик
- 2 часа назад
- 32 просмотра
1

ответ
Python

+1 ещё

Простой
Как увеличить паузу между отправкой запроса и получением результата?
- 1 подписчик
- 6 часов назад
- 61 просмотр
2

ответа
Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 9 часов назад
- 54 просмотра
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 11 часов назад
- 42 просмотра
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 18 часов назад
- 58 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- вчера
- 166 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- вчера
- 29 просмотров
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- вчера
- 36 просмотров
0

ответов
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Разработка дизайна для мобильного приложения

25 апр. 2024, в 18:47

2795100 руб./за проект

Ищем программиста для поддержки сайта на PHP Laravel/Symfony

25 апр. 2024, в 18:36

10000 руб./за проект

Доработка мобильного приложения React Native iOS/Android

25 апр. 2024, в 18:32

50000 руб./за проект

Answer 1 · 2014-12-25 14:54:25

На мой взгляд лучшим решением будет прочитать большой файл names.txt в list и, соответственно, держать его в памяти.

Ну а дальше дело техники. Читаем построчно файл с городами. Для каждого города создаём папку с соответствующим именем. В папке файл name.txt. В него осуществяем построчную запись случайной строки из исходного файла с проверкой на дублирование.

Структуру файла cities.txt я принял такую: [город]|[количество строк для города]

москва|1000
санкт-петербург|1100

__author__ = 'kascode'
from random import randint
import os

source = open('names.txt', 'r')

sourcelines = source.readlines()
sourcelineslen = len(sourcelines)

def readCities():
    with open('cities.txt', 'r') as f:
        citylines = f.readlines()

    citieslist = []
    
    # заполняем список данными в формате [['город'], ['число строк']] 
    for line in citylines:
        citieslist.append(line.split('|'))

    return citieslist

for city in readCities():
    # создаём папку с именем города
    if not os.path.exists(city[0]):
        os.makedirs(city[0])

    file = city[0] + '/name.txt'
    cityout = open(file, 'w')
    written = []        # массив записанных строк

    # записываем столько строк, сколько указано для города
    for i in range(1, int(city[1])):
        # берём случайную строку из исходного списка
        sourceline = sourcelines[randint(0, sourcelineslen-1)]
        
        # берём новую пока не найдём не дублирующую
        while sourceline in written:
            sourceline = sourcelines[randint(0, sourcelineslen-1)]

        cityout.write(sourceline)
        written.append(sourceline)

На моей машине обработка файла в 10000000 строк длиной 10-50 символов заняла 0,21с.

Answer 2 · 2015-12-29 04:25:02

Вопрос интересный и если еще актуален.
Был вариант каждый раз смешивать исходный массив данных (текстовый файл с большим количеством строк) и брать случайное количество в заданном промежутке в файл names.txt.
В итоге скрипт просит указать БОЛЬШОЙ файл, файл ИМЕН и ПРОМЕЖУТОК. Создаются папки из файла ИМЕН во временной директории "out_log", в каждый файл случайным образом, без повторов, вносятся строчки из БОЛЬШОГО файла.
Тестировал на машине под Fedora 20 Workstation
CPU Intel(R) Core(TM) i7-3770S CPU @ 3.10GHz
RAM Kingstone KHX1600C10D3/8GX 16Gb Speed: 1333 MHz
OSHDD Intel SSD 520

На обработку списка из Всех городов России и 120,000,000 исходных строках в промежутку 1000-1200 ушло 0.50с

#! /usr/bin/env python
# File:          rndappend.py
#
# Created:       Sat 20 Dec 2014 16:05:30
# Last Modified: Mon 29 Dec 2014 01:21:58
# Maintainer:    sharlatan, <sharlatanus@gmail.com>
# License:       Same as Python (GPL)
# Credits:       www.toster.ru/q/166037
#
"""
-=[ Description
The idea of this script (Scr) is taken from www.toster.ru. We give  to the Scr
file of names.txt (more then 1kk lines, file of cities.txt (up to 100) and
numbert in some range. 
Create files from cities.txt and copy random <lines> from <source> to them.

"""


import os
import sys
from random import randint


LOC_PATH = "out_log"
if not os.path.exists(LOC_PATH):
    os.makedirs(LOC_PATH)


def mk_f(dir_name, stuff):
    # Create <dir_name> in <LOC_PATH> with <names.txt> fild with <stuff>
    path_to_bask = os.getcwd()
    new_path = os.path.join(LOC_PATH, dir_name)
    os.makedirs(new_path)
    os.chdir(new_path)

    with open('names.txt', 'w') as f:
        for c in stuff:
            f.write("%s\n" % c)
        f.close()
    os.chdir(path_to_bask)


def read_f(file_in):
    # Read file and retun list of lines without empty items
    with open(file_in, 'r') as f:
        file_out = f.read().split('\n')
    return file_out[:-1]


def rnd_chunk(into_list, min_piece, max_piece):
    # Return random lines from <into_list> withing given range
    out_list = []
    item_quantity = randint(min_piece, max_piece)
    into_list_len = len(into_list)
    while True:
        if len(out_list) != item_quantity:
            put_in = into_list[randint(0,into_list_len-1)]
            if put_in not in out_list:
                out_list.append(put_in)
        else:
            return out_list


def usage():
    #  Show the usage of the script
    file_name = sys.argv[0]
    print ("""\nIncorrect quantity of arguments given or unexisting files
Usage: %s <source file> <cities file> <lines MIN-MAX>\n""" % file_name)


def main():
    """
    Check arguments, for quantity given, for existence of files, for given
    length of <lines>
    """
    if len(sys.argv) != 4:
        usage()
        quit()
    elif os.path.isfile(sys.argv[1]) != True \
       or os.path.isfile(sys.argv[2]) != True:
        usage()
        quit()

    # Take all varialbe from argv
    GET_PIEACE = sys.argv[3].split("-")
    PIECE_MIN = int(GET_PIEACE[0])
    PIECE_MAX = int(GET_PIEACE[1])
    CITIES = read_f(sys.argv[2])
    SOURCE = read_f(sys.argv[1])

    for city_name in CITIES:
        mk_f(city_name, rnd_chunk(SOURCE, PIECE_MIN, PIECE_MAX))

if __name__ == '__main__':
    main()

Как из текстового файла БЫСТРО создать заданное количество файлов с заданным количеством строк Python?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт