Как вытащить данные по конкретному разделителю?

Question

ksvdon @ksvdon

Как вытащить данные по конкретному разделителю?

Первоначально я решил проблему на bash при помощи cut,sed. Но работает эта штука примерно час т.к. объемистые файлы обрабатывает. Решил переделать на Python.

обрабатываемый текст может выглядеть примерно так:

слова какие-то 4234 цифры буквы что угодно символы - + 
и табличка:
|текст   |452 | цифры | пробелы    |

То, что я написал уже - смотрит на первый символ строки. Если первый символ "|", то значит перед нами нужная строка (элемент таблицы) и её надо обработать. В идеале я хочу получить список списков (каждая строка таблицы список в общем списке "таблице"), где элементы списка [['слово', '234', 'слово'], ['слово', '234', 'слово']] будут без пробелов и без пустых элементов. И если какой-то элемент между разделителями в табличке пуст, то его надо бы просто пропустить, если слово/цифра между разделителями не заполнило все пространство между разделителями и есть пробел - надо бы от пробела избавиться. Но на практике я получаю что-то вроде списка списков [[' ', 'слово_и_пробел ', ' '],['123', ' ' ,' слово и_чертов_пробле' ]] надо бы как-то предусмотреть, что мне нужны элементы списков: "любые символы между разделителями, кроме пробела и кроме пустоты". Но вот что-то пока не могу догнать как это описать у себя. Не знаком с регекспами питона и вообще слабо знаю питон пока что.

#!/usr/bin/python

import sys
import re
import os

towrl = sys.argv[1]

dodestlip = []
destlip = open(towrl, "r")
dodestlip = destlip.readlines()
length1 = len(dodestlip)
destlip.close()

respa = []
for I in range(length1):
    mregexp = re.compile( '^\|' )
    if len(mregexp.findall( dodestlip[I] )) != 0:
        mregexp = re.compile( r"[|]" )
        respa.append(mregexp.split( dodestlip[I] ))
print respa

какие есть варианты?

Вопрос задан более трёх лет назад
374 просмотра

2 комментария

Подписаться 3 Оценить 2 комментария

Владислав @Hateman31

маленький вопрос: а зачем length1 ?? Почему сразу не идти циклом по dodestlip???

Написано более трёх лет назад

Владислав @Hateman31

Имхо, но код должен выглядеть как-то так.
По сабжу, мне, к сожалению, ответить нечего

#!/usr/bin/python

import sys
import re
import os

towrl = sys.argv[1]

with open(towrl, "r") as f:
	dodestlip = f.readlines()

respa = []
for I in dodestlip:
    mregexp = re.compile('^\|')
    if mregexp.findall(I):
        respa.append(re.compile( r"[|]" ).split(I))
print(respa)

Написано более трёх лет назад

Решения вопроса 2

2 комментария

5 комментариев

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Какой модуль выбрать для проекта Python?
- 1 подписчик
- час назад
- 31 просмотр
0

ответов
Python

Средний
Как написать чекер log:pass Roblox на питоне или BAS?
- 1 подписчик
- 2 часа назад
- 28 просмотров
1

ответ
Парсинг

+1 ещё

Средний
Как на сегодняшний день интернет-магазины парсят товары?
- 1 подписчик
- 3 часа назад
- 50 просмотров
2

ответа
Python

+1 ещё

Простой
Как перебрать все теги path в svg картинке?
- 1 подписчик
- 4 часа назад
- 26 просмотров
0

ответов
Python

+1 ещё

Простой
В Visual Studio Code иногда вылезает ошибка при запуске python файла — can't open file errno 2 no such file or directory?
- 1 подписчик
- 5 часов назад
- 23 просмотра
0

ответов
Python

Простой
Unknown sid vk auth.sign up что делать?
- 1 подписчик
- 9 часов назад
- 22 просмотра
0

ответов
Python

Простой
Почему datetime выдает не верное текущее время?
- 1 подписчик
- 21 час назад
- 66 просмотров
1

ответ
Python

+1 ещё

Простой
PyMongo. Как вставить в коллекцию объект если его нет, и обновить поле если он есть?
- 1 подписчик
- 21 час назад
- 20 просмотров
0

ответов
Python

+2 ещё

Простой
Существует ли таймер которым можно управлять с другого компьютера?
- 1 подписчик
- вчера
- 64 просмотра
1

ответ
Python

Простой
Как работает locals() в python?
- 1 подписчик
- вчера
- 82 просмотра
3

ответа
Показать ещё Загружается…

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

TeamLead Python

AGIMA • Москва

До 350 000 ₽

Разобраться с ошибками сборки Solana смарт-контракта на Rust

10 мая 2024, в 19:24

8000 руб./за проект

Доработать логотип для Студии массажа и SPA (в векторе)

10 мая 2024, в 19:09

1200 руб./за проект

NodeJS, Postgree, PostMan реализация API серверной части

10 мая 2024, в 18:22

8000 руб./за проект

маленький вопрос: а зачем length1 ?? Почему сразу не идти циклом по dodestlip???
Имхо, но код должен выглядеть как-то так.
По сабжу, мне, к сожалению, ответить нечего
#!/usr/bin/python import sys import re import os towrl = sys.argv[1] with open(towrl, "r") as f: dodestlip = f.readlines() respa = [] for I in dodestlip: mregexp = re.compile('^\|') if mregexp.findall(I): respa.append(re.compile( r"[|]" ).split(I)) print(respa)

Answer 1 · 2015-05-27 00:46:47

Нужно больше примеров по вашим входным данным и тому, что должно получаться.

Мне кажется re здесь излишний. Попробуйте так:

#coding: utf-8

row = u'|text   |452 | digits |     |'
cells = [cell.strip() for cell in row.split('|') if cell.strip()]
print cells

Результат:
['text', '452', 'digits']

Answer 2 · 2015-05-27 12:35:10

Илья @766dt

import sys

print([
	[
		cell.strip() for cell in line.split('|') if cell.strip()
	] for line in open(sys.argv[1], "r") if line.startswith('|')
])

Ответ написан более трёх лет назад

5 комментариев

Как вытащить данные по конкретному разделителю?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт