Как вытащить данные по конкретному разделителю?

Question

ksvdon @ksvdon

Как вытащить данные по конкретному разделителю?

Первоначально я решил проблему на bash при помощи cut,sed. Но работает эта штука примерно час т.к. объемистые файлы обрабатывает. Решил переделать на Python.

обрабатываемый текст может выглядеть примерно так:

слова какие-то 4234 цифры буквы что угодно символы - + 
и табличка:
|текст   |452 | цифры | пробелы    |

То, что я написал уже - смотрит на первый символ строки. Если первый символ "|", то значит перед нами нужная строка (элемент таблицы) и её надо обработать. В идеале я хочу получить список списков (каждая строка таблицы список в общем списке "таблице"), где элементы списка [['слово', '234', 'слово'], ['слово', '234', 'слово']] будут без пробелов и без пустых элементов. И если какой-то элемент между разделителями в табличке пуст, то его надо бы просто пропустить, если слово/цифра между разделителями не заполнило все пространство между разделителями и есть пробел - надо бы от пробела избавиться. Но на практике я получаю что-то вроде списка списков [[' ', 'слово_и_пробел ', ' '],['123', ' ' ,' слово и_чертов_пробле' ]] надо бы как-то предусмотреть, что мне нужны элементы списков: "любые символы между разделителями, кроме пробела и кроме пустоты". Но вот что-то пока не могу догнать как это описать у себя. Не знаком с регекспами питона и вообще слабо знаю питон пока что.

#!/usr/bin/python

import sys
import re
import os

towrl = sys.argv[1]

dodestlip = []
destlip = open(towrl, "r")
dodestlip = destlip.readlines()
length1 = len(dodestlip)
destlip.close()

respa = []
for I in range(length1):
    mregexp = re.compile( '^\|' )
    if len(mregexp.findall( dodestlip[I] )) != 0:
        mregexp = re.compile( r"[|]" )
        respa.append(mregexp.split( dodestlip[I] ))
print respa

какие есть варианты?

Вопрос задан более трёх лет назад
374 просмотра

2 комментария

Подписаться 3 Оценить 2 комментария

Владислав @Hateman31

маленький вопрос: а зачем length1 ?? Почему сразу не идти циклом по dodestlip???

Написано более трёх лет назад

Владислав @Hateman31

Имхо, но код должен выглядеть как-то так.
По сабжу, мне, к сожалению, ответить нечего

#!/usr/bin/python

import sys
import re
import os

towrl = sys.argv[1]

with open(towrl, "r") as f:
	dodestlip = f.readlines()

respa = []
for I in dodestlip:
    mregexp = re.compile('^\|')
    if mregexp.findall(I):
        respa.append(re.compile( r"[|]" ).split(I))
print(respa)

Написано более трёх лет назад

Решения вопроса 2

2 комментария

5 комментариев

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Python

Простой
Как исправить проблему с установкой torch?
- 1 подписчик
- 2 часа назад
- 36 просмотров
0

ответов
Python

+1 ещё

Средний
Как навести мышь внутри приложения?
- 1 подписчик
- 5 часов назад
- 35 просмотров
0

ответов
Python

+1 ещё

Простой
Как пройти авторизацию на youtube с помощью selenium?
- 1 подписчик
- 11 часов назад
- 40 просмотров
2

ответа
Python

+2 ещё

Простой
Как установить 2 версии libssl в kubuntu 22.04?
- 2 подписчика
- 21 час назад
- 158 просмотров
0

ответов
Python

Простой
Как в библиотеке Flet при нажатии на кнопку сделать, чтобы появилось всплывающее окно?
- 1 подписчик
- 21 час назад
- 24 просмотра
0

ответов
Python

+1 ещё

Сложный
Интерпретация результатов модели lambdamart?
- 1 подписчик
- 23 часа назад
- 35 просмотров
0

ответов
Python

Простой
Как в конце каждой строки файла добавить тэг?
- 1 подписчик
- вчера
- 136 просмотров
1

ответ
Python

+1 ещё

Простой
Почему asyncio.current_task() не передается в функцию?
- 1 подписчик
- вчера
- 93 просмотра
1

ответ
Python

+2 ещё

Простой
Срабатывает антивирус на скомпилированный файл python, как исправить?
- 1 подписчик
- 22 апр.
- 207 просмотров
1

ответ
Python

Простой
Почему не срабатывает if? как это пофиксить?
- 1 подписчик
- 22 апр.
- 150 просмотров
2

ответа
Показать ещё Загружается…

Team Lead (С++, Python)

TopAssistant • Москва

от 400 000 ₽

Python developer

Bell Integrator

До 350 000 ₽

Python developer

Greenway Global • Новосибирск

от 150 000 ₽

Дизайн ios приложения утилиты

25 апр. 2024, в 12:20

15000 руб./за проект

Куплю аккаунт Linkedin

25 апр. 2024, в 12:08

300 руб./за проект

Помощь СММ-специалиста

25 апр. 2024, в 11:49

25000 руб./за проект

маленький вопрос: а зачем length1 ?? Почему сразу не идти циклом по dodestlip???
Имхо, но код должен выглядеть как-то так.
По сабжу, мне, к сожалению, ответить нечего
#!/usr/bin/python import sys import re import os towrl = sys.argv[1] with open(towrl, "r") as f: dodestlip = f.readlines() respa = [] for I in dodestlip: mregexp = re.compile('^\|') if mregexp.findall(I): respa.append(re.compile( r"[|]" ).split(I)) print(respa)

Answer 1 · 2015-05-27 00:46:47

Нужно больше примеров по вашим входным данным и тому, что должно получаться.

Мне кажется re здесь излишний. Попробуйте так:

#coding: utf-8

row = u'|text   |452 | digits |     |'
cells = [cell.strip() for cell in row.split('|') if cell.strip()]
print cells

Результат:
['text', '452', 'digits']

Answer 2 · 2015-05-27 12:35:10

Илья @766dt

import sys

print([
	[
		cell.strip() for cell in line.split('|') if cell.strip()
	] for line in open(sys.argv[1], "r") if line.startswith('|')
])

Ответ написан более трёх лет назад

5 комментариев

Как вытащить данные по конкретному разделителю?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт