@akimdi

Как удалить подстроки в строках в txt файле?

Есть текстовый файл user.js

https://gist.githubusercontent.com/anonymous/8b1e7...

в нем есть множество строк с повторяющимися подстроками.
Например есть 1189-ая строка
"user_pref("geo.wifi.uri", ""); // comments;"

и есть 12-ая строка
"user_pref("geo.wifi.uri", "");"

с точки зрения текстового редактора это разные строки, а с точки зрения логики это одинаковые строки.

И таких примеров(строк) там много.

Как сделать так, что бы удалить эти повторяющиеся строки?
  • Вопрос задан
  • 479 просмотров
Решения вопроса 1
longclaps
@longclaps
#!/usr/bin/python3
import re

ptrn = re.compile(r'^\s*user_pref\(([^\)]+)\);').search
unic = set()
with open("user.js", "r") as fi, open("user_nodup.js", "w") as fo:
    for s in fi:
        m = ptrn(s)
        if m:
            data = m.group(0)
            if data in unic:
                print(s, end="")  # duplicate
                continue
            unic.add(data)
        fo.write(s)
Ответ написан
Пригласить эксперта
Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации
Похожие вопросы