Как сравнить 2 файла grep?

Question

Сергей @Yestestvenno

Системный администратор

Как сравнить 2 файла grep?

Есть 2 файла в одному милион записей в другом 500 милионов

оба файла одинаковой структуры но отличаются данными

Семь столбцов расделяемые комой $1,$2,$3,$4,$5,$6,$7
пример

хххххххх, хххххх,хххххх,хххххх,хххххх,ххххх,хх
хххххххх, хххххх,хххххх,хххххх,хххххх,ххххх,хх
хххххххх, хххххх,хххххх,хххххх,хххххх,ххххх,хх

нужно во втором файле найти строки (и вывести всю строку в файл) у которых совпадает $1 и $3 но другой $6
в первойм файле $6=q1 во втором $6=q1-q3
столбец $1 всегда начинается с 9

решение есть но выполнение скрипта = неделя
nano /tmp/comand
#отфильтровал файл 2 убрав значения $6=q1
grep -E "^9.*q2|^9.*q3" /tmp/file2.txt > /tmp/file22.txt
# Преобразование в исполняющий файл с поиском по 1 и 3 столбцу из исходного файла
cat /tmp/file22.txt | awk -F"," '{print "grep -E \"" $1 ".*" $3 ".*q2" "|" $1 ".*" $3 ".*q3" "\"" " /tmp/file1.txt >> /tmp/results.txt"}' > /tmp/comand
#очищення файла
cat /dev/null > /tmp/results.txt
сохраняем с именем /tmp/comand, делаем исполняемым chmod +x /tmp/comand, запускаем ./tmp/comand

помогите сделать быстрее, или раскритикуйте вдребезги мой нубовской подход, прошу толчек в нужном направлении.

P.S. если бы не нужно было вывыодить всю строку из файла 2 проблема думаю решилась бы с помощю
comm -2 file1 file2 > file3 но не факт :)

Вопрос задан более трёх лет назад
2807 просмотров

1 комментарий

Подписаться 1 Оценить 1 комментарий

Решения вопроса 4

Комментировать

3 комментария

Сергей @Yestestvenno Автор вопроса

Простите не совсем точно обяснил
в 1 файле 1 столбец уникальный таких записей милинон 3й столбец не уникальный на милион уникальных где то 2000(мешать нельзя, и во втором файле есть много записей $1 но с другими $3 и $6)

вот а теперь нужно взять вот это сочетание $1 и $3 найти его в 2 файле и отбросить те где $6=q1 а результат в файл

к сожелению поэтапность тут не поможет(((((

Написано более трёх лет назад
Сергей @Yestestvenno Автор вопроса

cat /tmp/file22.txt | awk -F"," '{print "grep -E \"" $1 ".*" $3 ".*q2" "|" $1 ".*" $3 ".*q3" "\"" " /tmp/file1.txt >> /tmp/results.txt"}' > /tmp/comand
эта команда какраз и делает то что вы предложили берет 1 и 3 столбцы из 1 файла и значение для 6 столбца и ищет их в файле 2

Написано более трёх лет назад
Руслан Федосеев @martin74ua Куратор тега Linux

это вы так думаете, что не поможет ;)
дайте пример, поколдую...

Написано более трёх лет назад

Комментировать

7 комментариев

Saboteur @saboteur_kiev Куратор тега Linux

а чем не подошел мой вариант с ассоциативными массивами? При использовании ассоциативных массивов, вам не нужно выполнять полный перебор, код выглядит гораздо меньше и более читабельным, ну и вообще быстрее работает, меньше памяти требует.

Написано более трёх лет назад
Сергей @Yestestvenno Автор вопроса

Ваш вариант мне очень понравился но он не работал, возможно я не совсем правильно понял как это работает

дело в том что мне нужно сравнить:
есть 2 файла в каждом 5 столбцов
мне нужно взять n-й елемент первого столбца сравнить его со всеми значениями первого столбца втогого файла
если да то тогда сравнить 3 если да то тогда сравнить 4 если нет тогда на печать
if ($a0==$a1 && $c0==$c1 && $d0==$d1) {
print

Написано более трёх лет назад
Сергей @Yestestvenno Автор вопроса

Если это можно сделать с помощю "ассоциативными массивами" будет очень круто но вот применил и
х на практике и данные неверные получаю

Написано более трёх лет назад
Saboteur @saboteur_kiev Куратор тега Linux

Та были использованы ассоциативные массивы.
То есть вместо числового индекса элемента, я использую значение первого столбца как индекс, и мне не нужно выполнять поиск по всем элементам - само значение элемента и есть индекс, и я сравниваю только 3 и 4 столбец, без поиска элементов.

А не работать оно может, если у вас в первом столбце не уникальные значения, то есть если они могут повторяться. Тогда да, будут перезаписываться и логика нарушается, и мой вариант нужно дорабатывать. Но если ваш код работает, то никаких проблем. Перл полезен чтобы затыкать дырки ), хотя я бы рекомендовал использовать более интуитивно-понятные имена переменных, иначе через 2-3 недели вы сами в нем не разберетесь.

Написано более трёх лет назад
Сергей @Yestestvenno Автор вопроса

Да, значения первого столбца не уникальные, болше того они повторяются раз на 5-10 милионов, значения 3 и 5 столбика тоже повторяются но чаще

по поводу названий масивов согласен у меня там коментарии стоят(чтобы не забыть) использую обезличивание потому как нужен скрипт шаблон для 6 похожих задач

Написано более трёх лет назад
Сергей @Yestestvenno Автор вопроса

for ($i = 1; $i <= $n; $i++) {
for ($j = 1; $j <= $m; $j++) {
($a0, $b0, $c0, $d0, $e0)=split(",",$array0[$i]);
($a1, $b1, $c1, $d1, $e1)=split(",",$array1[$j]);
if ($a0==$a1 && $c0==$c1 && $d0!=$d1) {
print array1[$j];
}
}

как решить это с помощью ассоциативных массивов?
Добавить в начало порядковый номер строки и использовать его как индификатор строки?

Написано более трёх лет назад
Сергей @Yestestvenno Автор вопроса

прочитал мануалы и сделал с помощью ассоциативных массивов, обработка милиарда значений происходит в 4 раза быстрее))))

Написано более трёх лет назад

Пригласить эксперта

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

bash

Простой
Как работает двойное тире «--»?
- 1 подписчик
- 9 часов назад
- 71 просмотр
1

ответ
Linux

+2 ещё

Простой
Какие названия у столбцов таблицы, которая выводится после работы утилиты last?
- 1 подписчик
- 10 часов назад
- 38 просмотров
1

ответ
Linux

+1 ещё

Простой
Как сменить с Toplevel на иконку?
- 1 подписчик
- 04 мая
- 64 просмотра
1

ответ
Linux

+1 ещё

Средний
Как исправить ошибки при запуске arch linux?
- 1 подписчик
- 04 мая
- 78 просмотров
0

ответов
Linux

+1 ещё

Средний
Как добиться нормальной скорости чтения microSD через встроенный картридер на Debian?
- 3 подписчика
- 04 мая
- 419 просмотров
2

ответа
Linux

+3 ещё

Средний
Как запустить установленную на физический диск систему в виртуальной машине?
- 1 подписчик
- 03 мая
- 200 просмотров
1

ответ
Linux

Простой
Какой линукс выбрать дата инженеру?
- 1 подписчик
- 03 мая
- 270 просмотров
6

ответов
Linux

+2 ещё

Средний
Linux (Любой). Xiaomi Book Pro 14. Что делать, если тачпад, иногда, после скролла считывает фантомное нажатие?
- 1 подписчик
- 02 мая
- 113 просмотров
0

ответов
Linux

+2 ещё

Простой
Как добавить количество wc -l в конец строки в виде значения?
- 1 подписчик
- 02 мая
- 98 просмотров
1

ответ
Linux

+2 ещё

Простой
Как изменить способ сжатия deb пакетов по умолчанию с zstd на xz?
- 1 подписчик
- 02 мая
- 97 просмотров
1

ответ
Показать ещё Загружается…

Программист C/C++ embedded Linux

РТК Автоматика • Москва

от 170 000 до 250 000 ₽

Системный инженер/ DevOps (удаленно)

Git in Sky

До 200 000 ₽

Backend-разработчик (Middle-to-Senior)

Сима-ленд • Екатеринбург

До 300 000 ₽

Разработать сайт-визитку для организации

07 мая 2024, в 09:41

1000 руб./за проект

Работа с кодами игрового движка (С++)

07 мая 2024, в 08:39

2000 руб./за проект

Конвертировать программное обеспечение в приложение для Android

07 мая 2024, в 08:29

9000 руб./за проект

нужно во втором файле найти строки (и вывести всю строку в файл) у которых совпадает $1 и $3 но другой $6
в первойм файле $6=q1 во втором $6=q1-q3
столбец $1 всегда начинается с 9

Это не описание, а какая-то ахинея, по которой можно написать сто разных программ.

Приведи лучше уменьшенные исходные файлы (по паре строк каждый) и файл с результатом, который должен из них получиться.

Answer 1 · 2015-11-03 19:46:57

на Perl:

#/usr/bin/perl
open(FILE1,"a.txt");
open(FILE2,"b.txt");

foreach $line (<FILE1>) {
 chomp $line;
 ($a, $b, $c, $d, $e, $f, $g)=split(",",$line);
  $array{$a}{$c}=$f;
}

foreach $line (<FILE2>) {
 chomp $line;
 ($a, $b, $c, $d, $e, $f, $g)=split(",",$line);
  if ($array{$a}{$c}!=$f) {
    print "$line, [differs from: $array{$a}{$c}]\n";
  }
}

Укажите первым файлом тот, что поменьше.

Answer 2 · 2015-11-03 19:04:02

первым проходом выделяем из второго файла все строки, в которых есть совпадения по первому столбцу, вторым проходом выделяем совпадения по третьему столбцу, третьим исключаем ненужное по 6-му столбцу.

если можно - примеры файлов по несколько сотен строк дайте мылом, попробую написать

Answer 3 · 2015-11-03 19:24:55

Строки с несовпадающим $6 вы уже выкинули.
Перегоняем оба файла в формат $1,$3, отбрасывая прочую информацию и убирая дубли.
Сортируем, находим пересечение этих файлов.
Перегоняем второй в формат $1,$3,$2,$4,$5,$6,$7 и сортируем.
На своем любимом языке программирования открываем этот файл (1) и файл пересечений (2), сравнивая текущую строку в файле (2) с началом текущей строки в файле (1).
Если они совпадают - выводим, переставив столбцы.
Если нет - читаем следующую строку из файла, строка в котором оказалась меньше другого (данные-то отсортированы).
В один проход получаем результат, никаких недель.

Answer 4 · 2015-11-09 11:49:46

Огромное спасибо за идеи по решению, решил осваивать perl =)
Сергей спасибо вам .... немного почитал переделал и вуаля готово)))

Adamos Руслан Федосеев и вам спасибо применил ваши советы для предварительной подготовки файла к запуску основного скрипта в других его вариациях (не представленно ниже)

Вот такое страшненькое написал, покритикуйте пожалуйста!
#!/usr/bin/perl
# Содержимое файла test1.pl
open(FILE0,"0.txt") || die "Файл 0 не найден!";
open(FILE1,"1.txt") || die "Файл 1 не найден!";
############# записываем файлы в масивы array0\array1 и читаем количество строк n\m
$n=0;
foreach $line0 () {
chomp $line0;
$n=$n+1;
$array0[$n]=$line0;
#print "$array0[$n]\n"
}
#print "$n\n";
$m=0;
foreach $line1 () {
chomp $line1;
$m=$m+1;
$array1[$m]=$line1;
#print "$array1[$m]\n"
}
#print "$m\n";
############# перебираем каждую строку масива array0 и сопоставляем ее с каждой строкой масива array1 если проходит условия if то дозаписываем значение $i масива array1 в $j масива array3
############# для каждого значения масива array0 выводим значения array0 + строки array1 (как масив array3) которые проходят условия
open (rFILE, '>r.txt');
for ($i = 1; $i <= $n; $i++) {
$array3[$i]="";
for ($j = 1; $j <= $m; $j++) {
($a0, $b0, $c0, $d0, $e0)=split(",",$array0[$i]);
($a1, $b1, $c1, $d1, $e1)=split(",",$array1[$j]);
if ($a0==$a1 && $c0==$c1 && $d0!=$d1) {
#print "$array0[$i],$array1[$j]\n";
#print "$a0, $a1\n";
$array3[$i]="$array3[$i], $array1[$j]"
}
}
print rFILE "$array0[$i] $array3[$i]\n";
print "$array0[$i] $array3[$i]\n";
}

Как сравнить 2 файла grep?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт