Почему при балансировке нагрузки через один шлюз идет больше трафика, чем через другой?

Question

Евгений Ферапонтов @e1ferapontov

Админю всякую виртуализацию

Почему при балансировке нагрузки через один шлюз идет больше трафика, чем через другой?

Выдержка из скрипта:

# Multi-wan routing settings
# ByFly routing settings

ip route add 192.168.111.0/30 dev eth1 src 192.168.111.2 table byfly
ip route add default via 192.168.111.1 table byfly

# BN routing settings

ip route add 192.168.110.0/30 dev eth2 src 192.168.110.2 table bn
ip route add default via 192.168.110.1 table bn

# Creating rules

ip rule add from 192.168.111.2 table byfly prio 1000
ip rule add from 192.168.110.2 table bn prio 1000

# Here's round robin to ensure that system started with at least one gateway

ip route add default scope global nexthop via 192.168.111.1 dev eth1 weight 1 nexthop via 192.168.110.1 dev eth2 weight 1

# GWPING call

nohup /usr/sbin/gwping &

Приоритеты одинаковые, вес маршрутов одинаковый, метрики у созданных маршрутов одинаковые. GWPING только переключает все на один шлюз в случае дисконнекта и возвращает все как было. Через eth1 всегда передается по меньшей мере в два раза больше трафика, чем по eth2. Куда копать?
P. S. попытался поменять их местами в round robin -- результат тот же.

Вопрос задан более трёх лет назад
3189 просмотров

Комментировать

Подписаться 5 Оценить Комментировать

Решения вопроса 1

4 комментария

Евгений Ферапонтов @e1ferapontov Автор вопроса

>повышенная утилизация одного из линков говорит о том, что есть flow высокой интенсивности
Сейчас машина стоит на тестовом стенде. Здесь нет вообще никакого трафика, кроме двух пингов, запускающихся для теста.

Написано более трёх лет назад
Евгений Ферапонтов @e1ferapontov Автор вопроса

Просто ping %ip_address% с самого сервера-маршрутизатора
Количественные характеристики трафика смотрю через 5 минут ifconfig'ом (tx/rx packets, bytes total), мгновенные значения утилизации линка смотрю bmon'ом.
Буду пробовать Ваш способ.

Написано более трёх лет назад
throughtheether @throughtheether

>Буду пробовать Ваш способ.
Если не затруднит, поделитесь потом результатами.

Написано более трёх лет назад
Евгений Ферапонтов @e1ferapontov Автор вопроса

@throughtheether: Простите за не скорый ответ. Все работает штатно: соединения делятся приблизительно поровну. Я просто не понимал принципов работы сетей и сетевого стека Linux.

Написано более трёх лет назад

Пригласить эксперта

Ответы на вопрос 1

4 комментария

Евгений Ферапонтов @e1ferapontov Автор вопроса

pastebin.com/JEHJAbN2
Вывод всех трех

Написано более трёх лет назад
tgz @tgz

Внешне все выглядит достойно. Тогда надо смотреть то, а чем пишет throughtheether.

Написано более трёх лет назад
Евгений Ферапонтов @e1ferapontov Автор вопроса

@tgz Есть еще один момент: eth1 и eth2 -- два разных сетевых адаптера, один от D-Link, другой от TP-Link, оба десктопного класса. Могут ли такие косяки быть из-за них?

Написано более трёх лет назад
tgz @tgz

Нет, что и как попадет в сетевой интерфейс решает исключительно ядро линукса. Вот та самая команда ip.

Написано более трёх лет назад

Ваш ответ на вопрос

Войдите, чтобы написать ответ

Войти через центр авторизации

Похожие вопросы

Компьютерные сети

+1 ещё

Простой
Почему не вижу трафик при зеркалировании портов (SPAN)?
- 1 подписчик
- час назад
- 11 просмотров
0

ответов
Компьютерные сети

+1 ещё

Простой
Правильно ли работае у меня sFlow и как понять этот трафик, который приходит?
- 1 подписчик
- час назад
- 15 просмотров
0

ответов
Linux

+2 ещё

Средний
Почему не получается произвести аутентификацию нод?
- 1 подписчик
- 2 часа назад
- 22 просмотра
0

ответов
Windows

+3 ещё

Простой
Как печатать через интернет с iphone на usb принтер подключенный к windows 7?
- 1 подписчик
- 4 часа назад
- 48 просмотров
1

ответ
Linux

+1 ещё

Простой
Как сделать так, чтобы программы не закрывались при входе системы в режим ожидания?
- 1 подписчик
- 5 часов назад
- 48 просмотров
0

ответов
Linux

+1 ещё

Простой
Что за файлы и как с ними жить дальше?
- 3 подписчика
- 6 часов назад
- 489 просмотров
1

ответ
Linux

+2 ещё

Простой
Почему в centos lvm не видит pv на shared iscsi lun?
- 1 подписчик
- 8 часов назад
- 37 просмотров
1

ответ
Компьютерные сети

+1 ещё

Средний
Как настроит передачу vlan в Mikrotik не используя бридж?
- 1 подписчик
- 8 часов назад
- 67 просмотров
1

ответ
Компьютерные сети

Средний
Как подключиться к оборудованию по IP через Radmin?
- 1 подписчик
- 10 часов назад
- 100 просмотров
1

ответ
Linux

+2 ещё

Простой
Как правильно настроить SSH и RDP через reverse ssh через третий хост?
- 1 подписчик
- 12 часов назад
- 63 просмотра
0

ответов
Показать ещё Загружается…

Программист C для Embedded Linux

Radiofid • Санкт-Петербург

от 120 000 до 180 000 ₽

Linux Администратор DevOps

ИМАГ • Москва

от 150 000 до 170 000 ₽

Программист C/C++ embedded Linux

РТК Автоматика • Москва

от 170 000 до 250 000 ₽

Требуется завершить backend (проектная работа)

25 апр. 2024, в 19:42

49000 руб./за проект

Проверить тест по Data Science

25 апр. 2024, в 19:41

2000 руб./за проект

Верстка сайта и натяжка на wordpress

25 апр. 2024, в 19:22

18000 руб./за проект

Answer 1 · 2014-06-27 16:16:04

Сразу отмечу, я невеликий специалист в сетевой подсистеме Linux. Я исхожу из следующих положений:
1) у вас, судя по всему, реализована схема Equal cost multi-path.
2) я предполагаю, что сетевую подсистему Linux реализовывали разумные люди, поэтому выбор исходящего маршрута производится per-flow, т.е. для каждого 'потока' данных ('поток' характеризуется IP-адресами источника назначения, типом протокола (IP protocol number), портами источника и назначения)

Почему при балансировке нагрузки через один шлюз идет больше трафика, чем через другой?

Вкратце, потому что балансировки трафика не наблюдается. В моем понимании балансировка - это когда мы отслеживаем один параметр ('нагрузку', будь то утилизация линка, количество соединений, что угодно) и соответственно изменяем другой параметр (исходящий маршрут, интерфейс, и т.д.), чтобы выровнять (привести в баланс) изменения, реализуя обратную связь. В этом смысле балансировка наблюдается в различных балансировщиках нагрузки (load balancers), типа F5, haproxy и прочая.

В вашем случае, скорее всего, трафик разделяется (load sharing) на основании того, к какому flow он принадлежит. Соответственно, повышенная утилизация одного из линков говорит о том, что есть flow высокой интенсивности (Elephant flow), т.е. большое количество пакетов имеет один и тот же хэш и направляется в один и тот же линк. Также могут быть нюансы с разделением трафика, порожденного самим хостом. Ну и всегда есть вероятность багов в ПО.

Куда копать?

Чтобы удостовериться правильности гипотезы, вы можете снять дамп трафика (в точке до разделения на линки) и изучить его при помощи wireshark (Statitics -> Conversations -> вкладки TCP, UDP, две правые колонки в bps). Если гипотеза верна, вы обнаружите пару сокетов, утилизирующих значительную долю пропускной способности линка.

Я также исходил из того, что вы показали актуальные настройки и у вас ровно два маршрута по умолчанию. Если вдруг затесался еще один, с тем же весом (с той же метрикой), то даже в идеальном случае разделение будет, скорее всего 1:1:2. Это обусловлено особенностями реализации ECMP.

TL;DR: Это не балансировка, это разделение трафика. Идеального разделения трафика пополам в общем случае добиться крайне затруднительно.

UPD:

Сейчас машина стоит на тестовом стенде. Здесь нет вообще никакого трафика, кроме двух пингов, запускающихся для теста.

Приведите, пожалуйтса, точные команды, которые вы запускаете. Уточните, запускаете ли вы их на самом сервере-маршрутизаторе с длвумя линками или на сторонней машине. Цели для пингов - отвечают ли они на пинги. Каковы точные количественные характеристики трафика на линках (интерфейс такой-то, столько-то входящего, столько-то исходящего), как вы его меряете (среднее значение за 1,5,10 минут)

Но даже без этих данных можно сказать, что ваш тест не вполне корректен. Per-flow хэширование оптимизировано под UDP и TCP трафик. Поэтому, рекомендую вам на машине за интерфейсов eth0 (и корректно прописанным default gateway) сгенерировать при помощи hping UDP-трафик с рандомизированными адресами источника и назначения, портами источника и назначения. Если в этом случае трафик распределится примерно равномерно, то все работает штатно.

Answer 2 · 2014-06-27 16:12:44

tgz @tgz

Покажите
ip a
ip ru li
ip r

Ответ написан более трёх лет назад

4 комментария

Почему при балансировке нагрузки через один шлюз идет больше трафика, чем через другой?

Войдите, чтобы написать ответ

Минуточку внимания

Войдите на сайт