Я бы сделал 2 картинками в 2 слоя.
1. Нижний слой - JPG с людьми
2. Верхний слой - PNG c текстом и сносками
Вся эта конструкция вполне нормально будет адаптироваться с помощью background-size.
Не очень понятно зачем выносить эти сноски в отдельные элементы? Это же иллюстрация, а не блок новостей где текст будет меняться часто.