Все просто: открываешь UDP сокеты, одна сторона пишет, другая читает. Отправляются небольшие пакеты (аудио данные продолжительностью по 40-80 мс). При приеме надо сделать джиттер-буфер, чтобы собирать и упорядочивать аудио пакеты.
В общем, надо смотреть в сторону протокола RTP. Ну и аудио-кодек подобрать в зависимости от желаемого качества.