В цитате же написано - не усредняя во времени. Но только отслеживая пиковые значения, с ограничением памяти в прошлое (скользящее окно только для этого).
Результат должен получиться таким же, как и во временном домене за одни и те же интервалы времени длительности блока сигнала (если во временном домене суммарную энергию поделить на длительность блока). По вычислительным затратам оба варианта сопоставимы (FFT все равно уже посчитано), и там и тут суммировать квадраты, только в разных доменах.
Возможно, я неправильно понял цель, и вам нужна не средняя мощность в пределах каждого блока FFT, а именно пиковый детектор для вылавливания пиков и коротких импульсов внутри каждого блока. Тогда пардон.
Другой вопрос - насколько важно ловить именно каждый чих сигнала и каждый импульс помехи. Форманты речевого сигнала обычно достаточно длинные и занимают во времени несколько блоков FFT сигнала.