В научном русском языке слово «морфинг» появилось сравнительно недавно, однако от него уже начали образовываться многочисленные производные, например «морфодер», «морфированный» и др. Поскольку новые алгоритмы процессорной обработки звука, обозначаемые термином «морфинг», стремительно развиваются и находят себе все более широкое применение, в данной статье постараюсь рассказать об основных принципах их построения и использования (следует отметить, что термин «морфинг» используется и для обработки видеоизображений).
Тембральный морфинг (Timbre Morphing) представляет собой «процесс комбинирования с использованием цифровой процессорной обработки двух или более звуков различного тембра и длительности в новый звук с промежуточной длительностью и особым тембром, включающий в себя отдельные черты исходных звуков».
Этот процесс отличается от простого перемешивания различных звуков, поскольку создается один звук с новыми свойствами.
Для того чтобы такие виды процессорной обработки смогли быть созданы и нашли себе практическое применение, потребовались десятилетия напряженного труда по анализу процессов восприятия тембра, слуховой маскировки и др., а также по созданию алгоритмов обработки на основе теории нейронных сетей и др.
Основой для развития таких работ послужили исследования Грея (1975) по установлению связей между изменениями тембров звуков и их динамическими спектрами. Он предложил свой вариант построения «многомерного пространства тембров» и высказал некоторые идеи о возможности интерполяции между звуками в этом пространстве с целью создания некоторых промежуточных звуков.
Восприятие тембра зависит от многих физических параметров звука, среди которых:
Поскольку на восприятие тембра влияют первые пятнадцать-семнадцать обертонов, то пространство тембров должно быть многомерным по физическим признакам звука — в литературе предлагались разные варианты его размерностей, от трехмерного до пятнадцатимерного. В таком пространстве два звука с одинаковыми параметрами (например, с частотой, временем атаки и др.) будут занимать одно и то же место, то есть иметь одинаковые координаты.
Однако пространство тембров может иметь размерности, не соответствующие физическим параметрам звука, например, быть построенным в других более простых слуховых ощущениях (высота, громкость и др.). В таком случае свойства новых звуков, созданных в этом пространстве, будут оцениваться по их расстоянию и позиции по отношению к исходным звукам.
Трудность заключается в том, что из многочисленных признаков, которыми можно характеризовать различные звуки, надо выбрать несколько основных параметров (огибающая спектра, длительность атаки, частота и глубина модуляции и др.), по которым можно проводить интерполяцию в процессе морфинга. При этом звуки могут иметь различную длительность, совершенно разные тенденции изменения этих параметров и др., что значительно усложняет процесс интерполяции.
Например, при интерполяции спектральных огибающих двух разных звуков нужно было создать такие алгоритмы, которые сохраняли бы общие для обоих звуков тенденции изменения огибающей. Проблема выбора комплекса параметров, как объективных, так и субъективных, в пространстве тембров и критериев для их интерполяции и является одной из основных в создании алгоритмов морфинга. Современная техника использует для этого новейшие достижения психоакустики в исследовании слуховой маскировки, организации слуховых потоков и др.
В 1989…1992 годах Хакеном был предложен алгоритм интерполяции звуков в реальном времени в трехмерном пространстве тембров.
В IRCAM были разработаны алгоритмы для морфинга голоса, когда голосовой тракт описывался в виде цифрового фильтра с зависящими от времени коэффициентами, на вход которого мог подаваться сигнал другого звука, например семпл фагота, при этом получался «говорящий фагот». Эта техника морфирования различных голосов была использована при создании звука к фильму «Кастрат Фаринелли».
В 1995 году появилась первая доступная коммерческая программа университета Беркли, которая позволяла управлять морфированным звуком, непрерывно перемещаясь в трехмерном пространстве тембров.
В настоящее время создано большое количество программ по тембральному морфингу звуков, появились уже плагины в музыкальных редакторах, например Morpher фирмы Waves.
Интерес к этому виду обработки звуков постоянно возрастает, так как применение морфинга может:
Рис. 1. Вид объединенного сигнала:
а) при обычном семплировании;
б) при использовании морфинга
По существу, эта техника в перспективе способствует созданию новых музыкальных инструментов на основе компьютерных технологий. Если XVIII-XIX века были периодом создания классических музыкальных инструментов (которые являются механо-акустическими преобразователями), в ХХ веке появились электромузыкальные инструменты, в ХХI веке можно ожидать появления новых электронных инструментов на компьютерной базе с широкими возможностями синтеза как звуков, тембрально близких к классическим инструментам, так и с совершенно новыми необычными тембрами. Идеи, заложенные в первое поколение таких программ, как созданная в 1992 году Lemur для Apple Macintosh, постоянно развиваются. Современные алгоритмы и программы тембрального звукового морфинга необычайно сложны.
Прежде всего, следует вспомнить, что восприятие высоты звука и громкости происходит пропорционально логарифму частоты и, в определенных пределах, логарифму амплитуды, поэтому интерполяция всегда выполняется в логарифмическом пространстве.
Следующая проблема — это выбор обертонов для процесса морфирования. Обычно, если обрабатываются высотно-определенные звуки, то их обертоны находятся в целочисленных соотношениях по частоте (то есть являются гармониками), поэтому для процесса интерполяции обычно отбираются пары обертонов в разных звуках, у которых отношение частоты к основному тону одинаково (например, два или больше вторых обертонов, третьих и т.д.). Если соответствующего номера обертона нет, то он замещается обертоном с соответствующей частотой и нулевой амплитудой.
Кроме того, когда выбранные обертоны имеют очень низкие амплитуды и некоторые сдвиги по частоте, то при их интерполяции может получиться обертон со средним значением амплитуды и явно слышимым сдвигом по частоте, поэтому при анализе тихих обертонов проверяются частоты ближайших гармонических обертонов.
Рис. 2. Временная структура обертона
У каждого обертона, используемого для морфинга, можно выделить единичные (уникальные) и повторяющиеся параметры. К числу первых можно отнести начало атаки, пики на динамической спектральной огибающей и другие. Поскольку эти параметры должны быть точно определены и фиксированы для процесса морфинга, число их должно быть одинаковым для обоих рассматриваемых звуков. Каждый из таких параметров нумеруется, и номер должен у обоих преобразуемых звуков совпадать. Например, на рис. 2 показана временная огибающая звука, где ui обозначены уникальные параметры: u1 — начало атаки, u2 — пик на атаке, u3 — конец атаки, u4 — самая тихая точка, u5 — начало спада, u6 — конец спада.
В то же время в звуках могут быть повторяющиеся параметры, например изменение амплитуды и частоты при тремоло или вибрато (обозначены на рис. 2 точками ri). Здесь нет необходимости добиваться соответствия каждого пика, так как можно, определив частоту и амплитуду модуляции у каждого исходного звука, найти их среднее значение.
В упомянутом выше алгоритме Lemur вычисление морфированных параметров производится с различными взвешивающими коэффициентами — или постоянными по 50% от каждого звука, или переменными, например вклад первого звука во второй может изменяться от 0% до 100%. Этот алгоритм, основанный на интерполяции уникальных параметров звука (типа ui) и вычислении некоторых усредненных повторяющихся параметров (типа ri) на определенных временных отрезках, был, разумеется, только первым шагом на пути развития теории тембрального морфинга, поскольку требовалось дальнейшее развитие, учитывающее, например, такие свойства слуха, как изменение восприятия громкости и тембра при изменении высоты звука.
Однако этот первый этап позволил уже реализовать интересные варианты морфинга, поскольку в нем можно было обрабатывать звуки с разным числом обертонов, с разной частотой вибрато и т.д.
Рис. 3. Обертоны морфированного звука скрипки и альта
Некоторые примеры для классических инструментов показаны на рис. 3, 4. На первом из них представлены обертоны звуков скрипки с низкой частотой модуляции и альта с высокой частотой модуляции. Полученный путем морфинга звук имеет усредненную частоту модуляции и интерполированные уникальные параметры, присущие каждому из этих инструментов. На рис. 4 показан результат морфинга кларнета и трубы, при этом все нечетные обертоны значительно выросли по амплитуде по сравнению с трубой, так как кларнет усиливает именно нечетные обертоны.
Рис. 4. Обертоны морфированного звука кларнета и трубы
Как показали результаты исследования последних лет, тембр зависит от процесса развития каждого обертона во времени — его атаки, установления и спада. Как уже было сказано, во временной структуре каждого обертона надо выделить наиболее значимые признаки и найти методы их интерполяции. В частности, были предложены алгоритмы, использующие распределение Вигнера для каждого звука, что позволяет представить частотно-временное распределение энергии. Это дает возможность построить топологическую поверхность, на которой более отчетливо видны характерные точки для каждого обертона.
Затем можно произвести интерполяцию между ними различными способами: или просто вычисляя средние значения между характерными точками, или производя более сложную нелинейную интерполяцию, что позволяет построить некоторую усредненную топологическую поверхность и от нее обратным преобразованием вернуться к временной структуре морфированного таким образом звука. Работы в этом направлении постоянно продолжаются, алгоритмы совершенствуются, и точность процесса морфинга повышается.
Следующим этапом в развитии этой техники было применение аддитивного синтеза для морфинга звуковых сигналов в реальном времени и создание нового типа синтезатора с клавиатурой непрерывного изменения тембров звучания, созданного Л. Хакеном.
Идея его создания заключается в том, чтобы в записанное пространство семплов могли быть добавлены звуки, синтезированные по определенному закону из анализа спектрального состава близлежащих по тембру звуков.
Как уже было сказано, если семпл фортепиано записан для определенного уровня громкости и высоты, то переход на другой уровень громкости не эквивалентен простому увеличению амплитуд его обертонов — тембр будет изменяться и за счет появления новых обертонов, и за счет зависимости свойств слухового восприятия от изменения громкости и т.д. Аналогично, транспонирование по частоте тембрально не эквивалентно сдвигу частот существующих обертонов.
Для морфинга в пространстве тембров сначала конструируется трехмерное контрольное тембральное пространство, в котором одно измерение — высота звука, второе — громкость, третье — добавочные тембральные характеристики. Из отрезков семплов формируется несколько таких кубов, пример такого куба для четырех тонов виолончели и четырех тонов тромбона показан на рис.5.
Рис. 5. Трехмерное контрольное пространство тембров
Каждый звук располагается в своем углу, для каждого из них анализируется временная структура огибающей, вычисляется его спектральный состав, амплитуда и частота обертонов и выделяются соответствующие шумовые компоненты. Если при перемещении контроллера на клавиатуре устанавливаются какие-то координаты X, Y, Z внутри куба, то формируемый при этом звук является результатам аддитивного синтеза всех звуков, расположенных в углах куба, — если точка координат в центре, то все звуки вносят равный вклад в синтезированный звук, если точка координат перемещается ближе к какой-то грани, то начинает превалировать звук, находящийся там. В данном примере звук будет то ближе к виолончели, то к тромбону.
Рис. 6. Семейство из 24 тембральных кубов
Перемещать звук можно непрерывно. Если двигать регулятор, например, вдоль шкалы громкости, то будет все время происходить аддитивный синтез звука с постепенным изменением тембра при изменении громкости. Если использовать для анализа большое число семплированных звуков, то можно построить тембровое пространство, состоящее из множества таких кубов. Например, на рис.6 показано семейство из 24 кубов для 39 тонов тромбона и виолончели. Если, например, нужно создать звук F4 на forte, то точка координат попадет в 16-й куб и звук будет строиться путем аддитивного синтеза из характеристик записанных звуков, находящихся на углах данного куба.
Решение проблемы отбора семплированных звуков для расположения их в угловых точках куба требует опыта и производится с помощью экспертов. Затем параметры таких звуков тщательно анализируются в различные моменты времени.
Далее описан алгоритм синтеза звука в каждой точке пространства с координатами Х, Y, Z.
Огибающая синтезированного звука y(t) определяется как
y(t) = Σ0k-1 {Ak(t) + Nk(t)b(t)}sin{Θk(t)},
где Ak(t) – амплитуда k-обертона в данный момент времени;
Θk(t) – фаза k-обертона в данный момент времени;
Nk(t)b(t) – шумовые компоненты в частотной области вокруг k-обертона.
Очень важно подчеркнуть, что при таком синтезе учитываются шумовые компоненты и параметры, рассчитанные в разные моменты времени, то есть в период атаки, стационарной части и спада.
Каждый из этих параметров получается как взвешенная сумма из текущих значений амплитуды, частоты и фазы обертонов семплированных угловых звуков:
7
Ak(t) = Σ Wq(t) ak,q(t);
k-1
7
Nk(t) = Σ Wq(t) βk,q(t);
k-1
7
Fk(t) = Σ Wq(t) fk,q(t),
k-1
где Wq(t) – взвешивающая функция, она зависит от выбранной на клавиатуре точки координат X,Y,Z относительного угла q.
ak,q(t); βk,q(t); fk,q(t) – соответственно амплитуда, шумовая компонента и частота k-обертона для звука в q-угле куба.
Таким образом, перемещая на клавиатуре положение движков, можно получить непрерывное изменение тембра, высоты и громкости звука, созданного в результате синтеза из ближайших семплированных звуков, что дает неожиданные по тембру звучания (например, смесь тромбона с виолончелью или еще чем-нибудь), и обеспечить более реалистическое изменение тембров при транспонировании и изменении громкости.
Однако в настоящее время наибольшее прикладное применение техника тембрального морфинга нашла в связи с развитием новой технологии синтеза — физического моделирования музыкальных инструментов. Здесь существует два направления: первое — создание точных математических моделей инструментов, например, для струнных — за счет анализа колебаний струн, подставки, корпуса, объема воздуха в нем и общего процесса излучения.
Второе направление — это запись импульсной и частотной характеристик от каждого элемента инструмента с последующим синтезом цифровых фильтров, имеющих совпадающие характеристики. Далее, используя различные звуковые сигналы, подаваемые на вход этих фильтров, можно получать разные варианты выходных сигналов.
В связи с этим активно развивается техника морфинга, когда, модифицируя параметры этих фильтров и выбирая различные сочетания их и входных параметров, можно получать совершенно необычные звучания. Эта идея была использована в IRCAM при морфинге голоса.
Идея применить ее для морфинга струнных инструментов была предложена специалистами университета Хельсинки. Если последовательно представить процесс преобразования сигнала в скрипке (рис.7), то можно видеть, что импульс, возникший при возбуждении струны смычком (спектр импульса показан в верхней части рисунка), преобразуется за счет колебаний подставки (огибающая спектра которых показана ниже). Затем сигнал модифицируется за счет колебаний деки и воздушного объема и превращается в суммарный излучаемый акустический сигнал.
Рис. 7. Процесс последовательного преобразования сигнала в скрипке
Последовательность операций можно представить как результат действия цифрового фильтра, характеристики которого совпадают с АЧХ струны, подставки, деки или объема воздуха, и построить модель с различными модификациями этих фильтров.
В указанной работе было выполнено цифровое моделирование корпуса гитары, для чего записывалась общая АЧХ и импульсная характеристика гитары, затем методом деконволюции (вычитания) изымалась часть, внесенная колебаниями струн и подставки (она измерялась вибродатчиком под подставкой).
Рис. 8. Импульсная характеристика и АЧХ излучения от корпуса гитары
Полученные таким образом АЧХ и импульсная характеристика излучения от корпуса показаны на рис.8. По заданным характеристикам обычными методами, принятыми в теории цифровой обработки сигнала, синтезировался цифровой фильтр и далее, меняя коэффициенты этого фильтра, можно было получать характеристики, соответствующие большим или меньшим по размерам корпусам данного инструмента, или создавать некоторые промежуточные формы корпусов, например между гитарой и скрипкой (рис.9). Подавая на такой фильтр различные звуковые сигналы, можно получить последовательное изменение тембра (то есть тембральный морфинг) от скрипки к гитаре.
Рис. 9. Последовательное изменение АЧХ корпуса при изменении его от гитары (1) к скрипке(0)
Поскольку из опыта конструирования и математического моделирования музыкальных инструментов достаточно хорошо известно, за счет каких конструктивных мер можно сдвигать различные пики на частотной характеристике, то таким методом можно моделировать различные варианты конструкции корпуса или других элементов.
Именно эту идею использовала фирма Waves в создании цифрового процессора Morphoder (рис.10), в котором один сигнал используется как модулятор (то есть по его характеристикам создается соответствующий цифровой фильтр), другой сигнал, который подается на его вход, — как несущий. Например, если звук барабана использовать как модулятор, а речь — как несущий сигнал, то можно получить «говорящий барабан» и более интересные сочетания звучаний.
Рис. 10. Общий вид Морфодера
Техника тембрального морфинга стремительно развивается и, возможно, будет одним из способов создания новых компьютерных музыкальных инструментов, а также найдет себе много других применений.
28 октября 2015
Ирина Алдошина
Количество коментариев: 1.
Возможность оставлять комментарии доступна только для зарегистрированных пользователей.
Спасибо большое!
эта статья была чрезвычайно полезна для подготовки доклада по max MSP. Надеюсь, что Никита не узнает откуда мы копипастили.(шутка)