ζ༼Ɵ͆ل͜Ɵ͆༽ᶘ

Как работает Shazam в двух словах

0 комментов
09.02.2022
2 мин чтения

Shazam — это приложение, которое идентифицирует музыку, используемую в фильмах, рекламе и телешоу, на основе воспроизведенного короткого фрагмента. В этой статье я расскажу технологию, которую использует Shazam для распознавания аудио.

Как работает Shazam?

Shazam идентифицирует песни с помощью так называемого аудио/акустического отпечатка пальца и спектрограммы. Теперь поясню эти слова.

Что такое аудио/акустический отпечаток пальца?

Аудио/акустический отпечаток пальца это сжатое цифровое резюме, которое генерируется аудио сигналом. Аудио сигнал является представлением звука, обычно использующее либо изменяющийся уровень электрического напряжения на аналоговых сигналов, либо серию двоичных чисел для цифровых сигналов.

В случае с Shazam эти аудиосигналы представляют собой серию двоичных чисел, используемых для представления цифровых сигналов. Эти двоичные числа можно использовать для идентификации аудиосемпла или быстрого поиска похожих элементов в базе данных аудио.

Что такое спектрограмма?

Спектрограмма представляет собой графическое представление аудио, каждый фрагмент аудио разбит на несколько сегментов по шкале времени, и из этих аудиосегментов создается график, отображающий 3 измерения звука: частота и интенсивность в зависимости от времени.

Чтобы эффективно искать звук, вам нужно эффективно описать его, и способ сделать это — использовать спектрограмму.

Как все это работает в Shazam?

Мы успешно объяснили технологии, используемые в Shazam, как отдельные понятия, теперь давайте разберемся, как они работают вместе.

Когда вы просите Shazam сообщить вам информацию о песне, такую ​​как название, автор и тд, вы передаете ему аудиопоток песни через микрофон или другое устройство ввода звука. Он представляет аудиопоток в виде спектрограммы, затем алгоритм Shazam выбирает пиковую точку в аудиопотоке с помощью графического представления спектрограммы. Пиковые точки — это точки с меньшим фоновым шумом.

Затем алгоритм Shazam создает звуковой отпечаток из точки пика, а затем индексирует аудиобазу данных для песни с похожим звуковым отпечатком, и когда он находит успешное совпадение, он возвращает свои результаты пользователю.

Как Shazam обновляет свою базу данных?

Прочитав эту статью, вы могли сделать вывод, что ключевой частью технологии, стоящей за успехом Shazam, является его обширная аудиобаза данных, проще говоря, без актуальной аудиобазы данных Shazam не будет эффективно удовлетворять потребности своих пользователей. и это приведет к потере дохода. Так как же Shazam обновляет свою аудиобазу?

Они делают это через отраслевые партнерские отношения с компаниями, которые документируют музыку. Shazam получает от этих компаний документацию на музыку, а затем использует данные, полученные от этих компаний, для улучшения своей аудиобазы.

4
Сегодня
День улёта