Startup Magazine

Artykuły

PixelPlayer rozpoznaje i oddziela dźwięk instrumentów z nagrań wideo

Intro.jpg

Maciej Lewczuk

Naukowcy z MIT (Massachusetts Institute of Technology) opracowali technologię, która pozwala zlokalizować w przestrzeni poszczególne instrumenty i wyizolować ich dźwięk z nagrań wideo. 

Rozpoznawanie i wyodrębnianie dźwięku instrumentów z filmu

Naukowcy z Laboratorium Informatyki i Sztucznej Inteligencji przy MIT (Massachusetts Institute of Technology) opracowali oprogramowanie, które analizując obraz i dźwięk zapisany w plikach wideo, jest w stanie określić konkretny instrument oraz jego dźwięk. Nazwano je PixelPlayer.

PixelPlayer z MIT

Oprogramowanie PixelPlayer wykorzystuje sztuczną inteligencję, a konkretniej procesy zaawansowanego uczenia się, które bez jakiejkolwiek pomocy człowieka analizują wprowadzone do systemu nagrania wideo przedstawiające muzyków podczas wykonywania różnorakich utworów. System rozpoznaje zarówno instrument, jak i dźwięk, który się z niego wydobywa i jest w stanie pokazać to na nagraniu. Co ciekawe, nie dotyczy to jedynie małych grup muzycznych, ale radzi sobie z nagraniami koncertów orkiestr symfonicznych. 

Głębokie uczenie

Oprogramowanie wykorzystuje techniki głębokiego uczenia. Naukowcy dostarczyli systemowi kilkadziesiąt godzin różnorakich wykonań instrumentalnych, aby maszyna mogła je przeanalizować. Już taka porcja danych wystarczyła, by system zaczął sobie świetnie radzić z powierzonymi mu zadaniami. Obecnie analizie poddawane są kolejne nagrania. 

Nauka maszyny - 60 godzin muzyki

System był "szkolony" w oparciu o 60 godzin muzycznych nagrań wideo i obecnie potrafi rozpoznać ponad 20 różnych, popularnych instrumentów. Naukowcy są przekonani, że w miarę analizy większych ilości danych, PixelPlayer zwiększy swe zdolności i będzie potrafił rozróżniać kolejne źródła dźwięków, takie jak np. wiolonczela, czy różne rodzaje skrzypiec.

Zastosowania dla technologii PixelPlayera

Prócz rozróżniania i wskazywania instrumentu i wyodrębniania jego dźwięku, co może przydać się osobom zajmującym się rejestracją i edycją nagrań, system może zostać zastosowany do rozpoznawania głosu danej osoby w tłumie, rozróżniania odgłosów w środowisku miejskim, w przyrodzie, etc. Taka technologia może sprawdzić się także podczas tworzenia robotów, które w różnych sytuacjach mogą pomagać człowiekowi lub wykonywać dla niego specyficzne zadania. 

Źródło: MIT