A PixelPlayer nevű rendszert az MIT Számítógéptudományi és Mesterséges Intelligencia Laboratóriuma hozta létre. Ez volt az első próbálkozás, amikor a zenét mint hangforrást elemezték, és videókat, koncertfelvételeket is feldolgozott a mesterséges intelligencia. Az ún. deep learning módszerrel három neurális hálózat keresett mintázatokat az adatokban: az egyik az audio, a másik a videó adatokból tanult, egy harmadik pedig ezeket szintetizálta.
60 órányi videó feldolgozása alapján a PixelPlayer több mint 20 hangszert ismert fel. Az MIT kutatóit magukat is meglepte az az eredmény, amit a videókon kívül más inputot (tehát mondjuk az egyes felvételeken szereplő hangszerek listáját) nem is kapó rendszer produkált: egészen a pixelek szintjéig lemenve meg tudja állapítani, hogy az a dolog, ami a kép egy adott pontján látható, melyik hangért felelős.
A rendszernek vannak még korlátai; a felismert hangszerek számát a feldolgozott anyag növelésével lehet emelni, de az olyan finomságok, mint pl. az alt és a tenor szaxofon megkülönböztetése, még ezután is gondot okozhatnak.
Mint az alábbi demonstrációs videón látható, az elkülönített hangszerek hangerejét meg is lehet változtatni. A jövőben a rendszert akár a keverésben, vagy régi koncertek hangminőségének javításában is lehet használni – az MIT közleménye szerint elképzelhető, hogy egyes hangszerek hangját másokkal le lehet majd cserélni, mondjuk elektromos gitárt akusztikusra. (A Music Ally szerzőjének rögtön eszébe jutott Bob Dylan híres-hírhedt koncertje, ahol először használt elektromos gitárt.)
A zenén kívüli felhasználás talán még kecsegtetőbb: robotoknak segíthet a környezetükben megszólaló hangok értelmezésében.
Nemrég a Facebook kutatóinak korábban nem látott eredményeket produkáló AI-rendszeréről írtunk, a Dal+Szerző magazin új számában pedig ezen kívül is több cikk foglalkozik a mesterséges intelligencia és a zene, illetve a szerzői jog kapcsolatával.
Categories: Hírek
Leave a Reply