Magic Takács Norman 2025. 01. 04.

Eljött a zene halála és második aranykora

Chatel, képet generál, szöveget ír, és most már zenét is készít? Hát az MI-nek semmi se szent? Cikkünkben leszedjük róla a keresztvizet. Vagy épp fölkenjük rá...

Lassan megszokjuk azokat az egyre gyorsuló változásokat, melyek az életünket hónapok vagy akár hetek leforgása alatt képesek gyökeresen átrendezni. Már meg se lepődünk azon, mikor a civilizációnk egyetemesnek és mozdíthatatlannak hitt alappillérei dőlnek le, nagy robajjal zúzva össze egész ágazatokat. Kapituláltunk a technológia saját fejlődésének mindenek fölé helyezett önértéke előtt, és csak reménykedünk, hogy ebből az állandósult káoszból majd kisül valami hasznos is. Vagy ha az nem, legalább valami szórakoztató.

Ennek a folyamatnak a következő állomását dolgozzuk fel cikkünkben, történt ugyanis, hogy a mesterséges intelligencia, mely gyarmatosította az írott szó világát, majd meghódította a kép és a mozgókép síkjait, most hangok szféráit is célba vette, és megkezdte csapatainak átcsoportosítását. Viszont elkerülendő, hogy újságírói tevékenységünkkel mi is normalizáljuk a háborús retorikát és a militáns analógiákkal való vagdalkozást, váltsunk… hangnemet!

forrás: demaerre via GettyImages

forrás: demaerre via GettyImages

Kezdetben volt a hang, a hang az énekesnél volt, és az énekes volt a hang – mondhatnánk, enyhén blaszfémikus módon utalva azokra az időkre, mikor még nem történt meg az MI következtében létrejövő nagy hasadás, ahol a hang a kibocsátójától leválva külön életre kelt. Maga az orgánum kelt külön életre, hisz a különböző, mesterséges intelligencia által vezérelt generatív modellek már egy viszonylag kis mintából is elég hitelesen voltak képesek klónozni bárkinek a hangját. Hosszasan értekezhetnénk arról, hogy ez mennyiben érvényteleníti el például a leleplező és kompromittáló célú, akár anonim forrásból kiszivárgó hangfelvételek hitelességét, de ez nem az a cikk, és nem az a platform.

Mellékes történelem

Igaztalanok és felületesek lennénk, ha nem említenénk meg néhány 20. századi példát arra, hogy már évtizedekkel az MI megjelenése előtt is születtek tisztán mesterségesen generált zenék. 1957-ben Lejaren Hiller zeneszerző és Leonard Isaacson matematikus által programozott ILLIAC I elkészítette a “Illiac Suite for String Quartet” c., teljesen számítógép által generált zeneművét. 1965-ben Ray Kurzweil feltaláló kifejlesztett egy olyan szoftvert, mely képes volt zenei mintákat felismerni, majd azokból új kompozíciókat szintetizálni. Ezek azonban szeparált, kísérleti esetek voltak, melyeket nem a hétköznapi embernek szántak, így megmaradtak kirívó érdekességeknek, csupán tűhegynyi lyukacskákat ütve a vásznon.

Ami számunkra most fontosabb, hogy ez az új technológia megnyitotta a kaput az olyan dalok előtt, melyekben akár rég elhunyt zenészek, celebritások, politikusok “énekelnek el” mai számokat, vagy bármilyen más szöveget, amit a szájukba adnak. A lehetőségek szinte végtelen tárházán fellelkesült alkotók pedig, ahogy az lenni szokott, a kreativitás végtelen tengerén hajózva nekiütköztek az első szembejövő jéghegynek, és elárasztották a YouTube-ot az “Osztrák Festő” által előadott humorosnak szánt, ízléstelen és roppant ízléstelen MI-számokkal, de a szemfüles internetező találkozhatott hazai vonatkozású alkotásokkal is.

Aztán pár hónap után alábbhagyott ez a kezdeti lelkesedés (részben azért, mert az IP-k szerzői jogtulajdonosai érthető okokból igyekeztek eltávolíttatni az efféle “alkotásokat”), úgy tűnt, hogy ez a jelenség is levirágzik egy nyár alatt, és elkezdhetjük befoltozni a zeneművészet szövetén keletkezett hasadást. Ám ahogy az lenni szokott, a valóság fogta magát, és egy rántással végigszakította azt: 2023 decemberében megjelent a szöveg alapján és promptok segítségével realisztikus zenéket generáló Suno AI, melyet a Kensho nevű startupból kivált Michael Shulman, Georg Kucsko, Martin Camacho és Keenan Freyberg hozott létre, a szellemet pedig többé már nem lehetett visszaédesgetni a palackba.

Nagyon termékeny "kreatív közösség". (forrás: suno.com)

Nagyon termékeny “kreatív közösség”. (forrás: suno.com)

Természetes, hogy mikor az egyik ág elszárad, rögtön rügyet bont és megerősödik az újabb, de arra szerintem senki sem számított, hogy ez a folyamat ilyen gyorsan megy majd végbe. A technológia, mely a hang klónozás idejében csak humoros (és szándékoltan botrányos) mémdalok készítésére volt alkalmas, a Suno jóvoltából olyan eszközzé nőtte ki magát, mellyel már teljes értékű, a hús-vér előadók és zenei tartalomgyártók produktumaitól megkülönböztethetetlen alkotásokat is létrehozhattunk. A zenekészítés többé már nem az arra hivatott, tehetséggel megáldott és szakmai tudással felvértezett szűk csoport privilégiuma, hanem mindenki számára szabadon hozzáférhető önkifejezési formává vált. Legalábbis ez volt az ígéret.

Mielőtt azonban elkezdenénk a zenei termelőeszközök szabad újraelosztása felett érzett eufóriánkban rázendíteni egy MI-generált dubstep Internacionálé-feldolgozásra, járjuk kicsit körül, hogy a gyakorlatban ez mennyire valósul meg! Elvégre a puding próbája az evés, mi pedig azzal a szemmel (illetve, ha az analógiánál maradunk, szájjal) kóstolunk bele ebbe az élménybe, mint akik semmit sem konyítanak a konyhaművészethez. Szerény személyem mindenképpen.

Tehát ha én, aki gyakorlatilag teljességgel kezdő vagyok a zenélésben, képessé válhatok olyan dalokat készíteni, melyek minőségileg legalább a középértéket képesek megütni… nos, akkor sokan elkezdhetnek aggódni. Felregisztráltam hát az oldalra, és néhány száz órányi kísérletezés után úgy döntöttem, hogy talán most már elég rálátásom van a témára, és érdemben foglalkozhatok vele. Ez persze korántsem jelenti azt, hogy a Suno használatának megtanulása ennyi időt venne igénybe, hisz feltételezem, egy átlagfelhasználó nem töltene napokat azzal, hogy kipróbálja, milyen zenéket lehet generálni padlizsánokat, kerekesszékes feketéket és lángokat ábrázoló emojik rendszertelen halmazából. (Egyébként egész tűrhetőeket…)

Drop the 🍆! (forrás: suno.com)

Drop the 🍆! (forrás: suno.com)

A fő kérdés itt természetesen az, hogy lehet-e ezzel a mesterséges intelligenciával bárminemű előzetes zenei tudás nélkül valami értékelhetőt alkotni. Nos, nyilván nem fogom a nagyérdeműt a saját… khm, “szerzeményeimmel” terhelni, de elmondhatom, hogy a Suno van annyira felhasználóbarát és hülyebiztos, hogy akkor is képes elfogadható minőségű zenéket generálni neked, ha még a legalapvetőbb ismeretekkel sem rendelkezel, és minimális érdemi instrukciót adsz neki.

Általában elmondható, hogy a tisztán instrumentális zenékkel a mesterséges intelligencia jobban boldogul, de ha már van valamiféle dalszöveg, akkor inkább az angolt preferálja, viszont a magyar nyelvvel is meglepően jól megbirkózik. Az avatott fül persze meghallja, hogy itt valószínűleg nem egy ember énekelte fel a sorokat, hanem MI-t használtak, de amikor a vokál nincs túlságosan előtérben, még ezt is nehézkes kiszúrni.

Minél jobban elmélyülünk a különböző hívószavak, parancsok, dalszerkezet-címkék világában, annál ügyesebben instruálhatjuk a mesterséges intelligenciát, hogy pontosan olyan zenét generáljon, amilyet elképzeltünk, de ha nem élünk ezzel a lehetőséggel, akkor elvégzi a munkát helyettünk, és a saját “elképzelései” szerint alkot valamit, ami megfelel az általunk megadott paramétereknek. Kis túlzással még egy alsó tagozatos iskolás is képes lehet arra, hogy a Suno segítségével zenéket hozzon létre. A végeredmény tekintetében persze hatalmas a szórás, de ha kicsit is megtanuljuk irányítani az MI-t, akkor ez jelentősen csökkenthető.

Férfi vokál akusztikus gitár- és zongorakísérettel. forrás: Daniel Balakov via Getty Images

Férfi vokál akusztikus gitár- és zongorakísérettel. forrás: Daniel Balakov via Getty Images

Tehát maga a “zenekészítés” a következőképpen történik: először begépelünk vagy bemásolunk egy legfeljebb 3000 karakter hosszúságú dalszöveget a bal felső sarokban található mezőbe (értelemszerűen ez instrumentális számok esetében elhagyható), majd az alatta lévő mezőben megadjuk a kívánt zenei stílusjegyeket maximum 200 karakter terjedelemben, ezt követően legalul elnevezzük a dalt, végül pedig rányomunk a nagy, színes “Create” gombra. Módosítom a korábbi állításomat: erre gyakorlatilag még egy óvodás is képes.

Az MI ezután nagyjából 10-20 másodperc alatt generál nekünk két verziót, amit már hallgathatunk is, az elkészült dalt pedig bármilyen tetszőleges ponttól újragenerálhatjuk, folytathatjuk, illetve több formátumban le is tölthetjük. Előfizetés nélkül a napi limit fiókonként 5 generálást vagyis 10 számot engedélyez, havi 10 dollárért pedig nagyobb kreditlimitet, több funkciót, illetve az elkészült dalok kereskedelmi felhasználásának jogát kapjuk meg.

A valóságban (és ez már mágia kategória), az van, hogy a művészek a semmiből teremtenek igényt” – magyarázza Kelemen André, online zenei tartalomgyártó és DJ, aki egyelőre nem lát komoly konkurenciát a mesterséges intelligenciában. „Az algoritmusok és mérések alapján annak a zenének nem kéne betörnie, de valaki előáll egy teljesen új dologgal, és hirtelen lesz közönsége is. Nem látom, hogy az MI hogyan lenne képes erre a fajta úttörő munkára. Ahogy arra se, hogy megállapítsa: mi az, ami “jól szól” és mi az, ami nem. Mert azt érti, hogy mit kattintanak le az emberek, lát mintázatokat, trendeket és statisztikákat, de nem érti a mögöttes miérteket. Mert nincs ízlése.

A jövő zenésze. forrás: mokee81 via Getty Images

A jövő zenésze. forrás: mokee81 via Getty Images

Mondanom sem kell, hogy ebben a technológiában hatalmas potenciál van, gondoljunk csak arra, hogy ily módon akár személyre szabott, zenés formában is át lehetne adni az iskolákban a tananyagot, könnyen befogadhatóvá téve a lexikális tudást, mely jelenleg sokak számára igen nehezen hozzáférhető. Magát a zeneipart pedig alapjaiban formálhatja át, hiszen tömegek számára válik elérhetővé egy olyan önkifejezési lehetőség, mely eddig csupán kevesek kiváltsága volt.

Persze, ahogy minden MI-t érintő téma esetében, itt is meg kell említeni az aggályokat, mint a zenészek feje felett Damoklész kardja himbálózó egzisztenciális veszélyt, a kultúrát nagyon hatékonyan felhígítani és középszerűvé remixelni képes technológia jelentette általános fenyegetést, vagy épp azt a posztmodern problémát, hogy innentől kezdve már nemcsak a szemünknek, de a fülünknek sem hihetünk.

Zenélő politika

Az MI-generált zenékben rejlő lehetőségekre hamar ráébredt az általános boomerségéből felocsúdni látszó hatalmi elit és holdudvara, elkezdődött tehát a politikai témájú zenegyártás is. Elvégre az ilyesmi igen költséghatékony, modern, és képes lehet a fiatalabb generációkat is megszólítani, akiket mondjuk száraz rádióműsorokkal, tévéhíradóval, meg aluljárókban osztogatott papíralapú, sajtóterméknek látszó nyomdaipari kreálmányokkal nem lehet elérni. Felütötte fejét Wellor, a “netzenész”, aki néhány tucat hírportál által megtámogatva, “teljesen organikusan” nőtte ki magát, és revolverez dalaival mindenkit a kétharmadon kívül. Vele opponáló hangokként csak az olyan marginalizált, és nem is kifejezetten erre szakosodott csatornákat lehet felhozni, mint a Hungarian Memes Into Metal, a Bulvár Kund vagy a Lázadó árnyak.

Számomra ez egy jó szórakozás. Felfrissíteni, átdolgozni, újragondolni dalokat, meg néha kicsit élcelődni is a zenén keresztül. Ez egy izgalmas, új játékszer!” – meséli a Bulvár Kund nevű YouTube-csatorna gazdája. „Elsősorban magamnak csinálom, mert örömömet lelem benne, ha ez másoknak is ad valamit, és hallgatják, az már csak plusz. Egyre többen kezdenek az MI zenék készítésével kísérletezni, nemzetközi meg hazai szinten is. Meglátjuk, mi lesz belőle! Lehet, hogy innen tör majd fel a következő Skrillex.

Amire már most is vannak jelek, és tekintve, hogy hozzáértő kezek között az MI, mint eszköz nagyon jól muzsikál: megfelelő promptokkal és kellő zenei tudással felvértezve a profik már most is képesek csodákat alkotni, elég csak az olyan meghökkentően anakronisztikus zsánerkeverésekre gondolni, mint amikor a Metallica 1988-as “…And Justice For All” c. albumát karácsonyi jazz formában alkották újra, vagy épp a System of the Down együttes “Toxicity”-jét röpítették vissza a ’60-as évekbe. Nem sok akadálya van tehát, hogy megvalósítsunk… lényegében bármit, ami csak eszünkbe jut. Természetesen ebben a versenyben a hozzáértők némi előnnyel indulnak, de legalább most már mi is könnyedén ringbe szállhatunk, ha úgy tartja kedvünk.

Szóval újabb játékszert kaptunk a kezünkbe. Lehetőség szerint próbáljunk meg élni, és nem visszaélni vele, mert nagyon úgy néz ki, hogy az MI nem megy sehová, tehát meg kell tanulnunk együtt élni és alkotni vele! Én a magam részéről köszönöm szépen, maradok a jó öreg lemezjátszómnál és a bakelitlemezeimnél, hisz semmi sem kellemesebb annál, mint retró jazzt vagy klasszikus zenét hallgatva, egy bögre forró tea mellett elmerülni a recsegős, karcos nosztalgiában, visszarévedve azokba az időkbe, amikor még minden jobb volt…

Forrás: suno.com, Wikipédia, Youtube
Kép(ek) forrása: Getty Images, suno.com