MENÜ
2024. március 28.
Gedeon, Johanna
Félig már érthető a mesterséges beszéd

Félig már érthető a mesterséges beszéd

qubit.hu • fotó: ucsf.edu

Tudományos áttörés: először sikerült agyi jelekből mesterséges beszédet formálni.

Elképzelhető, hogy hamarosan egyenesen az agyunkból küldhetjük az üzeneteket a gépelés fáradságos munkája nélkül, miután egy San Franciscó-i kutatócsoportnak először sikerült agyhullámokat beszéddé alakítania.

Miközben az ember beszél, nem kell kifejezetten parancsokat adnia, az agy elvégzi helyette a munkát. A kutatók letapogatták azokat a jeleket, amelyeket az agy beszéd közben küld a beszédszerveknek – az ajkaknak, a nyelvnek, az állkapocsnak, a gégének stb. – és létrehoztak egy olyan eszközt, amely képes ennek alapján teljes szószerkezeteket kiköpni. Hogy milyeneket? Olyanokat például, mint „ne mosogasd el Charlie piszkos edényeit”, vagy „a fontos berendezések megfelelő karbantartást igényelnek”.

A kísérletben öt epilepsziában szenvedő személy agyhullámait rögzítették, miközben ők egy 100 kifejezést tartalmazó listából mondtak fel szövegeket (és éppen agyműtétet végeztek rajtuk).

A jeleket egy olyan számítógépbe táplálták, amely az emberi beszédrendszert modellezi, és az eredmény: félig érthető szintetikus beszéd. Ahogy az alábbi mintából is kiderül, a gép egyelőre egy nyugtatóra ráivó személy kásás beszédét produkálja, de a kutatók így is elmondhatják, hogy történelmet írtak.

A gépi beszédet a Mechanical Turk nevű crowdsourcing oldalon jelentkezőkkel teszteltették, akik a hallott szöveget 50-70 százalékban voltak képesek megérteni, igaz, hogy a lehetséges értelmezéseket megadott szavak közül választhatták ki.

Koponyába fúrt lyukon át vezet az út

A technológia nem képes az absztrakt gondolatok megragadására, ehelyett arra figyel, mit üzennek a neuronok, miközben a beszédszerveket mozgásra bíró parancsokat közvetítik. Kutatók korábban robotkarok irányítására használtak hasonló motorikus jeleket az agy más részeiből. „Az agynak olyan részeit tapogatjuk le, amelyek ezeket a beszédmozgásokat irányítják, tehát a mozgásokat igyekszünk dekódolni ahelyett, hogy közvetlenül a beszédet próbálnánk” – magyarázta a kutatócsoport vezetője, Edward Chang, a Kaliforniai Egyetem (San Francisco, UCSF) idegsebésze.

A jeleket egy elektrokortikográfiának (ECoG vagy ECG) nevezett invazív eljárással rögzítették, amelyet egyébként is gyakran használnak epilepsziás betegeknél a góc pontos beazonosítására. Ilyenkor a koponyán át fúrt lyukakon keresztül az elektródákat közvetlenül az agykéreg felszínén (más esetekben az agy szövetében) helyezik el.

Andrew Schwartz, a Pittsburghi Egyetem agy-komputer interface-ekkel foglalkozó kutatója szerint „ez valószínűleg az eddigi legkiválóbb munka, amit ezen a területen elvégeztek”. Hozzátette, hogy még pontosabb eredmények születhettek volna, ha a kutatók szondákat mélyeszthettek volna az agy szövetébe, és nem csak a felszínen tapogatnak jelek után.

Korábban is sikerült már kutatóknak agyi jelekből újraalkotni szavakat, illetve szavak hangzását. Idén januárban például a Columbia Egyetem kutatói az agy hallásért felelős területein mérték a jeleket, miközben a kísérleti alanyok hallgatták, amint valaki 0-tól 9-ig sorolja a számokat. A jelek alapján aztán a kutatók képesek voltak meghatározni, milyen számot hallott éppen a kísérlet résztvevője.

A San Franciscó-i eredményekkel a tudomány egy lépéssel közelebb került ahhoz, hogy bénult beszédszervű emberek is képesek legyenek a beszédre, bár ehhez egyelőre az agy-komputer interface-ek sem elég fejlettnek, sem elég egyszerűnek nem mondhatók. Tavaly ugyancsak a UCSF-en toboroztak amiotrófiás laterálszklerózisban (ALS) szenvedő alanyokat egy kísérleti eljáráshoz, amelynek során ECoG implantátumokat helyeznek el az agyban, és megpróbálják ezáltal szintetizálni a beszédjüket.

A sikeres beszédszintetizálás nemcsak az orvoslásban, hanem a kommunikációs technológiában is új utakat nyithat: egy nap talán arra is sor kerülhet, hogy közvetlenül az agyunkból küldjünk üzeneteket – ha akarjuk.