Gero eta ohikoagoa da teknologiarekin ahots bidez komunikatzea. Adibidez, autoan goazela ahoz norbaiti deitzeko esan eta gailuak deia automatikoki egitea. Edo mugikorrari ahoz norabideak edo eguraldiari buruz galdetzea. Ahoz esandakoa testu bihurtzeko teknologiari hizketaren ezagutza esaten zaio eta gero eta garrantzi gehiago du.
Dagoeneko existitzen dira teknologia ahots bidez erabiltzeko hainbat tresna ezagun: Google Assistant, Apple Siri, Microsoft Cortana, Amazon Alexa eta abar. Hala ere, tresna horiek hizkuntza handienetan bakarrik erabil daitezke. Multinazionalek beren interes komertzialen arabera erabakitzen dute zein hizkuntza gehitu. Munduko hizkuntza gehienak ez zaizkie errentagarriak. Ondorioz, euskaraz ezin dira erabili.
Hizkuntzarenaz gain, ahots-teknologia komertzialek beste hainbat arazo dituzte:
-
- Hizkuntza zabalduenetan bakarrik erabil daitezke. Atzean dituzten enpresa handiek etekin ekonomikoei soilik begiratzen diete eta hizkuntza txikiak ez dira bideragarriak haientzat. Alternatibarik sortu ezean euskaldunok erdaraz mintzatu beharko diegu telebista, sakelako telefono eta bestelako gailuei. Berdin gertatuko zaie beste hizkuntza txikietako ehunka milioi hiztunei ere mundu osoan.
- Ez dute ahots aniztasuna kontutan hartzen. Hizkuntza nagusi bat hitz egiteak ez du ziurtatzen gailuak zure ahotsa ulertuko duenik. Azentuarekin hitz egiten baduzu edo emakumezkoa bazara zailtasun gehiago izango duzu, historikoki motor horiek entrenatzeko erabili diren ahots gehienak klase ertaineko gizon zurienak izan baitira.
- Pribatutasun arazoak. Gailuei esaten dieguna zerbitzarietara bidaltzen da. Guztiek ukatzen bazuten ere, langileen filtrazioei esker jakin da ahots laguntzaileei esaten dieguna kasu batzuetan pertsonek entzuten dutela. Baita oso pribatuak diren elkarrizketak ere, adibidez, medikuarenean izandakoak.
- Ez dira libreak. Ezin ditugu gure beharretara egokitzeko moldatu eta teknologia hauek sortzeko erabili diren ahotsak eta baliabideak ezin dira erabili, adibidez, euskarazko teknologia garatzeko
Common Voicek beste modu batera egin nahi ditu gauzak
Mozilla fundazioak sortutako proiektua da Common Voice. Mozillak hainbat proiektu ezagun garatzen ditu, horien artean Firefox nabigatzailea eta Thunderbird posta bezeroa. Mozillaren helburua da «Internet guztiontzako baliabide publikoa, irekia eta irisgarria dela ziurtatzea». Bide horretatik sortu zuten Common Voice proiektua ere, «hizketaren ezagutza guztiontzat irekia eta irisgarria lortzen laguntzeko».
Hizketaren ezagutza teknologia pribatiboekin alderatuz hainbat abantaila ditu Common Voicek:
- Ahalik eta hizkuntza gehienetara zabaldu nahi dute. Munduko hizkuntza guztiek parte hartu dezakete. Ondorioz, euskara ere tartean dago, noski.
- Ahots aniztasuna kontuan hartzen dute. Helburu gisa jarri dute oreka lortzea: gizonezko, emakumezko, gazte, zahar, azentu desberdinak...
- Pribatutasuna lehentasuna da. Ezin da jakin ze pertsonak grabatu dituen audioak. Nahi bada anonimoki parte har daiteke, edo oinarrizko datu batzuk eman.
- Osatutako testu eta ahots bildumak lizentzia libreekin eskuragarri daude. Honen ondorioz, sektorea demokratizatuko da. Edozeinek erabili ahal izango ditu bere tresnak garatzeko. Baita bestela horretarako aukerarik izango ez luketen enpresa txikiek ere.
Common Voice euskaraz
Mozillak 2017an hasi zuen Common Voice proiektua. Euskararentzat proiektu estrategikoa zela pentsatuta, gure hizkuntza bertan gehitzeko ardura hartu zuen Librezale taldeak eta hurrengo urtean Common Voice euskaraz martxan hasteko bi lan egin zituen. Batetik, proiektuaren webgunea itzuli zuen, parte-hartzaileak beren hizkuntzan eroso senti daitezen. Bestetik, 5.000 esaldi bildu beharra zegoen. Azpimarratu beharra dago esaldi horiek domeinu publikoan egon behar direla edo bere parekoa den Creative Commons Zero lizentziapean.
Librezaleko kideek 2.000 esaldi baino gehiago idatzi zituzten eskuz. Beharrezko kopurutik urrun zeudela ikusita, ARGIAri eskatu zioten laguntza, eta proiektu honetarako jabetza publikoan utzitako ia 4.000 esaldirekin osatu zen bilduma; Mozillak eskatzen zituen gutxieneko 5.000 esaldiko langa hori gainditu genuen, beraz, euskaldunok.
Common Voice proiektuan euskara gehitzea lortu ondoren, auzolan digitalerako deia egin zuen Librezalek. Geroztik, ondorengo urteetan milaka pertsonak hartu dute parte auzolanean, beren kasa edo egin diren hainbat grabazio maratoietako batean parte hartuz. Grabazio kopuru batetik aurrera esaldi berdinak behin eta berriz irakurtzeak ez du produktua hobetzen. Horregatik, idatzizko esaldi gehiago behar zirenez, Librezalek Euskarazko Wikipediatik lortu zituen.
2023ko udazkenean, Eusko Jaurlaritzako Hizkuntza Politika Sailburuordetzak Gaitu egitasmo estrategikoaren baitan (Gaitu.eus) bultzada eman nahi izan zion euskarazko ahots teknologia librea bilatzen duen egitasmo honi. Euskaraz grabatutako ordu kopuruan igoera nabarmena izan zen. EITBk ere idatzizko esaldien ekarpena egitea lortu zuen Eusko Jaurlaritzak eta, gaur egun, guztira, 160.000 esaldi inguru daude jendeak irakurtzeko.
Common Voice euskaraz: datuak
Une honetan 660 ordu baino gehiago daude grabatuak, baina kalitate oneko hizketaren ezagutza egiteko askoz gehiago behar dira. Grabazioak egin ondoren balioztatu egin behar dira baina euskararen kasuan horien erdia bakarrik balioztatu dituzte boluntarioek. Beraz, dagoeneko eginda dauden grabazioak zuzen irakurrita daudela ziurtatzeko lanak bultzatu beharra dago, balioztatutakoak baitira gero hizketaren ezagutzarako erabiltzen direnak. Orain arte 10.800 euskaldunek baino gehiagok eman dute beraien ahotsa Common Voice aurrera ateratzeko.
Grabatutako ordu kopuruari erreparatzen badiogu, euskaldunak Common Voiceko hamahirugarren postuan gaude. Euskarak duen hiztun kopurua kontuan izanda, ederto goaz, baina ziur guztion artean hobetu dezakegula.
Common Voicen hizkuntza gutxituak indartsu
Artikulu hau idazteko unean, 2025eko urtarrilean, 223 hizkuntzatan ari dira Common Voicen grabazioak egiten eta beste 97 hizkuntza prestaketa lanetan ari dira. Taulan ikus daitekeenez, grabatutako ordu kopuruaren sailkapenean lehena estaturik gabeko hizkuntza bat da: katalana. Bigarren postuan, ingelesa dago, eta hirugarrenean, kinyaruanda. Hizkuntza hau Ruandan ofiziala den arren, multinazionalek beraien tresnetan eta zerbitzuetan baztertu egiten dute.
Hain zuzen ere, sailkapenaren lehen hogei postuetan asko dira hizkuntza gutxituak edo kinyaruanda bezala baztertuak direnak: esperantoa, bengalera, swahilia, Ipar Afrikako amazigh-en kabiliera, luganda, pertsiera, tamilera, thailandiera eta uigurrera. Argi dago hainbat hizkuntza komunitatek normalean ematen ez zaien aukera aprobetxatu nahi dutela.
Parte hartzeko...
Parte hartzea oso erraza da. Joan gaitu.eus webgunera eta sakatu «Egin klik hemen eta eman zure ahotsa» botoia. Common Voice euskaraz webgunea agertuko zaizu. Bertan egin ditzakezun bi lan nagusiak eskaintzen zaizkizu: Hitz egin eta zure ahotsa grabatu, eta Entzun eta besteen grabazioak balioztatzen lagundu.
Grabazioak egitea oso erraza da. Gogoratu ahots goran irakurtzen hasi aurretik grabazioa hasteko botoia sakatu behar duzula eta amaitzean gelditzekoa. Bost esaldi osatzean, sakatu Bidali botoia.
Besteek egindako grabazioak balioztatzeak ere ez du misteriorik. Esaldia entzuteko play botoia sakatu, entzun, eta testuan jartzen duena irakurtzen badu ahotsak, sakatu Bai botoia, bestela, sakatu Ez botoia.
Maiz egindako galderak
Amaitzeko parte hartzaileek maiz izaten dituzten zalantza batzuk argituko ditugu.
Grabazioak egiteko estudio bat edo azpiegitura berezia behar dut?
Ez, ez da aparteko ezer behar. Grabazioak egiteko nahikoa da telefono mugikor bat edo mikro arrunt bat duen ordenagailu bat.
Soinu kalitateak altua izan behar du?
Ez. Ohiko gailuekin egindako ahots grabazio arruntak behar ditugu. Ez da erabateko isiltasunik behar, baina saihestu atzeko zarata gehiegi izatea.
Euskalkian irakur dezaket?
Ez. Momentuz batuan izan behar du. Norbere azentu, intonazio eta estilo naturalak ongi etorriak dira, baina testuan jartzen dena irakurri behar da.
Aldaera fonologikoak onartzen dira, adibidez, geologia «geologia» edo «jeolojia» bezala irakur daiteke, edo «makilla» eta «makila», baina ez da bestelako aldaketarik egin behar. Adibidez, gipuzkoarrek joera handia dute «dut» ordez «det» esateko. Hori saihestu behar da adimen artifiziala datu horiekin trebatzean nahastu egiten duelako. Beraz, besteen grabazioak balioztatuz gero, horiek okertzat jo behar dira.
Hedabideen garrantzia Common Voicen
Azaldu bezala, proiektua martxan jartzeko, jabetza publikoan zeuden idatzizko milaka esaldi behar ziren. ARGIAk proiektua bultzatu nahi izan zuen eta bere ekarpena egin zuen. Duela gutxi EITBk ekarpen handia egin du hainbat esaldi jabetza publikora lagaz. Beste hedabide batzuk ere idatzizko esaldien ekarpenak egitera animatuko balira Common Voice proiektu polit honi ekarpen galanta egingo liokete.
Euskaldunok batuta gauza harrigarriak egiteko gai gara, behin baino gehiagotan erakutsi dugun zerbait da, eta etorkizunean ere erakutsiko dugu. Euskaldunok ez dugu merezi hizketaren ezagutza erdaretan egin behar izaterik, baizik eta gure hizkuntzan. Eskerrik asko eta animatu gaitezen, bakoitza bere modura, Common Voice euskaraz bultzatzen.