Kevin Scannell trabaya como profesor del área de Matemátiques y Computación de la Universidá de Saint Louis en Missouri (Estaos Xuníos) y ye'l responsable d'Indigenous Tweets. Esti sitiu web pon atención al usu de les llingües minorizaes na Rede, ente elles l'asturianu.
¿En qué consiste Indigenous Tweets y qué atopamos na páxina web?
IndigenousTweets ye una páxina web que fixi cola intención de que los falantes de llingües minorizaes y indíxenes puedan tener contactu a traviés de Twitter. Ye mui cenciella: namái ye un llistáu de llingües que la páxina ye quien a identificar, de forma que si escueyes la to llingua ves el llistáu de xente que ta tuiteando nella, con estadístiques sobre los tweets, cuanta xente los escuca, etc.
El proyectu centra la so atención nes llingües minorizaes. ¿Cuál ye'l motivu pa ello?
De siempres tuvi interés nes llingües minorizaes, principalmente por ser yo mesmu falante d’irlandés; asina entamé a desenvolver delles ferramientes pa los falantes d’irlandés hai más de 10 años. Col tiempu, decatéme de que muncho de lo que taba desenvolviendo podía aplicase con mui poques modificaciones a cientos de llingües onde la xente taba intentando construyir una base tecnolóxico. Asina que ye una especie de cruzada: la intención ye algamar que tola xente pueda mandase de la so llingua materna na Rede.
Lo que más me llama l'atención ye la existencia de pilancos técnicos y psicolóxicos. Munches de les llingües nun tienen recursos como pueden ser los teclaos, los iguadores ortográficos, el software de traducción... Tal paez que munches de les nuestres llingües nun tienen sitiu na Rede o nel mundiu modernu nun sentíu más ampliu porque los sos ámbitos d’usu son los tradicionales, na familia, asina que toi trabayando tamién pa valtiar eses torgues psicolóxiques.
Fala de dos tipos de pilancos: los técnicos y los psicológicos. ¿Cuálos son los más difíciles de superar?
Les dos. L’asuntu ye que tengo la impresión de tener la capacidá p’ayudar a superar esos pilancos técnicos trabayando duro y construyendo ferramientes que la xente pueda usar. Nesi sentíu yá tuvimos dalgo d’éxitu. Lo más difícil ye que la xente se sienta cómodo usando les sos llingües minorizaes na Rede. Ésa ye la segunda motivación que tien Indigenous Tweets: demostrar que delles de les nuestres comunidaes minorizaes son fuertes. Como muestra d’ello, el vascu tien 3000 usuarios na nuestra páxina y tamos descubriendo más cada día. Incluso pa los falantes de comunidaes reducíes, pa min ye mui reconfortante alcontrar qu’hai ‘dalgún’ usuariu en delles de les llingües más en pelligru d’Australia, o de les llingües natives de Norteamérica. Y hai xente mozo faciéndolo... Nel momentu que la xente lo vea sedrá un sofitu pa ellos.
Al respective de les llingües indíxenes de los Estaos Xuníos, va unos meses la comunidá cherokee llegó a un alcuerdu con Apple pa poder usar los sos preseos –iPhone, iPad, iMac– cola grafía de la so llingua.
Sí, foi un gran impulsu. El pasáu mes d'ochobre tuvi la oportunidá de conocer nun congresu a dos mozos de la Nación Cherokee que m’informaron del trabayu que taben siguiendo. Tán faciendo coses ablucantes de la mano d’Apple, y lo que ye más importante, tán vinculando los sos esfuercios a un procesu de recuperación llingüística más ampliu. N’otres pallabres, tán llevando esta tecnoloxía a los iPhones, iPads y Macs, pero amás tamién tán poniendo esos preseos nes manes de la reciella dientro d’un procesu d’inmersión llingüística en cherokee nes sos escueles. Ye parte de la estratexa. Soi un gran defensor del software llibre pa les llingües minorizaes. Ésta ye la manera de que nun queden colgaos nel casu qu’Apple decida dexar de dar sofitu al cherooke en dalgún momentu.
N'Asturies, dientro del movimientu de recuperación llingüística, hai una discusión recurrente: pagar como fixeron otres comunidaes llingüístiques a Microsoft –Cataluña, País Vascu y Galicia– o aprovechar les posibilidaes del software llibre como lleva faciendo’l colectivu Sotfastur con Ubuntu, OpenOffice…
Ye una escoyeta difícil. Microsoft invirtió munches perres nel so ‘Local Language Program’. Coincidí con dalgunes d’eses persones y son receptives, pero Microsoft nun dexa de ser una empresa con ánimu de lucru; polo tanto, los sos intereses nun tienen por qué ser los mesmos que los de la comunidá de falantes. Hai una historia de va unos años sobre cómo Microsoft quitó’l sofitu a la llingua dzongkha de la primer versión de Windows. Foi por culpa de presiones polítiques del gobiernu chinu, yá que’l dzongkha comparte la mesma escritura que’l tibetanu. Ye un bon exemplu de los pelligros de trabayar con empreses con ánimu de lucru.
¿Y Google? Ye una de les empreses que más perres ta invirtiendo y xenerando tecnolóxía nesti campu.
Google ye un casu atípicu porque nun producen software esactamente; son servicios web como Google Translate. Hai munches llingües que yá lo tán usando. Google da serviciu de traducción, por exemplu. Google necesita datos pa introducir nos sos servidores, asina que si tienes una correspondencia de 10 millones de pares de pallabres ente l’inglés y l’asturianu, ellos van tar encantaos de date esi serviciu –nun conozo’l datu esactu, ye solo una estimación mia y un deséu–. Pero, siempres que tengas el control sobre esa base de datos, nun tarás llimitando les tos opciones como comunidá al compartilo con Google.
La intención final ye que les máquines sían a interpretar y reproducir el llinguaxe humanu. La Intelixencia Artificial ye ún de los campos de trabayu onde más se ta investigando nos últimos años.
Sí, ye una pequeña estaya dientro del mio campu de trabayu. Trabayo en concreto no que denominamos Procesamientu del Llinguaxe Natural Inglés. Investigo sobre cómo facer que’l software sea quien a procesar el llinguaxe humanu d’una forma afechisca: reconocimientu de voz y traducciones automátiques, ente otres coses. Como trabayo con llingües minorizaes, céntrome en recursos básicos, como iguadores ortográficos, diccionarios na Rede y conxuntos de caracteres pa los teclaos. Por exemplo, xunto con un alumnu, Michael Schade, ficimos un añadíu pal Firefox que permitía a los falantes de munches llingües tuvieren más facilidaes pa mecanografíar na so propia llingua: http://accentuate.us/. La clave d’ello ye la capacidá de deprendimientu de les máquines. Nosotros desenvolvemos sistemes que deprenden como traducir o como reconocer la voz o una pronunciación correcta depués d’un tiempu d’entrenamientu. Foi’l mayor avance nesta estaya nos últimos 20-25 años gracies a tener accesu a munchos más datos de la web y al disponer de computadores con una mayor capacidá y rapidez de procesu. El pelligru ye que les llingües minorizaes tean quedando fuera d’esta revolución.
De toes maneres, en teoría, la tecnoloxía ye quien a llenar esi vaciu y volver al estáu actual.
Seguramente pa dalgunes llingües, pero pa otres munches ye altamente probable que nun heba datos abondo pa satisfacer les necesidaes de sistemes como Google Translate. Toi falando del hawaianu o del maorí, por exemplo. Nestos casos hai un déficit de falantes pa xenerar toos esos datos.
Y la llingua muerre... ¿Un idioma que nun sea quien a dar esi pasu ta condenada a mediu plazu?
Sí, o sinon tenemos que ser quien p’alcontrar otres estratexes distintes pa desenvolver esta tecnoloxía. Si nun tienes datos abondo pa les necesidaes de Google Translate puedes intentalo con Apertium, por exemplo. Apertium ye un sistema que se basa en regles, non n’estadístiques. Conozo’l proyectu asturianu d’Apertium, por exemplo. Tolo que necesites ye dedicar recursos humanos pa construyir diccionarios y regles. D’esa manera puedes tener un sistema de traducción automáticu. La otra cosa na que toi interesáu ye investigar estratexes estadístiques que nun necesiten tantos datos. N'otres pallabres, ¿ye posible facelo, usando algoritmos más esactos, utilizando namái’l 5 o 10 por cientu de lo que necesita Google? Nun hai nada seguro
¿Ye optimista sobre la situación del asturianu dientro d'esti contestu tecnolóxicu y teniendo en cuenta les ferramientes que yá tenemos?
Sí, soi mui optimista nel casu de llingües nuna situación como la del asturianu. Ta nel mediu de la tabla. Nun ye tán grande como pueden ser el castellanu y francés, pero nun ye tán pequeñu como’l casu del hawaianu y del maorí.
¿Gracies a estes ferramientes que tán desenvolviéndose?
Hai munchos factores a considerar. Los asturianos tienen muncha xente con una formación universitario, con conocimientu de computación y tecnoloxía, y eso ye lo que fae la gran diferencia. Esto nun ye cierto del too pa munches de les llingües d’Indigenous Tweets. Davezu, el desenvolvimientu d’esta tecnoloxía acaba siendo cosa d’una sola persona.
¿Ye una cuestión de conciencia llingüística, non un problema técnicu?
Claro, ye igual que n’Irlanda. Tenemos muncha xente capacitao técnicamente, pero naide lo ta aplicando a la llingua. Imaxino que ye lo que quier dicir.
Sí.
Un aspectu rellacionáu con eso ye la importancia de compartir esperiencies ente llingües minorizaes. Indigenous Tweets ye un bon exemplu. Lo que más m’importa ye la mio propia llingua, l’irlandés, pero esti mesmu software ayuda a qu’heba otres 67 llingües na páxina web. Polo tanto, aquelles comunidaes llingüístiques onde nun tengan munchos conocimientos técnicos nun tendrán que se preocupar d’ello a partir d’agora.
¿Qué dificultaes específiques tien l’asturianu pa ser quien a distinguilu con 140 caracteres d’otres llingües cercanes como pueden ser el catalán o el castellano?
L’enfoque que-y toi dando básase n’estadístiques. Son estadístiques de caracteres y pallabres qu’apaecen nos tweets. El principal problema col asturianu ye que’l perfil estadísticu ye mui asemeyáu al castellanu, polo tanto’l programa xenera erros. Al principio, el software taba garrando munchos tweets en castellanu y clasificándolos como asturianu. Asina foi qu’apaecieron dellos sitios de noticies en castellano na parte alta d’usuarios n’asturianu.
¿Conocíes dalgo sobre la llingua asturiana enantes d’Indigenous Tweets?
Sí, dalguna cosa. Munchos de los datos que tengo usao na identificación de llingües tán recoyíos de páxines web, usando una araña web, asina que tuvi qu’echar tiempu en compilar un corpus n’asturianu como base pa que’l sistema deprendiere. Foi va años atrás.
Como usuarios, ¿cómo podemos comunicar los erros de los que nos decatemos n’Indigenous Tweets?
Bona pregunta ¡El problema realmente ye l'asturianu, creelo! Agora, lo más importante ye que me prestaría esborriar de la páxina n’asturianu a los usuarios que tán tuiteando 100 por cientu en castellano. Normalmente mostrarán un 0’5, 1 o 2 por cientu de tweets ‘n’asturianu’. Estos porcentaxes tan baxos son erros d’identificación llingüística. Asina qu’agradeceránse los correos electrónicos colos nomes d’usuariu que debería esborriar. Nel casu qu’heba dellos tweets, prestábame confirmalo: contestaré con un corréu ellectrónicu con dalgunos de los tweets ‘problemáticos’ pa que me confirmen si realmente tán en castellanu.
¿Y cómo pueden ayudar a Indigenous Tweets?
La meyor forma de facelo ye continuar espardiendo la páxina web; suxiriendo nuevos usuarios qu’agregar, que pueden añadise dende la mesma páxina web. Prestarávos saber que tuvi más de 100 propuestes d’usuarios n’asturianu a traviés de la páxina, munchos más que cualisquier otra llingua. Y amás, ayudando a esborriar usuarios en castellanu. L’identificador llingüísticu meyorará col tiempu, en tanto que siga intercambiando datos. Munchos asturianos comentáronme qu’escribíen únicamente n’asturianu y el so porcentaxe yera baxu. Tien que ver col problema pa esbillar asturiano-castellano, como nun queremos usuarios en castellanu, necesitamos usar unos filtros más afayadizos. Si non, los porcentaxes de la xente sedrán más baxos de lo que deberíen ser. Asina qu’espero que la xente lo entienda.
Munches gracies pola entrevista. Encántanos que les llingües minorizaes tengan visibilidá y futuru nesti mundiu
Por supuesto, toi totalmente d’alcuerdu con vosotros. Y quiero aprovechar pa da-yos les gracies a tola xente asturiano que me ta ayudando. La rempuesta de la comunidá ta siendo impresionante.