Estos días está saliendo la noticia de las escuchas que se hacen de las conversaciones o peticiones que los usuarios de smartphones Android hacen a Google Assistant. Desde que hubo una filtración de audios a un canal de TV belga, Google ha congelado todas las empresas subcontratadas para esta tarea en todo el mundo, y ha estado averiguando cómo transmitir al usuario que, efectivamente, sus peticiones al asistente virtual, debidamente anonimizadas, pueden ser escuchadas por una persona por razones técnicas. Anonimizadas, quiere decir que esos audios no pueden identificar a un usuario de ninguna manera, ya que toda la información personal o cualquier identificador de su smarpthone, ha sido eliminada previamente.
Amazon, y también Apple, hacen lo mismo con su asistente. La razón es sencilla; Es el único método que existe para enseñar al sistema de machine learning cómo contestar mejor las peticiones de los usuarios. Por ejemplo, si alguien está hablando de Siri a un amigo y le dice en medio de una conversación «… y cuando digo Oye Siri, el asistente me contesta«. En este caso, no está invocando a Siri, sino explicando a un amigo cómo se invoca. El sistema debe reconocer esa sutileza y no activar Siri para esperar una respuesta. Sólo cuando el usuario se dirija a Siri directamente, debe aparecer, a pesar de que las palabras Oye Siri se han mencionado. Como te podrás imaginar, hoy en día una persona puede identificar muy fácilmente esta diferencia, pero, ¿puede hacerlo un programa? – la respuesta es que no siempre. En la mayoría de casos puede, pero no en todos ellos… y para conseguir llegar a ese 100%, una persona tiene que entrenar al sistema indicándole cuándo es una petición, y cuándo es una conversación ajena. En realidad, lo hacen un ejército de personas, y corrigen miles, o decenas de miles de veces, para que el sistema pueda aprender la diferencia.
Así funcionan todos los sistemas de machine learning. En el ejemplo anterior os contamos uno de los ejercicios más simples… el de identificar una llamada de Oye Siri debidamente. Pero hay muchos más ejercicios mucho más complicados. Por ejemplo, cómo identificar la parte de la frase que hay que traducir cuando se pregunta «Oye Siri, ¿cómo se dice quiero un café en alemán?» – el sistema tiene que saber identificar la frase a traducir, que no es quiero un café en alemán, sino simplemente quiero un café. Es relativamente fácil crear una red neuronal para que un sistema de inteligencia artificial sirva respuestas de un asistente virtual, pero es realmente muy difícil conseguir que sea totalmente infalible. Lo mismo ocurre con casi todos los demás sistemas de inteligencia artificial, como por ejemplo la conducción autónoma; Es relativamente rápido conseguir que un coche conduzca solo en determinadas circunstancias controladas, como por ejemplo una autopista. Pero conseguir que lo haga en cualquier carretera y circunstancia, de día o de noche, y que nunca se equivoque, es muchísimo más difícil y requiere de más tiempo. Llegar al 95% es asequible, pero llegar al 100% se acerca mucho a lo casi imposible.
Apple, Google, Amazon y Microsoft están ahora intentando completar esos últimos porcentajes y para conseguirlo la única manera es tener a un ejército de personas que enseñan a los sistemas de aprendizaje lo que es correcto contestar. Para eso escuchan un porcentaje muy bajo y anonimizado de todo tipo de audios, y van corrigiendo al sistema en su respuesta. El problema no es que hagan esto, sino que lo especifican de manera difícil de entender en la letra pequeña de las condiciones de uso de Google Assistant, Siri o el asistente que toque en cada momento, cuando en realidad, debería haber un mensaje bien claro que indique al usuario que sus peticiones podrían ser escuchadas por una persona tras haber eliminado todo tipo de información personal, de la misma manera que hoy en día llamas a cualquier banco o servicio y lo primero que escuchas es una locución que dice que su llamada podría ser grabada para mejorar la calidad de la asistencia. Probablemente Google tenga congeladas estas tareas, subcontratadas a empresas que en España y otros países pagan a nativos de muchas lenguas para escuchar unos 6000 audios de este tipo a la semana, hasta que tengan ese aviso funcionando y los usuarios puedan ser más conscientes de lo que hacen al utilizar el asistente.
Por ahora, uno tiene que asumir que su altavoz inteligente con Alexa, su Google Home, Siri en un HomePod, iPhone, Apple Watch o iPad, Cortana o Google Assistant en cualquier smartphone Android o Google Home, es un micrófono en el que lo que digas puede escucharse por otra persona… sea una petición o no. Es una grabación que no te podrá identificar, pero que existe y podría ser escuchada si te toca estar en ese pequeño porcentaje de audios que se eligen para entrenar este sistema de machine learning. – ¿No te gusta la idea? – no hay problema. No utilices Siri, o Alexa… siempre se pueden desactivar totalmente, con un botón físico o en la App de Ajustes de iOS. Perderás su funcionalidad pero obtendrás la garantía de que nadie escuchará lo que vas diciendo cerca del dispositivo.
Explicada la situación, ahora que la noticia de las escuchas de Google se ha convertido en una noticia, llegan ahora noticias similares de escuchas de audios de Siri, según nos cuentan en The Guardian. Aquí nos cuentan que, aunque los audios no tienen ninguna identificación personal, sí permiten escuchar cosas terribles, como es lógico… desde personas manteniendo relaciones sexuales hasta otras personas hablando con su doctor o haciendo un trato sobre drogas, por ejemplo. Todas estas cosas forman parte del a naturaleza humana y es lógico que, escuchando grabaciones de millones de personas, un porcentaje de las mismas sean cosas que nadie quiere tener que escuchar, especialmente esos revisores que escuchan y comprueban miles de grabaciones en un sólo día.
Apple por su lado nunca lo ha negado. Lo confirma en su web y además deja claro que esas grabaciones se pueden escuchar sólo en un lugar controlado y dedicado sólo a esta tarea, a donde las personas contratadas van a trabajar. Es una situación mucho mejor que la de Google, en donde se deja esta tarea a empresas subcontratadas que a su vez contratan a personas por horas que trabajan en sus propias casas, lejos de cualquier tipo de vigilancia o control. Es por eso que más de mil audios del asistente de Google se filtraron a un canal de TV. Aún así, no deja de ser cierto que Apple contrata a personas para escuchar esos audios y mejorar Siri.
A pesar de todo es muy probable que todo esto lleve a Apple a tener que especificar mucho más claramente que las grabaciones de audio de Siri pueden llegar a ser escuchadas por una persona, antes de que el usuario acepte el resto de condiciones del servicio. Es algo que muy probablemente veremos en el futuro.