Desde las recomendaciones de productos de Amazon a la capacidad de Pandora para encontrar nuevas canciones que nos gusten, los servicios web más inteligentes se basan en el aprendizaje de máquinas (o aprendizaje automático)—unos algoritmos que permiten a los programas aprender a responder con un cierto grado de inteligencia ante nueva información o eventos.
En la actualidad, Google ha lanzado un servicio de inteligencia que podría hacer que se generen muchas más aplicaciones. Google Prediction API ofrece una manera sencilla de que los desarrolladores creen software capaz de aprender a manejar los datos entrantes. Por ejemplo, estos algoritmos alojados en Google podrían ser entrenados para clasificar los correos electrónicos en categorías de “quejas” y “elogios”, usando para ello un conjunto de datos que proporcionen muchos ejemplos de ambos tipos. Los e-mails futuros se podrían revisar por un software que utilizase una API, y ser gestionados en consonancia.
Actualmente, sólo “cientos” de desarrolladores tienen acceso al servicio, afirma Travis Green, gerente de producto de Google para Prediction API, “pero ya podemos observar que la gente hace cosas asombrosas”. Los usuarios van desde desarrolladores de aplicaciones móviles y web hasta empresas petroleras, asegura. “Muchos quieren ofrecer recomendación de productos, y también hay interesantes casos de usos por parte de organizaciones no gubernamentales, con ideas tales como la extracción de información de emergencia de Twitter o de otras fuentes por Internet”.
El aprendizaje de máquinas no es una función fácil de incluir en el software. Para algunos tipos de datos funcionan mejor una serie de algoritmos y técnicas matemáticas distintas. Suele ser necesario poseer un conocimiento especializado del aprendizaje de máquinas para considerar su uso en un producto, afirma Green.
El servicio de Google ofrece una especie de caja negra de aprendizaje de máquinas—los datos van en un extremo, y las predicciones en el otro. Hay tres comandos básicos: uno para cargar una colección de datos, otro para decirle al servicio que aprenda lo que pueda de ella, y un tercero para presentar nuevos datos y que el sistema reaccione en base a lo aprendido.
“Los desarrolladores pueden implementarlo en su sitio o aplicación en 20 minutos”, afirma Green. “Estamos tratando de ofrecer un servicio más sencillo que no requiera que pasen meses y meses probando diferentes algoritmos”. La caja negra de Google en realidad contiene una larga serie de algoritmos distintos. Cuando los datos son cargados, todos los algoritmos son aplicados automáticamente para averiguar qué funciona mejor para un trabajo concreto, y el mejor algoritmo se utiliza después para manejar cualquier nueva información entrante.
“Llevar el aprendizaje de máquinas a la escala de Google es algo significativo”, afirma Joel Confino, un desarrollador de software en Filadelfia dedicado a la construcción de aplicaciones web a gran escala para bancos y compañías farmacéuticas, además de miembro del programa de utilización previa del sistema de Google. Utilizó Prediction API para desarrollar rápidamente un simple pero efectivo filtro de spam para el correo electrónico, y afirma que el servicio tiene un claro potencial comercial.
Por ejemplo, un banco o compañía de tarjetas de crédito que desee utilizar el aprendizaje automático para construir sistemas que tomen decisiones basadas en el historial de transacciones no es probable que posea el personal especializado y la infraestructura necesaria para lo que sería un proceso muy intenso a nivel de cálculo. “Esta API puede ser una forma de conseguir una cierta capacidad a buen precio, que costaría una enorme cantidad de dinero si se siguiese una ruta tradicional”.
El nuevo servicio de Google también puede ser más aceptable para aquellas empresas que vean con cautela el hecho de entregar sus datos a los proveedores en las nubes, afirma Confino. “Los datos pueden ser completamente ofuscados, y aún así se puede utilizar este servicio. Google no tiene por qué saber si los números que enviamos son precios de acciones o precios de viviendas”.
Google, sin embargo, obtiene cierta información que puede utilizar para mejorar los algoritmos usados para el aprendizaje de máquinas. “Nosotros no nos fijamos en los datos de los usuarios, pero sí observamos la misma métrica en cuanto a la calidad de la predicción que ellos observan, lo que nos ayuda a mejorar el servicio”, afirma Green. Los ingenieros que ejecuten Prediction API sabrán si un algoritmo en particular se utiliza con poca frecuencia, o si hay que añadir uno nuevo al grupo para procesar mejor determinados tipos de datos.
Prediction API tiene el potencial de convertirse en un nivelador entre las empresas establecidas y las nuevas startups más pequeñas, afirma Pete Warden, ex ingeniero de Apple que en la actualidad trabaja en su propia startup: OpenHeatMap.com.”Esa ha sido una ventaja competitiva para grandes empresas como Amazon, cuya recomendación de producto se basa en el aprendizaje de máquinas”, explica. “Ahora seguimos necesitando poseer un buen conjunto de datos con los que entrenar al sistema, pero no tenemos que poseer el mismo nivel de experiencia”.
Warden no ha tenido acceso a Prediction API, pero tiene planes de usarlo para mejorar un servicio que construyó para mostrar dónde se encuentran los grupos de personas que utilizan una determinada palabra o frase en Twitter. “Sería muy interesante ver también el lugar donde se dicen cosas positivas y negativas acerca de un tema”, afirma Warden. Prediction API podría ser entrenado para distinguir entre tweets positivos y negativos, señala.
Chris Bates, científico de datos en el servicio de música online Grooveshark, así como miembro del programa de utilización previa, está de acuerdo en que la caja negra de Google permitirá un uso más amplio del aprendizaje de máquinas, aunque afirma que el servicio necesita madurar. “Hoy en día es bueno para predecir el idioma en que se ha escrito un texto y el análisis de sentimientos, para por ejemplo recoger comentarios positivos y negativos”, afirma.
En última instancia, sin embargo, el hecho de no poder inspeccionar el funcionamiento interno de los algoritmos y ajustarlos para un uso específico podría tener sus límites. “Es bueno para aquellos casos que no sean de importancia crítica, donde nos podamos permitir un cierto número de falsos positivos”, advierte Bates. Por ejemplo, un filtro de spam que en ocasiones permita pasar mensajes no deseados aún podría ser utilizable, aunque una compañía de tarjetas de crédito podría ser menos capaz de aceptar errores.
Artículos relacionados
Etiquetas: Google Prediction