Hicimos una demostración técnica de escalar procesos escritos en R a altos volúmenes de datos que ixpantia junto con el equipo de Pachyderm que quedo publicado en YouTube
https://www.youtube.com/watch?v=cyDNl5NfUsg
Te invitamos a unirte a este demo técnico gratis y en línea, aún si solo te interesa el tema desde una perspectiva gerencial. El webinario se realizará en inglés.
Para su organización, al igual que muchas otras, va a ser cada vez más importante tener las capacidades para procesar altos volúmenes de datos. En gran medida esto es el resultado de una mayor disponibilidad (en volumen y calidad) de datos en nuestras organizaciones.
Los datos tienen múltiples usos, uno de ellos es el uso de datos históricos para entrenar modelos de machine learning. Estos modelos son la base para las iniciativas de inteligencia artificial en nuestras organizaciones. La capacidad de poder entrenar estos modelos de forma eficiente da la ventaja competitiva sobre los demás jugadores en el mercado.
Cómo escalar el procesamiento de datos mientras aprovechamos el desarrollo que ya se ha hecho, es un tema sobre el cual nos llegan regularmente preguntas y solicitudes de soporte en ixpantia. Típicamente son equipos que llegaron a un punto donde el proceso funciona, pero ya no puede ser ejecutado en una sola unidad de computo (computador o servidor).
Junto con la necesidad de escalabilidad en el procesamiento de datos también crece la oferta de productos y servicios para dar una respuesta. Para tomar una decisión informada es importante ver diferentes soluciones en la práctica para analizar cuál se adecua más a la situación y los recursos con los que cuenta la organización.
A muy grandes rasgos las opciones son las siguientes. En un extremo hay soluciones que buscan dar una interfaz sin código para dejar el entrenamiento como caja negra y enfocarse en el resultado. En el otro extremo están soluciones que son agnósticas al lenguaje que se usa para la definición de los procesos. Esto da la posibilidad de crear procesos a medida y tanto en la metodología usada como en la ejecución.
Nuestro objetivo con el webinario es dar un ejemplo práctico que ayude a bajar a tierra el concepto de computación distribuida. Si no lograste acompañarnos, aqui quedó la grabación.
https://www.youtube.com/watch?v=cyDNl5NfUsg
Si hay suficiente interés valoraremos hacer el webinario en Español. Mandame un mensaje por twitter o linkedin si te interesa ver un webinario en español sobre trabajar con datos a estas escalas.