Se lanza Galileo para brindar a los científicos de datos los superpoderes que necesitan para el aprendizaje automático con datos no estructurados

Se lanza Galileo para brindar a los científicos de datos los superpoderes que necesitan para el aprendizaje automático con datos no estructurados

  • Big Data
  • mayo 3, 2022
  • No Comment
  • 82
  • 9 minutes read


Galileo surgió de lo oculto con la primera plataforma de inteligencia de datos de aprendizaje automático (ML) para datos no estructurados, lo que permite a los científicos de datos investigar, descubrir y corregir errores críticos de datos de ML 10 veces más rápido en todo el mundo. entero Ciclo de vida de ML: desde el preentrenamiento hasta el postentrenamiento y la posproducción. La plataforma se encuentra actualmente en versión beta privada con Fortune 500 y nuevas empresas en múltiples industrias.

«Hay muchas plataformas MLOps en el mercado hoy en día, cada una de ellas totalmente capaz de orquestar el ciclo de vida del modelo», dijo Bradley Shimmin, analista jefe de AI Platforms, Analytics and Data Management. “Sin embargo, cuando se trata de abordar el complejo problema de validar y corregir los datos, particularmente los datos no estructurados, muchas plataformas aún asumen que los profesionales de negocios están trabajando con datos que ya conocen y que usarán a lo largo del ciclo de vida de ML. Esto no podría estar más lejos de la realidad y es uno de los mayores cuellos de botella para la adopción de ML en la actualidad. Lo que necesitan son herramientas que aumenten la importancia de los datos desde el principio y traigan los datos con una «D» mayúscula de vuelta a la ciencia de datos. Galileo aborda esta necesidad crítica de frente”.

Más del 80 % de los datos del mundo ahora no están estructurados (texto, imagen, voz, etc.) e históricamente no se han aprovechado en gran medida para ML. Los avances recientes han facilitado que cualquier científico de datos use modelos complejos en datos no estructurados de una manera plug-and-play, lo que ha llevado a un aumento en su adopción en todas las industrias.

Es común que los científicos de datos usen hojas de cálculo y scripts de Python para examinar y corregir sus datos de entrenamiento no estructurados. Esta «investigación de datos» requiere más del 50 % del tiempo de un científico de datos, es ad hoc, manual, propensa a errores y da como resultado una visibilidad deficiente de los datos en toda la organización, lo que genera errores de predicción y sesgos evitables en los modelos de producción.

Galileo adopta un enfoque único para este problema: con solo unas pocas líneas de código agregadas por el científico de datos mientras Galileo entrena un modelo, Galileo registra automáticamente los datos, usa algunos algoritmos estadísticos avanzados que creó el equipo y luego muestra de manera inteligente los puntos de interés del modelo. fallos con acciones e integraciones para solucionarlos al instante, todo en una sola plataforma. Esto reduce el tiempo que lleva encontrar de manera proactiva errores críticos en los datos de ML en los modelos de entrenamiento y producción de semanas hoy a minutos con Galileo.

Galileo va un paso más allá al actuar como un sistema colaborativo de registro para las ejecuciones de capacitación del científico de datos, brindando transparencia sobre cómo los datos específicos y los cambios en los parámetros del modelo afectan el rendimiento general; esto es clave para que los equipos de ML estén verdaderamente impulsados ​​por los datos.

“La motivación para Galileo provino de nuestras experiencias personales en Apple, Google y Uber AI, y de hablar con cientos de equipos de ML que trabajan con datos no estructurados, que encontramos que tienen una larga lista de herramientas MLOps centradas en modelos con la opción de make, el mayor cuello de botella y la mayor pérdida de tiempo para el aprendizaje automático de alta calidad es siempre corregir los datos con los que está trabajando. Esto es crítico pero prohibitivamente manual, ad hoc y lento, lo que resulta en predicciones de modelo deficientes y sesgos de modelo evitables que se deslizan en la producción de la empresa”, dijo Vikram Chatterji, cofundador y director ejecutivo de Galileo. “Dado que los datos no estructurados se generan en toda la empresa a un ritmo sin precedentes y ahora se aprovechan rápidamente para ML, estamos construyendo Galileo con el objetivo de ser el banco de datos inteligente para que los científicos de datos verifiquen y corrijan de manera sistemática y rápida sus datos de ML y en un lugar para seguir».

Galileo Fundado por ingenieros senior de Apple Google y Uber AI

El equipo cofundador de Galileo dedicó más de una década a desarrollar productos de aprendizaje automático en los que se enfrentaron de primera mano a los tremendos desafíos que plantea el aprendizaje automático con datos no estructurados.

  • Vikram Chatterji (CEO) dirigió la gestión de productos en Google AI, donde su equipo trabajó en la creación de modelos con datos no estructurados, pero pasó semanas analizando los datos en todo el flujo de trabajo de ML, a menudo usando hojas de cálculo y scripts de Google. Esta fue una infrautilización masiva de un recurso costoso (el científico de datos) y resultó en resultados deficientes del modelo debido a las herramientas ad hoc.
  • Atindriyo Sanyal (CTO) lideró la ingeniería en Uber AI (Michelangelo), donde fue co-arquitecto de la tienda de características de Uber y lideró las herramientas de calidad de datos de ML en toda la empresa, lo que resultó en grandes mejoras en el rendimiento de predicción en miles de modelos de producción. También fue uno de los primeros miembros del equipo de Siri en Apple, donde creó la infraestructura fundamental para una mejor gestión de datos de ML.
  • Yash Sheth (vicepresidente de ingeniería) dirigió el equipo de la plataforma de reconocimiento de voz en Google. Jugó un papel decisivo en el aumento de 800 veces el reconocimiento de voz en más de 20 productos de consumo en Google y en miles de empresas en todo el mundo a través de su Cloud Speech API.

Galileo se centra en la investigación de ML basada en datos

La mitad del equipo de Galileo está formado por investigadores de Apple, Google y Stanford AI que se enfocan en ampliar los límites de la investigación centrada en datos, que luego se integra en la plataforma de Galileo para que la use cualquier equipo de ML. La otra mitad del equipo se centra en la creación de sistemas novedosos que puedan realizar cálculos en memoria de latencia ultrabaja en millones de puntos de datos con recursos mínimos del sistema. Esta combinación permite a los clientes de Galileo obtener información de datos rápida e inteligente en todo el flujo de trabajo de ML.

Galileo recauda 5,1 millones de dólares en financiación inicial

Galileo también anunció que ha recaudado 5,1 millones de dólares en financiación inicial. The Factory lideró la ronda, y también asistieron Anthony Goldbloom (cofundador y director ejecutivo de Kaggle) y otros inversores ángeles. Los asesores de la empresa incluyen a Amy Chang (Disney, miembro del directorio de P&G) y Pete Warden (uno de los creadores de TensorFlow).

“Encontrar y corregir errores de datos es una de las mayores barreras para un ML efectivo en toda la empresa. Los fundadores de Galileo han sentido este dolor ellos mismos mientras lideraban los productos ML en Apple, Google y Uber”, dijo Andy Jacques, inversionista de The Factory y miembro de la junta directiva de Galileo. “Galileo ha formado un equipo increíble, ha innovado productos en toda la pila y ha creado una plataforma de inteligencia de datos ML, la primera en su tipo. ¡Fue emocionante ver la rápida adopción del mercado y las respuestas positivas, con uno de los clientes incluso llamando al producto ‘mágico’!”

La compañía planea utilizar los fondos para contratar personal en todos los departamentos y acelerar la investigación y el desarrollo para satisfacer la demanda de la industria de un producto especialmente diseñado que encuentre y repare los puntos ciegos de los datos de ML en todo el flujo de trabajo mientras trabaja con datos no estructurados.

Para leer el blog de Chatterji, Sanyal y Sheth sobre inteligencia de datos de ML, simplemente vaya a: https://www.rungalileo.io/blog/introducing-ml-data-intelligence

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: @InsideBigData1 – https://twitter.com/InsideBigData1



Related post

Fecha de lanzamiento de Ruinsmagus confirmada para la próxima semana

Fecha de lanzamiento de Ruinsmagus confirmada para la próxima…

El próximo rastreador de mazmorras de realidad virtual Ruinsmagus finalmente tiene una fecha de lanzamiento. La gran experiencia RPG se lanza…
A la vanguardia de la construcción con biología

A la vanguardia de la construcción con biología

Ritu Raman, profesor asistente de desarrollo profesional de ingeniería mecánica de d’Arbeloff, se centra en la construcción con biología utilizando células…
Cómo los objetos tecnológicos brillantes distraen la atención de la política climática

Cómo los objetos tecnológicos brillantes distraen la atención de…

Soy ingeniero de formación y me encantan las cosas nuevas. Los últimos gadgets, ideas, diseños. Pero cuando se trata del clima,…

Leave a Reply

Tu dirección de correo electrónico no será publicada.