El poder del análisis exploratorio de datos para ML

El poder del análisis exploratorio de datos para ML

  • Big Data
  • junio 3, 2022
  • No Comment
  • 76
  • 18 minutes read


Los científicos de datos y los ingenieros de aprendizaje automático empresarial necesitan comprender completamente sus datos para analizarlos adecuadamente, crear modelos e impulsar casos de uso de aprendizaje automático en toda su organización. Esto plantea un desafío importante para estos equipos debido a la falta de herramientas diseñadas específicamente para el descubrimiento, la exploración y el análisis preliminar de datos.

En las primeras etapas del proceso de ciencia de datos, los científicos de datos a menudo tienen que cambiar entre una variedad de herramientas. En primer lugar, está la cuestión de qué datos están disponibles actualmente en su organización, dónde se encuentran y cómo se puede acceder a ellos. Los científicos de datos podrían querer hacer algo de SQLperfiles basados ​​o visualizar los datos para comprender mejor las distribuciones, la veracidad y los matices ocultos. Después de completar estos pasos, es posible que necesiten más o incluso diferentes datos y comenzar el proceso de nuevo.

Es probable que los científicos de datos usen una variedad de herramientas diferentes para moverse a través de sus procesos. Podría ser una versión local de PostgreSQL en su máquina local para examinar conjuntos de datos estructurados; Para la visualización, podrían escribir código o usar una herramienta de BI como Tableau o PowerBI. Cuando proliferan las herramientas, se crea tensión dentro del equipo de ciencia de datos, lo que dificulta la colaboración y ralentiza el desarrollo.

En la última edición de Aprendizaje automático de Cloudera (CML)ahora tenemos nuevas características para resolver los problemas en las primeras etapas del proceso de ciencia de datos. La nueva capacidad de descubrimiento y visualización de datos proporciona SQL incorporado, visualización de datos y herramientas de descubrimiento de datos integradas directamente en la plataforma y accesibles directamente desde las áreas de proyectos de ciencia de datos y ML.

En el resto de este blog, veremos directamente cómo puede usar las nuevas capacidades de descubrimiento y visualización de datos. Si está utilizando CML May o una versión más reciente, puede seguir los pasos a continuación para ver la nueva funcionalidad en acción; Si aún no ha actualizado, le recomendamos encarecidamente que lo haga lo antes posible (lea Este para averiguar cómo actualizar su espacio de trabajo).

Veamos esto en acción

El primer paso es crear un nuevo proyecto en CML.

Sobre el configuración del proyecto > conexiones de datos En la pestaña, los científicos de datos pueden revisar las conexiones que están preasignadas para todos los proyectos nuevos. Las conexiones de almacén virtual Spark, Impala y Hive se descubren automáticamente en el entorno CDP o las crean los administradores, lo que permite a los científicos de datos comenzar su caso de uso.

hacer clic Datos En la columna de la izquierda, los científicos de datos tienen acceso a la experiencia de descubrimiento y visualización de datos, donde pueden ejecutar consultas con la interfaz SQL integrada y crear paneles visuales con un kit de herramientas de arrastrar y soltar.

En el cual sql Los científicos de datos pueden ejecutar consultas para obtener una comprensión básica de los datos con los que están trabajando y comprender la forma y el tamaño básicos de sus datos.

Por elección NUEVO TABLERO La consulta SQL ejecutada se envía al tablero visual y los datos se presentan en una vista de tabla estándar.

Los científicos de datos pueden crear elementos visuales más complejos seleccionando atributos de dimensión o medida y arrastrándolos a los diferentes ejes, colores o campos de filtro del tipo de elemento visual seleccionado.

Los científicos de datos pueden crear paneles complejos para compartir sus resultados de exploración con sus equipos y partes interesadas del negocio.

Después de la exploración visual, los científicos de datos tienen una comprensión sólida de los datos con los que están trabajando y están listos para los siguientes pasos del flujo de trabajo de aprendizaje automático. Pueden comenzar a construir y entrenar sus modelos seleccionando sesiones en la columna de la izquierda y comienza una nueva sesión con tu editor favorito.

Una vez que comienza la sesión, CML muestra las conexiones de datos del proyecto y ofrece fragmentos para crear una conexión. Los científicos de datos pueden extraer los mismos datos sobre los que construyeron sus tableros visuales.

En una sesión de CML, el nuevo cml.datos La biblioteca está preinstalada para reducir la complejidad de la conexión y brindar abstracciones al recuperar un conjunto de datos.

La nueva experiencia exploratoria de ciencia de datos de CML acelera el proceso de desarrollo al reducir el tiempo que lleva buscar, comprender y acceder a los datos con conexiones de datos integradas, SQL y herramientas de tableros visuales. Los científicos de datos ahora pueden enfocarse en crear valor comercial a través del desarrollo de aplicaciones de IA.

Próximos pasos

Si desea obtener más información sobre todo lo que CML tiene para ofrecer y ver estas funciones en acción, le daremos las claves y le permitiremos probar toda la plataforma. prueba de conducción.

Para obtener más información sobre cómo CML y CDP pueden ayudar a los científicos de datos a descubrir y explorar conjuntos de datos en toda su organización, lea Cómo construir una base para la ciencia de datos exploratoria.

Related post

InfraCo Africa está invirtiendo $ 43 millones para lanzar un nuevo fondo de infraestructura centrado en el clima

InfraCo Africa está invirtiendo $ 43 millones para lanzar…

InfraCo Africa, el brazo de desarrollo africano del Grupo de Desarrollo de Infraestructura Privada (PIDG), ha anunciado una inversión ancla de…
Resolviendo un misterio de larga data en la transferencia de calor |  Noticias del MIT

Resolviendo un misterio de larga data en la transferencia…

Es un problema que ha intrigado a los científicos durante un siglo. Pero reforzado por un premio Distinguished Early Career Award…
Método único para separar nanopartículas

Método único para separar nanopartículas

Que La transferencia, acumulación y separación de nanopartículas son procesos clave en bioquímica, fisiología, farmacología y ciencia de materiales. Un estudio…

Leave a Reply

Tu dirección de correo electrónico no será publicada.