Data Scientist v Data Engineer, ¿cuál es la diferencia?

Los especialistas en datos y los ingenieros de datos pueden ser nuevos títulos de trabajo, pero los roles de trabajo clave han existido por un tiempo. Tradicionalmente, cualquier persona que analice datos se denomina "analista de datos" y se convierte en un "Desarrollador de Business Intelligence (BI)", que crea una plataforma de back-end para soportar el análisis de datos.

Con la llegada de los grandes datos, han surgido nuevos datos en corporaciones y centros de investigación: científicos de datos e ingenieros de datos.

Aquí hay una breve descripción del rol de Analista de datos, Programador de BI, Especialista de datos e Ingeniero de datos.

Analista de datos

Los analistas de datos son profesionales experimentados con la capacidad de consultar y procesar datos en su organización, presentar informes, resumir y visualizar datos. Saben cómo usar las herramientas y técnicas existentes para resolver problemas y ayudan a las personas de toda la empresa a comprender consultas específicas mediante informes y cronogramas ad hoc.

Sin embargo, no se espera que se ocupen del análisis de big data, y generalmente no se espera que tengan datos matemáticos o de investigación para desarrollar nuevos algoritmos para problemas específicos.

Habilidades y herramientas: los analistas de datos deben tener algunos conocimientos básicos de habilidades básicas: estadísticas, recopilación de datos, visualización de datos, búsqueda de datos, Microsoft Excel, SPSS, SPSS Modeler, SAS, SAS Miner, SQL, Microsoft Access, Tableau, SSAS.

Desarrolladores de inteligencia empresarial

Los fabricantes de inteligencia empresarial son profesionales de datos que tienen una relación más estrecha con las partes interesadas internas para comprender las necesidades de informes y luego recopilar los requisitos, crear soluciones de informes de BI y de la empresa. Deben diseñar, desarrollar y mantener bases de datos nuevas y existentes, paquetes ETL, cubos, paneles e informes analíticos.

Además, trabajan con bases de datos cruzadas y multidimensionales y deben tener amplias habilidades en el desarrollo de SQL para integrar datos de una variedad de fuentes. Utilizan todas estas habilidades para satisfacer las necesidades de autoservicio de la empresa. Por lo general, no se espera que el productor de BI realice análisis de datos.

Habilidades y herramientas: ETL, procesamiento de informes, OLAP, cubos, inteligencia web, diseño de objetos de negocio, Tableau, herramientas de tablero, SQL, SSAS, SSIS.

Ingeniero de Informacion

Los ingenieros de datos son especialistas en datos que preparan una infraestructura de "big data" que es analizada por especialistas en datos. Son ingenieros de software que diseñan, construyen, integran y administran grandes datos de una variedad de fuentes. Luego escriben consultas complejas, se aseguran de que sean de fácil acceso, funcionen sin problemas y su objetivo es optimizar el rendimiento del ecosistema de big data de la compañía.

También pueden ejecutar algunos programas ETL (Extraer, Transformar y Cargar) en grandes conjuntos de datos y crear grandes bases de datos que pueden ser utilizadas por los científicos de datos para informes o análisis. . Además, dado que los ingenieros de datos están más centrados en el diseño y la arquitectura, por lo general no esperan conocer ningún aprendizaje automático o análisis de big data.

Habilidades y herramientas: Hadoop, MapReduce, Hive, Pig, MySQL, MongoDB, Cassandra, Data Flow, NoSQL, SQL, Programming.

Científico de datos

Data Scientist 21st Century Alchemist: Alguien que transforma datos en bruto en conceptos refinados. Los científicos de datos utilizan enfoques analíticos para resolver problemas importantes en estadística, aprendizaje automático y negocios. Su tarea principal es ayudar a las organizaciones a transformar grandes volúmenes de grandes datos en información valiosa y efectiva.

De hecho, la ciencia de datos no es una dirección completamente nueva, pero puede verse como un nivel avanzado de análisis de datos controlado y automatizado por el aprendizaje automático y la informática. En otras palabras, los científicos de datos tienen fuertes habilidades de programación, nuevos algoritmos, procesamiento de grandes datos y conocimiento de dominio, además de análisis de datos, en comparación con los "analistas de datos". se espera

Además, se espera que los científicos de datos interpreten y compartan libremente los hallazgos de sus hallazgos con historias interesantes sobre cómo visualizarlos, crear aplicaciones de datos o resolver sus problemas comerciales de datos.

Las habilidades de resolución de problemas de los científicos de datos requieren una comprensión de las técnicas de análisis de datos tradicionales y nuevas para construir modelos estadísticos o identificar patrones en los datos. Los ejemplos incluyen la creación de un sistema de referencia, la predicción del mercado de valores, el diagnóstico basado en el paciente o la búsqueda de transacciones falsificadas.

A veces se pueden proporcionar datos a los científicos en general cuando no hay ningún problema comercial. En este caso, se espera que un Data Scientist curioso estudie la información, encuentre las preguntas que necesita y proporcione resultados interesantes. Esto es difícil, porque a los expertos en análisis de datos les apasiona el análisis de datos, la recopilación de datos, las estadísticas y los diferentes métodos en la infraestructura de big data. Debe tener mucho conocimiento.

Deben tener experiencia trabajando con diferentes conjuntos de datos de varios tamaños y formas y utilizar sus algoritmos para datos a gran escala de manera efectiva y eficiente, lo que generalmente significa estar al tanto de las últimas tecnologías. Es por eso que es importante conocer los conceptos básicos de la informática y la programación, incluidos los lenguajes y las tecnologías de bases de datos (grandes / pequeñas).

Habilidades y herramientas: Python, R, Scala, Apache Spark, Hadoop, herramientas y algoritmos de búsqueda de datos, aprendizaje automático, estadísticas.

MUORO - Genio de datos y análisis muoro.io