El término Data Science, empieza a utilizarse desde los años 70 para referirse a los métodos de procesamiento de datos, sin embargo, desde el año 2001 es cuando la ciencia de datos se separa del big data, y se proclama como una disciplina independiente.
Las personas que se dedican al Data Science se les llama Data Scientist o Cientifico de Datos, es y ser una de las profesiones más demandadas por las empresas en los próximos años.
¿Qué es Data Science o Ciencia de Datos?
Data Science es una disciplina científica con enfoque en el análisis de múltiples fuentes de datos de donde se extrae información y se descubren patrones con los que se toman decisiones.
Existen datos estructurados y no estructurados, la información estructurada ya está lista en bases de datos o en hojas de Excel, mientras que los datos no estructurados son videos, audios, imágenes, entre otros. Para convertir esta información en contenido de valor para la toma de decisiones, el Data Science utiliza herramientas de la matemática, estadística y por supuesto de la informática, procesando la información con estas herramientas se consigue el conocimiento para tomar acciones preventivas o correctivas.
Todo evento que ocurre en el mundo físico y online genera información, el reto está en leer y almacenar estos eventos convirtiéndolos en datos que puedan ser analizados para tener información y después analizarlos tengamos un conocimiento. El registro de evento en el mundo físico se hace a través de sensores a esto se le denomina: Internet de las cosas (IoT).
¿Qué es Big Data?
Big Data es el término con el que nos referimos a una gran cantidad de datos, que pueden estar en formato estructurado y no estructurado. Big Data es la unión de algunos factoras a los que se les conoce como las «7V», estas son las siguientes:
- Volumen (Información masiva que no se pueden almacenar en un sistema tradicional)
- Variedad (Agrupa información de diferentes formatos y origenes)
- Velocidad (Gran crecimiento de información que se procesa con rapidez)
- Veracidad (Fiabilidad de los datos obtenidos)
- Valor (Información relevante para el análisis y toma de decisiones)
- Visualización (Capacidad de visualizar la información de manea amigable)
- Variabilidad (Adaptación a los cambios y modelos predictivos)
Existen diferencias ente el Data Science y el Big Data los cuales trataremos a continuación.
Diferencias entre Data Science y Big Data
Como se mencionó antes Big Data se caracteriza por manejar gran cantidad de datos a través de sus 7V. Data Science utiliza herramientas para analizar grandes volúmenes de datos, la ciencia de datos utiliza modelos inteligentes que aprenden de sí mismos como el Machine Learning, junto con métodos estadísticos para entrenar a los computadores. Por otro lado el Big Data se encarga de la extracción de la información útil hallada en grandes fuentes de datos.
Se puede afirmar que el Data Science no existiría de no ser por el Big Data, dado que necesita la información lista para ser analizada. Mientras que el Big Data no tendría un valor si no fuese gracias al análisis y métodos usados por la ciencia de datos.
Algoritmos que utiliza el Data Science
El aprendizaje automático de las maquinas es posible gracias al uso de algoritmos que identifican y aprenden patrones. Los principales algoritmos que se encargan de este proceso son los siguientes:
- Machine Learning
- Deep Learning
- Data Mining (minería de datos)
- Text Mining
- Inteligencia Artificial (AI)
Machine Learning
Machine Learning es el aprendizaje automático, es una de las aplicaciones más interesantes de la inteligencia artificial, son capaces de crear sistemas que identifican patrones complejos entre millones de datos a través de algoritmos.
Los algortimos de Machine Learning clasifican la información y anticipan comportamientos aportando a la ciencia de datos la capacidad predictiva que es muy importante para la toma de decisiciones y actuar antes que algo ocurra.
Deep Learning
Deep Learning es uno de los diferentes sistemas para activar procesos de Machine Learning. Crea una red neuronal artificial estructurada por niveles jerárquicos. De este modo, el 1er nivel aprende algo simple que luego es enviado a un 2do nivel jerárquico, este 2do aprendizaje combina ese conocimiento aprendido con otro información que se convierte en algo más complejo, y así sucesivamente.
Un ejemplo del uso de Deep Learning puede ser en el ajedrez, como lo hace el software Alpha Go de Google, es utilizado para descubrir un tipo de información entre millones de datos retando a los campones del mundo del ajedrez. También se utiliza en diagnósticos médicos, análisis de reacción de clientes frente a un producto, en reconocimiento facial, identificación de emociones faciales, en el reconocimiento de voz, clasificación de videos, entre otros.
Algunas empresas invierten en sistemas Deep Learning que monitorean los mensajes en redes sociales y en todo el Internet, analizando los mensajes que sirven para mejorar sus productos o para dar alguna alerta.
Data Mining
El Data Mining, conocido más en español como minería de datos, su conocimiento y procedimiento permiten analizar grandes bases de datos de manera automatizada, identificando los patrones que explican el comportamiento de los datos. Estos patrones se consiguen con el uso de herramientas estadísticas y algoritmos basados en redes neuronales e inteligencia artificial.
Dentro de sus capacidades está el responder preguntas con datos que incluso no estaban antes en consideración, información muy útil para las empresas.
Text Mining
Text Mining como su nombre lo dice es una herramienta para analizar información textual. este proceso forma parte del Data Mining, el Text Mining extrae información de fuentes de texto recuperando datos para ser analizados.
Text Mining realiza búsquedas, describe relaciones o tendencias, clasifica de manera automatizada millones de documentos y elabora resúmenes, entregando valiosa materia prima para la ciencia de datos o Data Science.
Inteligencia Artificial
La Inteligencia Artificial (AI) crea programas y mecanismos con la capacidad de responder con autonomía a información o estímulos en un comportamiento aparentemente inteligente casi humano.
La AI tiene facilidad para integrarse con otras tecnologías, su mayor beneficio es no necesitar de la orden humana para actuar, lo cual es razón suficiente para tener muchos detractores.
La mejora del software fotográfico de los smartphones a los sistemas de seguridad de los vehículos automáticos la Inteligencia Artificial añade una capa de eficiencia a casi cualquier actividad.
Lenguajes de Programación más usados en Data Science
Los principales lenguajes de programación que se utilizan en Data Science son los siguientes:
- Python
- R
- Spark
- Scala
Perfiles profesionales de un cientifico de datos
Los analistas de datos ya son muy requeridos por las empresas, pero un Data Scientist o Cientifico de Datos puede desarrollarse en diferentes áreas y en diferentes tamaño de empresa. Las principales posiciones son las siguientes:
- Data Analyst
- Data Scientist
- Data Engineer
- Data Architect
Data Analyst
El analista de datos tiene el rol principal de la obtención y/o recuperación de datos, procesamiento, estudio avanzado y visualización. Actividades muy relacionadas con el Data Science, además es el encargado de ejecutar la estrategia diseñada por el CDO (Director de Datos)
Debe tener total manejo de las herramientas de Business Intelligence que transforman la información en conocimiento y esta es su principal habilidad. Además debe conocer los lenguajes de programación siguientes: Python, R, Spark.
Data Scientist
Es la evolución del Data Analyst, es un rol más especifico y menos alineado con la visión del negocio. Es el que se encarga de sacarle valor a los datos y su función esta más enfocada en la predicción.
Data Engineer
Los Data Engineer preparan todo el ecosistema para que los demás puedan obtener los datos limpios y preparados para su análisis. Están encargados de ejecutar el diseño del modelo elegido. Su rol se basa en diseño, desarrollo, construcción, prueba y mantenimiento de los sistemas de procesamiento de datos.
Este perfil debe tener la capacidad de ir incorporando nuevas herramientas y tecnologías, deben tener conocimientos de base de datos relacionales y no relacionales, así como lenguages de programación como: Python, Spark y Scala.
Data Architect
Es un Data Engineer con una visión más global, con un función más orientada a la integración, centralización y en el mantenimiento de todas las fuentes de datos. Es el encargado del diseño y la implementación de arquitecturas de sotware en proyectos de Big Data. Tienen un alto conocimiento del manejo de datos estructurados y no estructurados.