5 preguntas para entrevistar un Data Scientist

Ricardo Galicia

Las 5 preguntas para entrevistar un Data Scientist son: 



De acuerdo con SimpliLearn, se prevé que las oportunidades para el rol de Data Scientist crezcan hasta en 29.7% durante el periodo 2018 - 2026. Esto demuestra la demanda existente para este cargo en el mercado laboral. 



Tabla de Contenidos

Introducción

Sabemos que contratarás talento para este cargo. Por lo tanto, desarrollamos un manual completo para facilitar tu labor. Esta es la última publicación de la serie


Aquí los post relacionados con el tema de Data Scientist:

  1. ¿Qué es un Data Scientist?
  2. 5 habilidades necesarias en un Data Scientist. 
  3. 3 herramientas recomendadas para un Data Scientist. 
  4. 4 KPI que miden el éxito de un Data Scientist. 
  5. 5 preguntas para entrevistar un Data Scientist. (Este post)

En este post te compartimos las preguntas recomendadas para tu entrevista con Data Scientists.

1. ¿Qué técnicas de machine learning has implementado?

Con esta pregunta conocerás los diferentes métodos ocupados por el candidato para el análisis predictivo. De manera que destacará aquellos que considere más efectivos o relevantes. 


Respuesta esperada:

Algunas de las técnicas de machine learning utilizadas para el desarrollo de modelos son:

  • Árboles de decisión: predice el valor de una variable basándose en una serie de decisiones alternativas. 
  • Clasificadores lineales: clasifica los datos de acuerdo a una serie de características y patrones reconocidos en ellos. 
  • Support-vector machine: algoritmo que analiza datos para resolver problemas regresión y clasificación. 
  • Redes neuronales básicas (1 capa): son algoritmos inspirados en el cerebro humano, imitando la forma en que las neuronas biológicas se transmiten entre sí. Las redes neuronales entrenan con datos. De manera que, aprenden y mejoran su precisión con el tiempo. 


A partir de las herramientas anteriores se construyen modelos más avanzados: 

  • Boosting: reduce la variación y sesgo en los datos mediante la optimización constante del modelo. 
  • Random Forest: combina los valores obtenidos de diversos árboles de decisión llegando a un resultado preciso.
  • Gradient Boosted Trees: combina escalonadamente varios árboles de decisión. Los cuales corrigen secuencialmente los errores presentados por el árbol anterior. Lo cual, posibilita una predicción precisa y la optimización constante del modelo. 
  • Deep Learning: redes neuronales de tres o más capas que aprenden y analizan grandes conjuntos de datos. Una de las redes realiza la predicción. Las dos restantes optimizan y refinan la precisión de los datos entregados. 


Respuesta correcta: 

El candidato mencionará las técnicas que domina. Dirá en qué consisten, utilidad, funcionamiento y el tipo de resultados que arroja cada método. Demostrando su dominio en el desarrollo de modelos predictivos.

Más aún el candidato entiende que la utilización de cada una de estas depende del problema que se esté resolviendo y los datos con que se está trabajando.


2. ¿De qué forma evitas el sobreajuste en los modelos?

Esta pregunta permitirá que conozcas cómo el candidato corrige un modelo que se ha sobreajustado a la muestra. Así, conocerás los métodos que utiliza para lograrlo. 


Respuesta esperada: 

Algunos métodos que evitan el sobreajuste son: 

  • Validación cruzada: los datos son divididos en diferentes conjuntos con los que el modelo será entrenado de manera alternada. Al menos uno de los conjuntos será utilizado para pruebas.  
  • Aumento de datos: el entrenamiento con mayor número de datos ayudaría a que el sistema detecte eficientemente patrones y tendencias. 
  • Selección de funciones útiles: consiste en la eliminación de características consideradas como innecesarias. Esto mejora el rendimiento del modelo. 
  • Regularización: reduce la variación y el riesgo de generación de sesgos.
  • Parada anticipada: detención del entrenamiento antes de la sobrecarga del sistema. 
  • Ensamble: entrenamiento de varios modelos de predicción y análisis predictivo. Dichos modelos se combinarán posteriormente en uno solo. 


Respuesta correcta: 

El candidato mencionará los métodos con los que evita el sobreajuste de los modelos. Profundizará en aquellos que le brindan resultados en el menor tiempo y costo posible. De manera que, respalda que los modelos arrojen datos confiables.   


3. ¿Cómo has evitado que tus modelos arrojen sesgos en los datos?

A través de la pregunta conocerás los métodos que utiliza el candidato para la extracción de información de los datos. Mencionando los procedimientos que ocupa para el logro de dicho cometido.


Respuesta correcta: 

A continuación te mostramos los tipos de sesgo comunes y cómo un Data Scientist los evita: 

  • Sesgo de muestreo: ocurre cuando el modelo elige sistemáticamente un conjunto de datos determinado para el análisis. Desestimando los demás valores que forman parte de la población. El sesgo es eliminado cuando el modelo es entrenado bajo todos los posibles casos a los que estará expuesto. Asegurando así la distribución equilibrada de los datos.


  • Sesgo de exclusión: ocurre cuando algunas características de los datos son eliminadas dentro del proceso de limpieza. Pensando que son irrelevantes para su posterior análisis. El sesgo se reduce a través de la investigación de las características necesarias en los datos para el análisis. Así como, la identificación de la relación existente entre los valores. 


  • Sesgo del observador / experimentador: ocurre cuando los datos son alterados por parte del colaborador para el logro de un resultado en específico. Este tipo de sesgo es eliminado estableciendo reglas y procedimientos claros para el análisis predictivo. Garantizando la precisión de los resultados.


  • Sesgo de prejuicio: ocurre como resultado de influencias culturales. Intervienen aspectos como la clase social, estado, género, nivel de estudios, entre otros factores que alteran los resultados. El sesgo es eliminado exponiendo al algoritmo a una distribución de ejemplos más equitativa. Es decir, entrenándolo para que ignore la relación estadística entre género y ocupación, o cualquier otra relación que altere el resultado deseado.


  • Sesgo de medición: ocurre cuando existen problemas o errores de codificación presentes en el modelo. De forma que, sesga los datos hacia una dirección particular. El sesgo es eliminado haciendo la revisión completa de las líneas de código del modelo. Identificando posibles problemas lógicos que eviten su correcto funcionamiento. 


Respuesta correcta: 

El candidato hablará del tipo de sesgos que experimentó previamente. Por lo que, mencionará los procedimientos que utilizó para la eliminación de deficiencias en los datos. Asegurando que la información sea precisa y confiable para la empresa. 


4. ¿De qué manera determinas que un conjunto de datos es de buena calidad?

Con la pregunta sabrás si el candidato sigue una serie de lineamientos con los que evalúa la utilidad de los datos. De modo que, señalará las características que definen la calidad de los registros de información. 


Respuesta esperada: 

Los criterios que determinan la calidad de un conjunto de datos son: 

  • Exactitud: son precisos y confiables. Reflejan la información proporcionada por la fuente original.  
  • Precisión: están libres de errores o sesgos.
  • Integridad: brindan suficiente información y pueden obtenerse conclusiones de los datos. 
  • Singularidad: no existen registros duplicados en la base de datos. 
  • Disponibilidad: son accesibles en todo momento. 
  • Legibilidad: son claros y concisos para todos. 


Respuesta correcta: 

El candidato mencionará los criterios con las que determina la calidad de los datos. Señalará que es importante que no cuenten con sesgos, alteraciones, defectos o sean parciales. Garantizando que la empresa posea información legítima para el análisis y toma de decisiones. 


5. ¿A qué desafíos te has enfrentado como Data Scientist? 

Con esta pregunta conocerás los retos que el candidato encaró previamente en el rol. Por lo tanto, hablará de aquellas situaciones en las que encontró una solución a través de su dominio y conocimiento en el área.


Respuesta esperada: 

Algunos desafíos que enfrentan los Data Scientist en sus labores cotidianas son: 

  • Procesamiento o manipulación de grandes volúmenes de datos. 
  • Extracción manual de datos de fuentes no automatizables.
  • Explicación de los resultados obtenidos a gerentes.
  • Resultados no ocupados para las decisiones de la empresa.
  • Falta de acceso a datos necesarios para el análisis predictivo. 
  • Desarrollo de algoritmos y/o modelos de análisis predictivo que realmente resuelvan el problema en turno. 
  • Fallas en la codificación de modelos y/o algoritmos. 


Respuesta correcta: 

El candidato hablará de los desafíos que ha enfrentado. Hablando acerca del problema en cuestión y la solución que implementó. Así pues, demostrará su capacidad de análisis y respuesta ante situaciones complejas. 


Conclusiones

Ahora cuentas con las preguntas necesarias para tu entrevista con un Data Scientist. Toma en cuenta lo anterior en tu siguiente proceso de reclutamiento y selección. Recuerda, recluta profesionales que analicen efectivamente patrones y tendencias en los datos. 


Te recomendamos que continúes leyendo sobre el tema de Data Scientist. Aquí los demás post relacionados:

  1. ¿Qué es un Data Scientist?
  2. 5 habilidades necesarias en un Data Scientist. 
  3. 3 herramientas recomendadas para un Data Scientist. 
  4. 4 KPI que miden el éxito de un Data Scientist. 
  5. 5 preguntas para entrevistar un Data Scientist. (Este post)


Si estás buscando que el reclutamiento de tu próximo Data Scientist sea 100% online, es el mejor momento para iniciar gratuitamente un piloto con Aira y renovar tus herramientas de reclutamiento. ¡Agenda una llamada con nosotros! 


Aprende a reclutar al mejor talento

Accede a las mejores prácticas en reclutamiento y selección con el contenido especial para tech recruiters que enviaremos a tu correo cada que saquemos contenido que te sume valor.

Artículos Relacionados

Descubre más contenido que te puede interesar.
July 1, 2021

¿Qué es un Data Analyst?

Un Data Analyst es el encargado de compilar, analizar e interpretar datos con los que se puedan definir estrategias de crecimiento para la empresa.
Ricardo Galicia
June 23, 2021

¿Qué es un Scrum Master?

Un Scrum Master es la persona encargada de la correcta ejecución de los procesos ágiles para el desarrollo de productos de calidad dentro de la empresa.
Ricardo Galicia
June 9, 2021

¿Qué es un Product Owner?

En este post te compartimos qué es un Product Owner, sus responsabilidades, salario promedio en el mercado laboral y las certificaciones con las que debe de contar.
Ricardo Galicia