La ciencia de datos | Data science

2019-11-15T17:40:27Z (GMT) by Juan Antonio Lloret Egea

Aquí hay algunos problemas con los que realmente tendrá que lidiar en el espacio de datos. (Aunque hay muchos problemas estadísticos interesantes en los que pensar en la ciencia de datos, ninguno de estos enlaces de abajo se ocupa de ellos. Si bien los modelos de ajuste, la visualización y el análisis constituyen un componente de su tiempo como científico de datos, la ciencia de datos es y siempre ha sido principalmente para obtener datos limpios en un solo lugar para ser utilizados para la interpolación).


    1. Crear paquetes en Python.
    2. Poner R en producción.
    3. Optimizar los trabajos de Spark para que se ejecuten de manera más eficiente.
    4. Datos de control de versiones.
    5. Hacer modelos y datos reproducibles.
    6. SQL.
    7. Construir y mantener datos limpios en lagos de datos.
    8. Herramientas para pronósticos de series de tiempo a escala.
    9. Uso compartido de escala de portátiles Jupyter.
    10. Pensar en sistemas para datos limpios.
    11. JSON.

  1. [English]

Here are some problems that you will really have to deal with in the data space. (Although there are many interesting statistical problems to think about in data science, none of these links down deal with them. While adjustment models, visualization and analysis constitute a component of your time as a data scientist, data science is and always has been primarily to obtain clean data in one place to be used for interpolation).


    1. Creating Python packages
    2. Putting R in production
    3. Optimizing Spark jobs so they run more efficiently
    4. Version controlling data
    5. Making models and data reproducible
    6. Version controlling SQL
    7. Building and maintaining clean data in data lakes
    8. Tooling for time series forecasting at scale
    9. Scaling sharing of Jupyter notebooks
    10. Thinking about systems for clean data
    11. Lots of JSON