La ciencia de datos | Data science
Aquí hay algunos problemas con los que realmente tendrá que lidiar en
el espacio de datos. (Aunque hay muchos problemas estadísticos
interesantes en los que pensar en la ciencia de datos, ninguno de estos
enlaces de abajo se ocupa de ellos. Si bien los modelos de ajuste, la
visualización y el análisis constituyen un componente de su tiempo como
científico de datos, la ciencia de datos es y siempre ha sido
principalmente para obtener datos limpios en un solo lugar para ser
utilizados para la interpolación).
-
- Crear paquetes en Python.
- Poner R en producción.
- Optimizar los trabajos de Spark para que se ejecuten de manera más eficiente.
- Datos de control de versiones.
- Hacer modelos y datos reproducibles.
- SQL.
- Construir y mantener datos limpios en lagos de datos.
- Herramientas para pronósticos de series de tiempo a escala.
- Uso compartido de escala de portátiles Jupyter.
- Pensar en sistemas para datos limpios.
- JSON.
- [English]
Here are some problems that you will really have to deal with in the data space. (Although there are many interesting statistical problems to think about in data science, none of these links down deal with them. While adjustment models, visualization and analysis constitute a component of your time as a data scientist, data science is and always has been primarily to obtain clean data in one place to be used for interpolation).
-
- Creating Python packages
- Putting R in production
- Optimizing Spark jobs so they run more efficiently
- Version controlling data
- Making models and data reproducible
- Version controlling SQL
- Building and maintaining clean data in data lakes
- Tooling for time series forecasting at scale
- Scaling sharing of Jupyter notebooks
- Thinking about systems for clean data
- Lots of JSON