Episodio 64 🐍⚙️
Nueva versiones de JupyterLab, mamba y más, devolviendo el equilibrio a datos desbalanceados, a vueltas con Spark y los nuevos data warehouses, DuckDB para todo, y la rica conferencia canaria
🔥 Ha salido JupyterLab 3.6.0 con muchísimas novedades, y entre ellas el muy esperado modo colaborativo. Si llevas un tiempo siguiendo el proyecto tal vez esto te suene de algo, y no te faltaría razón: lo cierto es que ya hubo una versión de JupyterLab con colaboración en tiempo real, la 3.1 ¡en julio de 2021! Pero esta versión tenía graves problemas, y varios usuarios observaron cómo les desaparecían o se les corrompían completamente los notebooks. Casi dos años después la arquitectura de Jupyter ha cambiado completamente, y ahora sí que sí podemos confiar en que esta nueva funcionalidad será robusta.
Otros cambios interesantes incluyen un nuevo sistema de usuarios y notificaciones (posiblemente en preparación a lo que se viene para JupyterLab 4.0), mejoras de rendimiento, y algunas cosas más. Para más información, recomiendo leer el anuncio oficial.
He notado a mi alrededor que hay una brecha bastante grande entre data scientists, que utilizan JupyterLab o editores más minoritarios como Spyder, y data engineers, que suelen preferir VS Code o PyCharm. ¿Tú qué opinas? ¡Deja un comentario!
🚀 mamba 1.3.0 incluye mejoras en cómo conda instala paquetes de pip especificados en los environment.yml
, y se me había pasado de la versión anterior que ahora usa un formato de compresión diferente y las velocidades de descarga e instalación han mejorado aún más:
TorchGeo 0.4.0 es “la versión más grande hasta la fecha”, con nuevos datasets (incluyendo uno del satélite Sentinel-1 y otro de cobertura de nubes), soporte para PyTorch Hub para descarga de modelos pre-entrenados, detección de objetos, y muchísimo más.
Y por último, deepchecks 0.11 no tiene unas notas de versión muy entendibles, pero autores son majos y me han enviado una camiseta.
💡 Esta semana he descubierto jupysql, un fork de ipython-sql con funcionalidades nuevas, y balance, una biblioteca Python para ajustar el sesgo en muestras desbalanceadas (más información en este artículo).
📚 Un ingeniero de datos de Canva cuenta que la empresa ha dejado de usar Spark, y que todas las transformaciones de datos las hacen con dbt sobre Snowflake. Y con Snowpark Python, parece que esta tendencia se está acelerando. Por supuesto Spark no va a desaparecer, pero está claro que la industria sigue evolucionando y que la joya de la corona del ecosistema Hadoop (o más bien, lo único que merecía la pena salvar de él) ya dejó atrás sus días dorados.
También me ha gustado mucho este artículo de la inimitable Vicki Boykis sobre su experiencia desgranando problemas de rendimiento en pandas y al final llegando a DuckDB. Josh Willis dio un buen resumen:
🇪🇸 ¡La PyCon España 2023 ya tiene web! Y los memes no se han hecho esperar. Ve preparando el #MojoPycón.
¿Buscas proveedor de dominios y hosting bueno, bonito y barato para tu próximo proyecto? Llevo años con Dinahosting (enlace afiliado) y no me cambio por nada, el soporte 24 horas es 🔝, y son de Galicia 🇪🇸
Jupyter notebooks en VSCode con Copilot y a volarrr!
Un abrazo, Juan Luis!