Episodio 70 🐍⚙️
Versiones nuevas de Anaconda, PyCaret y pandera, diferencias de tablas con data-diff, mejora masiva de uso de memoria en Dask, y... el *temita* de sktime
¿Publicar en domingo o dejarlo ya para la semana que viene? He preferido optar por lo primero, sobre todo teniendo en cuenta que aún va a costar que vuelva el noticiero los viernes por la mañana. ¡Que lo disfrutes!
🚀 Esta semana ha salido nueva versión de la Anaconda Distribution, la 2023.03, que incluye la última y más nueva versión de conda, nueva versión de Anaconda Navigator (la interfaz gráfica para lanzar aplicaciones y gestionar entornos), soporte para Python 3.11, e inclusión de transformers y otros paquetes nuevos.
Hablando de conda, ha salido también mamba 1.4, con errores mejorados en caso de conflicto de dependencias y otras pequeñas novedades. Si te animas a probarlo por fin, ojo con acabar como esta persona (mejor usa micromamba):
También tenemos PyCaret 3.0 con unas cuantas novedades: una nueva API orientada a objetos, más variedad de opciones para hacer seguimiento de experimentos (aparte de MLFlow, ahora también Weights & Biases, Comet ML, y DagsHub), compatibilidad con la última versión de scikit-learn (1.x), y un módulo para prognosis de series temporales… aunque sobre esto último hay un temita, mejor sigue leyendo hasta el final.
Y finalmente, pandera 0.14 se ha reinventado, y aunque la nueva versión tiene pocos cambios en la superficie, internamente está menos acoplada a pandas, con lo cual se espera que en el futuro pueda soportar PySpark o Polars.
💡 Esta semana he descubierto data-diff, una herramienta escrita en Python por la empresa datafold para encontrar diferencias entre dos tablas.
Y ojo a este anuncio que me había perdido: ¡este usuario ha conseguido correr JupyterLab directamente en Hugging Face!
📚 Me ha gustado este artículo de Coiled sobre el nuevo algoritmo de ordenación de Dask 2023.2.1, que utiliza memoria constante. Ojo a la diferencia abismal en uso de recursos:
(¡Veo que Dask no publica “releases” en GitHub y por eso me estaba perdiendo las novedades!)
Por otro lado, últimamente estoy leyendo mucho sobre cómo hacer los notebooks de data science más reproducibles y ayudar a los data scientists a mover su código a paquetes Python. En ese sentido, me ha parecido interesante este artículo titulado “Five Guiding Principles to Make Jupyter Notebooks Fit for Earth Observation Data Education”.
🎓 Se anunció recientemente la 15ª edición del la escuela de verano de Python Científico Avanzado, este año en Creta del 27 de agosto al 3 de septiembre. El último día para solicitar plaza es el 1 de mayo.
🍅 Qué fuerte, qué fuerte. En esta primera entrega de “la prensa rosa pythonera”, vengo con una historia un poco rocambolesca que de momento no tiene final feliz… Una larguísima serie de desencuentros entre los miembros del proyecto sktime ha acabado con NumFOCUS retirando el apoyo al proyecto entre acusaciones mutuas de romper el código de conducta. El resultado, de momento, ha sido una bifurcación hostil, con parte de los activos de sktime en manos de gente expulsada del proyecto (como el paquete en PyPI y algunas cuentas en redes sociales) y un nuevo paquete llamado aeon creado por ex-integrantes de sktime. El módulo de series temporales de PyCaret funciona sobre sktime, pero no está claro si podrá mantener su nombre, tendrá que cambiarlo, o qué va a pasar. ¿Tal vez hora de evaluar alternativas similares, como skforecast o el ecosistema de Nixtla?
¿Buscas proveedor de dominios y hosting bueno, bonito y barato para tu próximo proyecto? Llevo años con Dinahosting (enlace afiliado) y no me cambio por nada, el soporte 24 horas es 🔝, y son de Galicia 🇪🇸