Episodio 57 🐍⚙️
Modelos generativos de código responsables, serialización de modelos sin pickle, Nixtla reinventando la prognosis de series temporales en Python, inferencia causal para cuasi-experimentos, y me paso d
🔥 ¡Avalancha de lanzamientos esta semana! Vamos por partes:
BigCode, una iniciativa conjunta de Hugging Face y una empresa canadiense llamada ServiceNow, ha creado The Stack, un conjunto de datos con código en más de 300 lenguajes de programación para entrenar modelos generativos. Lo que diferencia a esto de cosas como GitHub Copilot es que han elegido exclusivamente código liberado bajo licencias permisivas, y además han implementado mecanismos para que puedas averiguar si tu propio código está incluido, y si así lo deseas, borrarlo. ¡Así sí!
También ha salido Stable Diffusion 2.0, la nueva versión del modelo generativo de imágenes más popular del momento, con imágenes de mayor calidad, funcionalidad de superresolución, transformación de imágenes mejorada, y mucho más.
🚀 ¡No han faltado versiones nuevas de nuestros paquetes favoritos esta semana! conda 22.11.0 trae descarga y extracción de paquetes en paralelo (¡por fin!) y una mejora (sugerida por un servidor) en la instrucción para actualizar conda.
skops 3.0 trae funcionalidad para serializar modelos de scikit-learn sin usar pickle, al contrario de lo que hace joblib (como me aclaró Merve Noyan, de Hugging Face, en Mastodon). pickle tiene varias implicaciones de seguridad que deberías conocer y usarlo lo mínimo posible.
Y por último, la gente de Nixtla sigue arrasando y sacan novedades alucinantes literalmente todos los días. Solo esta semana, el primer modelo con multiestacionalidad en Python (statsmodels lo implementó en marzo, pero aún no ha salido una versión estable que lo incluya). Recomiendo encarecidamente seguir al equipo, y en concreto a Max.
💡 PyMC Labs, la empresa fundada por los creadores de PyMC, ha lanzado CausalPy, una biblioteca Python para inferencia causal en métodos cuasi-experimentales.
En el foro del proyecto Pangeo se ha anunciado xCDAT, una extensión de xarray para análisis de datos climáticos en mallas/rejillas estructuradas.
Y finalmente, Kyle Walker, el autor del paquete de R tigris, ha anunciado por Mastodon pygris, una traducción a Python de la misma funcionalidad (facilitar el trabajo con los datos del censo de los EEUU).
📚 Me ha gustado este artículo sobre cómo mamba gestiona los conflictos de dependencias.
Por otro lado, ¡el libro Learn Python with Jupyter de Serena Bonaretti ya está en abierto!
¡Iba a incluir aún más enlaces, pero sobrepasé la longitud máxima!
Se acerca el final de año y he ido acumulando enlaces interesantes que no obstante nunca caben en el noticiero. En 2023 hago borrón y cuenta nueva - si los quieres, ¡deja un comentario en Substack!