Como vimos en el anterior episodio de nuestro podcast “Cómo conocí a nuestro cloud”, BigQuery es una gran herramienta a la hora de trabajar con nuestros datos, sin importar lo grande que sea su volumen podemos ejecutar queries para hacer consultas o transformaciones de los mismos.
El problema viene cuando queremos enlazar varias queries para que se ejecuten de forma ordenada y controlada. Para solucionar esto sirve Dataform, un producto que nos permite llevar a BigQuery al próximo nivel y en este episodio vemos cómo funciona.
Dataform es un servicio diseñado para usar con BigQuery y nos ayuda a generar pipelines de transformación de datos o generación de tablas usando como base queries.
Para lograr este objetivo, se basa en determinadas características como el uso de un repositorio git para guardar los ficheros o el uso de ficheros SQLX y JS para definir nuestros pipelines.
SQLX es una extensión del lenguaje SQL y, por tanto, no supondrá un gran cambio para los que están acostumbrados a él, pero añade interesantes características como la definición de dependencias entre queries para su ejecución, el uso de referencias y variables en nuestras queries.
Además podemos usar Javascript, uno de los lenguajes de programación más extendidos gracias a su facilidad de uso y potencia. Con la unión de SQLX y Javascript no tendremos límites a la hora de trabajar con nuestros datos.
Al estar basado en repositorios tenemos todas las ventajas de trabajar con git, ayudándonos a poner orden en ese montón de queries guardadas con la funcionalidad básica de BigQuery.
Otro aspecto importante a la hora de poder desarrollar de una manera más escalable y robusta es el uso de aserciones para validar nuestras pipelines.
Todo esto tiene muy buena pinta, pero no podemos evitar preguntarnos si no podemos hacer lo mismo o similar con otros productos de Google Cloud como DataPrep, DataFusion, DataFlow y demás; y es que con el paso del tiempo cada vez hay más productos para realizar la misma funcionalidad de manera distinta, pero si quieres saber cómo terminó el debate no te queda otra opción que escuchar este episodio completo ;)
Puedes escucharlos en las principales plataformas de podcast: Ivoox, Spotify, YouTube, Google Podcast, Apple Podcast y Amazon Music.
Imagen de portada: Unsplash
Andrés Navidad
Aunque empecé mi carrera haciendo back-end en aplicaciones web, siempre me gustaron los conceptos de arquitectura y computación distribuida. Hace 7 años tuve la oportunidad de empezar en el mundo Big Data y ahora me gusta aplicar todos esos conceptos en arquitecturas basadas en nubles públicas. Entusiasta de las nuevas tecnologías, las motos y la gastronomía.
Ver más contenido de Andrés.Óscar Ferrer
Después de más de 10 años trabajando en el desarrollo de productos digitales, he tenido la suerte de pasar por diferentes roles que me han dado una visión global de lo que significa idear, desarrollar y mantener productos de software. En este camino he visto cómo el Cloud se convertía en un factor clave, no solo para su desarrollo, sino también para la estrategia global de compañía. Por eso, me escucharás hablar sobre cómo la nube puede aportar desde un punto de vista técnico, pero también sobre cómo puede ayudar a la transformación de empresas.
Ver más contenido de Óscar.Tomás Calleja
De pequeño me encantaba solucionar problemas de manera sencilla y cacharrear con la tecnología. Han pasado los años pero mis gustos no han cambiado: me paso el día aprendiendo nuevas tecnologías para luego diseñar e implementar soluciones sencillas a problemas complejos, siempre desde un punto de vista LEAN. Durante los últimos años me he centrado en Google Cloud Platform, soluciones Cloud Native y Serverless aunque me gusta saber un poco de todo.
Ver más contenido de Tomás.
Tell us what you think.