¿Quieres estar al día de lo que sucede en el universo Cloud? ¿Te gustaría aprender a usar sus servicios? Si la respuesta a alguna de estas preguntas es afirmativa, y además te gustaría hacerlo de forma amena, te invitamos a escuchar &--md-var-hashtag-39;Cómo conocí a nuestro Cloud, el podcast de Goodly (el equipo especializado en Google Cloud de Paradigma).
En estos episodios compartiremos de forma clara y transparente nuestras experiencias y opiniones sobre la nube de Google. Además, descubriremos sus últimos lanzamientos y qué posibilidades te ofrecen para desarrollar tu producto digital.
En este episodio, “Big Data sin infra (Dataflow o dataproc)”, hablaremos sobre cómo hacer Big Data en GCP y las opciones que tenemos: DataProc y DataFlow. Dos integrantes del equipo de Goodly, Andrés Macarrilla y Andrés Navidad, nos explican las ventajas, riesgos y otros datos interesantes sobre estos productos.
Recuerda que puedes escuchar el podcast en diferentes plataformas: Ivoox, Spotify, Apple Podcast y Google Podcast. O si lo prefieres, también está disponible en nuestro canal de YouTube.
¿A qué esperas para escucharlo?
En este episodio hablaremos sobre cómo hacer Big Data en GCP y las opciones que tenemos: DataProc y DataFlow.
Partimos de la base de que con las dos tecnologías puedes hacer casi lo mismo, por lo que esta comparativa va mucho más orientada a decidir cuando debemos elegir una u otra. Al final a la hora de elegir la clave está en los requisitos que tenemos. Son los KPIs de los casos de uso los que van a hacer que finalmente te decidas por una tecnología u otra.
Dataproc es un conjunto de utilidades que nos permite manejar Hadoop, Spark y todo el ecosistema en la nube de una manera sencilla. pero manteniendo el control por nuestra parte. Es un servicio gestionado con tecnologías del ecosistema Hadoop (Hive, HDFS), Spark y, en este caso, Google nos simplifica la gestión y el mantenimiento de la infraestructura fisica y la integración de los diferentes servicios.
Puntos fuertes:
- Comunidad (casi 3 veces más que apache beam)
- Flexibilidad. Con cambios mínimos puedo migrar un proceso de spark en dataproc, EMR de AWS, HDInsight de Azure o a un cluster on-premise de cloudera.
- Uso intensivo de memoria. Ideal para procesos iterativos. Con muchos cruces de datos.
- Multicloud o migraciones. Ideal para entornos multicloud o para migrar cargas a una cloud pública.
Dataflow podemos definirlo como una solución que nos va a permitir hacer procesamiento de datos tanto en streaming como en batch y que además es serverless. Es un servicio totalmente gestionado (nos referimos a no tener que gestionar infraestructura) que bajo apache Beam, intenta unificar el modelo de procesamiento streaming y batch bajo una misma API. Adicionalmente, permitiría correr el proceso bajo diferentes Runners (Flink, Spark, Samza)
Puntos fuertes.
- Ideal para procesos lineales. Tanto en Batch como en Streaming (aunque en este último se pueden hacer operaciones de ventana).
- Ha metido ahora una capa SQL. Aunque muy verde.
- Despliegues parciales en diferentes stage de un DAG
- Servicio casi totalmente gestionado.
Andrés Macarrilla
Jugando con tecnologías desde el siglo pasado. Durante todo este camino, he llevado muchas gorras, como pueden ser las de Ingeniero de software, Product Manager, Arquitecto de soluciones. Cuando cierro el portátil me dedico a pasar el tiempo con mi familia, a viajar, o cuando saco un rato a conducir cualquier cosa que lleve un motor.
Ver más contenido de Andrés.Andrés Navidad
Aunque empecé mi carrera haciendo back-end en aplicaciones web, siempre me gustaron los conceptos de arquitectura y computación distribuida. Hace 7 años tuve la oportunidad de empezar en el mundo Big Data y ahora me gusta aplicar todos esos conceptos en arquitecturas basadas en nubles públicas. Entusiasta de las nuevas tecnologías, las motos y la gastronomía.
Ver más contenido de Andrés.
Tell us what you think.