Pasar al contenido principal

Herramientas Big Data para este 2018

Tecnology | Artículo
  • Visitas
    1268
  • Marzo 2018
  • Fecha de publicación
  • Marzo 2018
  • Tecnology
  • Artículo
_ESIC Business & Marketing School

_ESIC Business & Marketing School

ESIC Business & Marketing School.

Hoy en día, la variedad de herramientas Big Data a utilizar es muy extensa. Esto hace que acercarse al mundo del Big Data pueda resultar intimidante cuanto menos. Decidir qué software utilizar a la hora de definir nuestra arquitectura requiere mucho cuidado y planificación. Pero entonces, ¿Cuáles son las herramientas en las que debería centrar mi atención? Sería muy difícil responder a esta pregunta de forma general pero podemos al menos hacer un listado de las 7 herramientas Big Data que deberíamos conocer para que nuestro aterrizaje en este mundo sea lo más seguro posible.

7 herramientas Big Data que deberías conocer

1. Apache Hadoop

Es el principio de todo y el punto en el que se apoyan otras soluciones enfocadas a Big Data. El sistema de almacenamiento distribuido de ficheros HDFS y el gestor de recursos YARN son sus componentes principales. Incluye también una implementación del sistema de procesamiento MapReduce que hace uso de YARN para la distribución de las tareas. Es una herramienta cuyo conocimiento es indispensable para todo aquél que quiera adentrarse en este mundo.
Usado en Yahoo!, Amazon y de una u otra manera por todos los demás.

2. Apache Spark

Es uno de los chicos grandes. Es una herramienta de procesamiento distribuido de datos en batch y tiempo real con una API unificada para ambos modelos. Desde su llegada al ecosistema en 2014 Spark ha ganado cada día más y más adeptos. Todo recién llegado debería profundizar en su uso. Su único inconveniente es que para explotarlo al máximo requiere que aprendamos además el uso del lenguaje de programación Scala.
Usado en Cisco, Verizon y Visa.

3. Apache Flink

Es el principal rival de Spark y pasito a pasito está haciendo mella en su base de usuarios. Flink ofrece las mismas características de Spark pero con una implementación muy diferente. Algunas de las mejoras que Flink trae al mundo del procesamiento en tiempo real hacen que sea una herramienta a conocer.
Usado en Zalando.

4. Presto

Esta herramienta Big Data no forma parte del ecosistema Apache pero es otra de esas cuyo conocimiento es necesario para todo entusiasta. Presto es un motor de consultas SQL que permite relacionar información presente en múltiples sistemas de almacenamiento diferentes de forma unificada sin necesidad de mover los datos a una única plataforma.
Usado en Airbnb, Netflix y Facebook.

5. Apache HBase

HBase es un viejo conocido dentro de este ámbito. Se trata de un sistema de almacenamiento de datos distribuido y escalable basado en ficheros HDFS. Su modelo de datos es orientado a familias de columnas y su principal ventaja es que permite la actualización y el acceso aleatorio a los datos. Está presente en las principales distribuciones de Hadoop por lo que saber modelar datos haciendo uso de esta herramienta es otra de esos skills necesarios para todo conocedor.
Usado en Facebook, Airbnb, y Spotify.

6. Apache Cassandra

Cassandra es, en cierta forma, el principal rival de HBase dentro del mundo de las herramientas Big Data. No solo porque es también uno de esos proyectos primordiales si no además porque utiliza un modelo de datos muy similar. A diferencia de HBase no hace uso de ningún componente del ecosistema Hadoop ni está incluida en ninguna de las distribuciones de éste. A cambio de esta desventajas Cassandra es de las pocas soluciones desarrolladas para dar soporte a despliegues multi-datacenter por lo que es también un ‘debe’ en nuestra lista de conocimientos.
Usado en el CERN, Cisco y Walmart.

7. Apache Kudu

Kudu es la herramienta perfecta para complementar al HDFS. Se trata de un sistema de almacenamiento de datos en formato columnar que permite realizar consultas analíticas sobre estos de forma más fácil y con un gran rendimiento. Kudu es un recién llegado al ecosistema pero la forma en que complementa a otros de los componentes lo hará cada vez más omnipresente en las arquitecturas Big Data.
Usado en Cloudera.
 
Esta lista de soluciones orientadas a Big Data no es exhaustiva. Sería imposible listar todas y cada una de las herramientas Big Data. No obstante contiene las tecnologías básicas que deben ser conocidas por cualquiera interesado en el IT digital que se hace un hueco cada vez mayor en los negocios ya sean estos nuevos o tradicionales.
Si quieres seguir aprendiendo sobre análisis de datos y las posibilidades que brindan a cualquier empresa, fórmate con el Programa Superior en Data Engineering de ICEMD. Toda la información e inscripciones, aquí.
 

  • Fecha de publicación
  • Marzo 2018
  • Tecnology
  • Artículo
  • Autor

También te puede interesar

¿Qué son los estados contables de una empresa?

Business

Conseguir que una empresa sea económicamente solvente no es una tarea fácil, pues requiere trabajo constante de numerosas personas para su correcto funcionamiento. Con el fin de conocer al detalle l...

Qué es un cliente misterioso y para qué se utiliza esta técnica

Marketing y Comunicación

No hay nada como escuchar el feedback de los consumidores para saber si el servicio que les estamos ofreciendo es bueno o no. En este sentido, existen numerosas técnicas para descubrir qué sienten l...

Qué es el Workforce Management (WFM) en un call center y cuáles son sus funciones

Marketing y Comunicación

Si trabajas en el ámbito de los recursos humanos, estas tres siglas (WFM) habrán sido desde hace un tiempo tus compañeras de viaje. De hecho, quizá las conozcas por su significado en español («g...