power-bi_icono IoT - Cuadro de Mando Power BI, con Talend & Vertica

En este caso de uso implantado en un cliente, hacemos uso de diferentes tecnologías como Node.js, Talend y Power BI. Se trata de información de datos meteorológicos, como lluvia, viento, temperatura, horas de sol, etc., recogidos por diferentes estaciones meteorológicas repartidas en una explotación agrícola.

Se dispone de un servidor REST y un cliente web desarrollado con Node.js donde se reciben los ficheros con la información actualizada cada minuto aproximadamente.

Talend Data Integration ejecuta un proceso ETL (extracción, transformación y carga) que se encarga cada minuto de solicitar la información adicional al cliente web, procesarla y volcarla en el Data Warehouse Vertica.

Por último, disponemos de un informe con Microsoft Power BI con información que procede de una tabla de histórico en modo Import y otra tabla en modo Direct Query para la información en near real time, en ambos casos gracias al componente Microsoft Data Gateway que es capaz de conectarse a nuestro Data Warehouse en Vertica.

loading Cargando
Información

En este caso de uso implantado en un cliente, hacemos uso de diferentes tecnologías como Node.js, Talend y Power BI. Se trata de información de datos meteorológicos, como lluvia, viento, temperatura, horas de sol, etc?, recogidos por diferentes estaciones meteorológicas repartidas en una explotación agrícola.

Se dispone de un servidor REST y un cliente web desarrollado con Node.js donde se reciben los ficheros con la información actualizada cada minuto aproximadamente.

Talend Data Integration ejecuta un proceso ETL (extracción, transformación y carga) que se encarga cada minuto de solicitar la información adicional al cliente web, procesarla y volcarla en el Data Warehouse Vertica.

Por último, disponemos de un informe con Microsoft Power BI con información que procede de una tabla de histórico en modo Import y otra tabla en modo Direct Query para la información en near real time, en ambos casos gracias al componente Microsoft Data Gateway que es capaz de conectarse a nuestro Data Warehouse en Vertica.

Para más información, se puede consultar la entrada en el blog de TodoBI.


Información

Power BI es un conjunto de herramientas Business Intelligence (BI) desarrolladas por Microsoft. De reciente aparición, gracias a su simplicidad y potencia se ha hecho un un hueco entre las grandes del mercado como Tableau, Pentaho o Microstrategy. Al igual que estas últimas, implementa la filosofía de Autoservicio para el usuario final (Self Service BI) llevada al extremo de la sencillez, pero con un gran número de características como el desarrollo de cuadros de mando (denominados informes en Power BI), la compartición web o dentro de la organización, un gran número de gráficos incluyendo gráficos con análisis estadístico (ej. forecasting página 2 demo), conexión a fuentes relacionales y Big Data, exploración en lenguaje natural (Q & A), soporte para ejecutar código R y visualizar resultados, o pre procesamiento de datos (ETL).

Las características anteriores se implementan repartidas en las distintas aplicaciones. Power BI Desktop es la herramienta de cliente para la exploración, transformación y diseño de visualizaciones a partir de los datos. Se trata de una herramienta completamente gratuita, que dispone de conexiones a las fuentes Big Data y relacionales más usadas. Aunque para algunas fuentes dispone de un conector específico, en el caso de Apache Kylin hemos de hacer uso del conector ODBC disponible en su web. Tras la conexión, se genera un extracto de los datos. A partir de este momento los pasos para la creación de nuestro cuadro de mando han sido i) la definición del modelo de datos, ii) la aplicación de alguna transformación (ej. formato de fecha), iii) la definición de métricas calculadas (ej. tasa de éxito) o jerarquías sobre las dimensiones (ej. tabla OLAP página 2 demo), y, por último, iv) la creación del cuadro de mando demo, compuesto por dos páginas (selector en barra inferior).

Una vez hemos diseñado y guardado nuestro cuadro de mando con Power BI Desktop, llega el momento de compartirlo. Para ello hemos creado una cuenta de Power BI Service en su alternativa gratuita, pues en esta herramienta sí dispone de versiones Pro y Premium, ambas de pago. Aunque estas versiones disponen de conexión directa a algunas bases de datos como SQL Server (con o sin Analysis Services), Oracle o Cloudera Impala, para el resto de conexiones, como la conexión ODBC con Kylin, es necesario publicar el extracto de los datos, que se refresca de forma manual (versión gratuita) o programada (Pro y Premium).

Además de Power BI Desktop y Power BI Service (Free, Pro y Premium), existen otras herramientas como Mobile , para el acceso a los informes desde nuestro smartphone y el trabajo colaborativo, o Embedded, para componer nuestras propias aplicaciones, portales web, Share Point a partir de las visualizaciones desarrolladas con Power BI.

Sí estas interesado en hacer tu proyecto con esta tecnología no dudes en solicitar presupuesto en StrateBI.

Para más información, se puede consultar la entrada en el blog de TodoBI.


I+D+i BigData

En StrateBI creemos en el valor de las tecnologías Big Data para el procesamiento de datos y la obtención de conocimiento a partir de los mismos, con el objetivo siempre en mente de mejorar los procesos de toma de decisiones de las organizaciones de cualquier sector, nuestro equipo lleva a cabo una fuerte labor de I+D+i en Big Data.

Investigación

Revisamos novedades y documentación científica de las tecnologías Big Data.

Se hace tanto aquellas emergentes en las que detectamos un gran potencial, como sobre aquellas ya consolidadas.

Con ello detectamos los puntos en los que se puede desarrollar o aprovechar alguna mejora.

Desarrollo

Ponemos en práctica los resultados de las investigaciones anteriores.

Implementamos la mejoras y validamos su aplicación con diversos casos de estudio del mundo real, como los que podemos explorar en nuestra demos Big Data.

Innovación

Una vez hemos comprobado su utilidad y robustez, las introducimos en los proyectos que ofrecemos a nuestros clientes.

De esta forma, StrateBI garantiza el uso de la tecnologías Big Data más novedosas, previamente testeadas y mejoradas por nuestro equipo de I+D+i en Big Data.


Tecnologías Usadas

hadoop

Apache Hadoop es el entorno Big Data por excelencia, permitiendo la computación distribuida en clústeres formados por hardware comercial y de bajo coste.

En su forma más básica incluye almacenamiento distribuido (HDFS), un gestor de recursos de ejecución (YARN) y, funcionando sobre este, el entorno para el desarrollo y ejecución de aplicaciones que implementan en procesamiento distribuido (MapReduce).

Además, sobre la base de los componentes anteriores, han surgido numerosas herramientas, como Hive o Spark, que aportan modelos simplificados de programación para una amplia gama de tareas de procesamiento Big Data.

De entre las distintas tecnologías Big Data, Hadoop es la solución más completa y la que aporta un enfoque más general, siendo ideal para la implementación del novedoso concepto de Data Lake para la posterior explotación de los datos en aplicaciones analíticas.

flume

Flume es un sistema distribuido y confiable para la eficiente colección, agregación y movimiento de datos Streaming.

kafka

Kafka es un sistema de mensajería (publicador-suscriptor) distribuido, tolerante a fallos y de alto rendimiento.

hortonworks cloudera

Con el objetivo de facilitar la instalación y gestión del entorno Hadoop, y de todo el conjunto de aplicaciones que se integran con el mismo, disponemos de lo que se conoce como distribución de Hadoop.

Se trata de un paquete de software, que incluye los componentes básicos de Hadoop junto con una pila de herramientas adicional, listos para su instalación en sistemas operativos Ubuntu, Debian, CentOS o, incluso, Windows Server.

En este sentido, desde de StrateBI recomendamos el uso de una distribución, siendo Hortonworks y Cloudera actualmente las distribuciones líderes. Es por ello que los clústeres Hadoop sobre los que se ejecutan nuestras demos son Hortonworks y Cloudera, siendo ambas soluciones una opción ganadora.

spark spark streaming

Spark implementa el procesamiento de datos haciendo uso intensivo de la Memoria Ram del clúster, en lugar de hacer uso intensivo de disco como MapReduce.

De esta forma se consigue mejorar en gran medida el rendimiento de las aplicaciones Big Data, siendo adecuado para la implementación de algoritmos iterativos de Machine Learning (MLib), análisis estadístico (módulo R) o el análisis de datos en tiempo real (Spark Streaming), aplicación que hemos puesto en práctica en nuestra demo.