Big Data: Datos Estructurados y No Estructurados
Posted from my blog with SteemPress : https://www.amadoralvins.top/big-data/
La Big Data, es un termino del que se habla mucho la actualidad, y pocas personas entienden de que se trata realmente. Si deseas conocer del tema para tener noción de a que se refiere, pues te invito a continuar leyendo.
¿Qué son los datos?
Las cantidades, caracteres o símbolos en los que una computadora realiza las operaciones, que pueden almacenarse y transmitirse en forma de señales eléctricas y grabarse en medios de grabación magnéticos, ópticos o mecánicos.
¿Qué es exactamente Big Data ?
Para comprender realmente los grandes datos, es útil tener algunos antecedentes históricos. Aquí está la definición de Gartner, circa 2001 (que sigue siendo la definición de referencia): Big data es información que contiene una mayor variedad que llega en volúmenes crecientes y con una velocidad cada vez mayor. Esto se conoce como las tres V.
En pocas palabras, los grandes datos son conjuntos de datos más grandes y complejos, especialmente de nuevas fuentes de datos. Estos conjuntos de datos son tan voluminosos que el software tradicional de procesamiento de datos simplemente no puede administrarlos. Pero estos volúmenes masivos de datos se pueden usar para abordar problemas comerciales que no habría podido abordar antes.
Ejemplos de Big Data
Los siguientes son algunos ejemplos de Big Data:
La Bolsa de Nueva York genera aproximadamente un terabyte de nuevos datos comerciales por día.
Medios de comunicación social
La estadística muestra que más de 500 terabytes de datos nuevos se ingieren en las bases de datos del sitio de redes sociales Facebook , todos los días. Estos datos se generan principalmente en términos de carga de fotos y videos, intercambios de mensajes, comentarios, etc.
Un solo Jet puede generar más de 10 terabytes de datos en 30 minutos de tiempo de vuelo. Con muchos miles de vuelos por día, la generación de datos llega a muchos Petabytes.
Tipos de Big Data
BigData 'se puede encontrar en tres formas:
- Estructurados
- No estructurados
- Semiestructurados
Estructurado
Cualquier dato que se pueda almacenar, acceder y procesar en forma de formato fijo se denomina datos 'estructurados'. A lo largo del tiempo, el talento en ciencias de la computación ha logrado un mayor éxito en el desarrollo de técnicas para trabajar con este tipo de datos (donde el formato es bien conocido de antemano) y también para obtener valor de él. Sin embargo, hoy en día, estamos previendo problemas cuando el tamaño de dichos datos aumenta en gran medida, los tamaños típicos están en la rabia de múltiples zettabytes.
¿Tú sabes? 10 21 bytes equivalentes a 1 zettabyte o mil millones de terabytes forman un zettabyte .
Mirando estas cifras, uno puede entender fácilmente por qué se le da el nombre de Big Data e imaginar los desafíos involucrados en su almacenamiento y procesamiento.
¿Tú sabes? Los datos almacenados en un sistema de gestión de bases de datos relacionales son un ejemplo de datos 'estructurados' .
Ejemplos de datos estructurados
Una tabla 'Empleado' en una base de datos es un ejemplo de Datos Estructurados
ID de empleado | Nombre de empleado | Género | Departamento | Salario_en_lacs |
---|---|---|---|---|
2365 | Rajesh Kulkarni | Masculino | Financiar | 650000 |
3398 | Pratibha Joshi | Hembra | Administración | 650000 |
7465 | Shushil Roy | Masculino | Administración | 500000 |
7500 | Shubhojit Das | Masculino | Financiar | 500000 |
7699 | Priya Sane | Hembra | Financiar | 550000 |
No estructurados
Cualquier dato con forma o estructura desconocida se clasifica como dato no estructurado. Además de que el tamaño es enorme, los datos no estructurados plantean múltiples desafíos en términos de su procesamiento para obtener valor de ellos. Un ejemplo típico de datos no estructurados es una fuente de datos heterogénea que contiene una combinación de archivos de texto simples, imágenes, videos, etc. Hoy en día las organizaciones tienen una gran cantidad de datos disponibles, pero desafortunadamente, no saben cómo obtener valor de ellos desde entonces. Estos datos están en su forma cruda o formato no estructurado.
Ejemplos de datos no estructurados
El resultado devuelto por 'Búsqueda de Google'
Semiestructurados
Los datos semiestructurados pueden contener ambas formas de datos. Podemos ver datos semiestructurados como una forma estructurada, pero en realidad no está definida, por ejemplo, con una definición de tabla en DBMS relacional. Un ejemplo de datos semiestructurados son los datos representados en un archivo XML.
Ejemplos de datos semiestructurados
Datos personales almacenados en un archivo XML
<rec> <name> Prashant Rao </name> <sex> Masculino </sex> <age> 35 </age> </rec> <rec> <name> Seema R. </name> <sex> Femenino </sex> <age> 41 </age> </rec> <rec> <name> Satish Mane </name> <sex> Masculino </sex> <age> 29 </age> </rec> <rec> <name> Subrato Roy </name> <sex> Masculino </sex> <age> 26 </age> </rec> <rec> <name> Jeremiah J. </name> <sex> Masculino </sex> <age> 35 </age> </rec>
Crecimiento de datos a lo largo de los años.
Tenga en cuenta que los datos de la aplicación web, que no están estructurados, consisten en archivos de registro, archivos de historial de transacciones, etc. Los sistemas OLTP están diseñados para trabajar con datos estructurados en los que los datos se almacenan en relaciones (tablas).
Diferencias entre datos estructurados, semiestructurados y no estructurados:
PROPIEDADES | DATOS ESTRUCTURADOS | DATOS SEMIESTRUCTURADOS | DATOS NO ESTRUCTURADOS |
---|---|---|---|
Tecnología | Se basa en una tabla de base de datos relacional | Está basado en XML / RDF | Se basa en caracteres y datos binarios. |
Gestión de transacciones | Transacción madurada y varias técnicas de concurrencia | La transacción se adapta desde DBMS no madurado | Sin gestión de transacciones y sin concurrencia |
Gestión de versiones | Versiones sobre tuplas, filas, tablas | Es posible el control de versiones sobre tuplas o gráficos | Versionado como un todo |
Flexibilidad | Es sehema dependiente y menos flexible | Es más flexible que los datos estructurados pero menos flexible que los datos no estructurados. | es muy flexible y hay ausencia de esquema |
Escalabilidad | Es muy difícil escalar el esquema DB | Su escalamiento es más simple que los datos estructurados | Es muy escalable |
Robustez | Muy robusto | Nueva tecnología, poco difundida | - |
Rendimiento de la consulta | La consulta estructurada permite unir complejas | Las consultas sobre nodos anónimos son posibles | Solo son posibles consultas textuales |
Características de Big Data
(i) Volumen: el nombre Big Data en sí está relacionado con un tamaño que es enorme. El tamaño de los datos juega un papel crucial en la determinación del valor de los datos. Además, si un dato en particular se puede considerar como un Big Data o no, depende del volumen de datos. Por lo tanto, 'Volumen' es una característica que debe tenerse en cuenta al tratar con Big Data.
(ii) Variedad: el siguiente aspecto de Big Data es su variedad .
La variedad se refiere a fuentes heterogéneas y la naturaleza de los datos, tanto estructurados como no estructurados. Durante los días anteriores, las hojas de cálculo y las bases de datos eran las únicas fuentes de datos consideradas por la mayoría de las aplicaciones. Hoy en día, los datos en forma de correos electrónicos, fotos, videos, dispositivos de monitoreo, PDF, audio, etc. también se están considerando en las aplicaciones de análisis. Esta variedad de datos no estructurados plantea ciertos problemas para el almacenamiento, la minería y el análisis de datos.
(iii) Velocidad: el término "velocidad" se refiere a la velocidad de generación de datos. La rapidez con la que se generan y procesan los datos para satisfacer las demandas determina el potencial real de los datos.
Big Data Velocity se ocupa de la velocidad a la que los datos fluyen desde fuentes como procesos de negocios, registros de aplicaciones, redes y sitios de redes sociales, sensores, dispositivos móviles , etc. El flujo de datos es masivo y continuo.
(iv) Variabilidad: se refiere a la inconsistencia que los datos pueden mostrar a veces, lo que dificulta el proceso de poder manejar y administrar los datos de manera efectiva.
Beneficios del procesamiento de Big Data
La capacidad de procesar Big Data trae múltiples beneficios, tales como:
- Las empresas pueden utilizar inteligencia externa mientras toman decisiones
El acceso a los datos sociales desde los motores de búsqueda y sitios como Facebook y Twitter están permitiendo a las organizaciones ajustar sus estrategias comerciales.
- Servicio al cliente mejorado
Los sistemas tradicionales de comentarios de los clientes están siendo reemplazados por nuevos sistemas diseñados con tecnologías de Big Data. En estos nuevos sistemas, se utilizan Big Data y tecnologías de procesamiento de lenguaje natural para leer y evaluar las respuestas de los consumidores.
- Identificación temprana del riesgo para el producto / servicio, si existe
- Mejor eficiencia operacional
Las tecnologías de Big Data se pueden usar para crear un área de preparación o zona de aterrizaje para nuevos datos antes de identificar qué datos se deben mover al almacén de datos. Además, dicha integración de las tecnologías de Big Data y el almacén de datos ayuda a una organización a descargar datos a los que se accede con poca frecuencia.
Resumen
- Big Data se define como datos de gran tamaño. Big data es un término utilizado para describir una recopilación de datos de gran tamaño y, sin embargo, que crece exponencialmente con el tiempo.
- Los ejemplos de generación de Big Data incluyen bolsas de valores, sitios de redes sociales, motores a reacción, etc.
- Big Data podría ser 1) Estructurado, 2) No estructurado, 3) Semi-estructurado
- Volumen, variedad, velocidad y variabilidad son algunas características de Bigdata
- Un servicio al cliente mejorado, una mejor eficiencia operativa, una mejor toma de decisiones son algunas de las ventajas de Bigdata
Posted from my blog with SteemPress : https://www.amadoralvins.top/big-data/
Congratulations @aalvins11! You have completed the following achievement on the Steem blockchain and have been rewarded with new badge(s) :
You can view your badges on your Steem Board and compare to others on the Steem Ranking
If you no longer want to receive notifications, reply to this comment with the word
STOP
Vote for @Steemitboard as a witness to get one more award and increased upvotes!