BASE DE DATOS DISTRIBUIDAS (ANALISIS DE LA MATERIA)
EN ESTE ARTICULO HACEMOS UN ANALISIS DE TODO LO QUE VIMOS DENTRO DE LA MATERIA, INCLUYENDO LAS EXPOSICIONES Y TEMAS DE DISTADO TRANSCRITOS AQUI EN EL ARTICULO PARA ASI PODER SABER Y EN ALGUN MOMENTO AYUDAR A LA BUSQUEDA DE INFORMACION DE ALGUNA PERSONA QUE NECESITE SABER SOBRE LOS DIFERENTES TEMAS QUE AQUI MOSTRAMOS
INTRODUCCIÓN
La evolución de los sistemas de información y el crecimiento no planeado de la información dentro de las organizaciones, ha traído dispersión de los datos en sitios local o geográficamente dispersos. La necesidad de integrar y compartir dicha información implica el nacimiento de una nueva tecnología capaz de conformar de manera consistente la información de las organizaciones. Una de las tecnologías que trabaja en el problema de integración de información, es la de bases de datos distribuidas (BDD).
METODOLOGIA
Base de datos centralizada:- Los equipos están conectados a un servidor centralizado, donde esta almacenada la base de datos.
La interacción con el usuario como la aplicación residen en el cliente, siendo el servidor el depositario de los datos. En un sistema centralizado, la caída o desconexión del servidor, provoca la caída total del sistema.
Base de datos distribuidos:- Una base de datos esta dividida en fragmentos, almacenados en diferentes sitios de la red. Todas las operaciones realizadas en los sitios se ven reflejadas en la base de datos que esta almacenada en el servidor.
El cliente debe conocer la topología de la red, así como la disposición y ubicación de los datos. Se delega parte de la gestión de la base de datos a los clientes.
Arquitectura Cliente-Servidor:- Es la integración distribuida en un sistema de red, con los recursos, medios y aplicaciones, que definidos modularmente en los servidores, administran, ejecutan y atienden a las solicitudes de los clientes; todos interrelacionados física y lógicamente. En un esquema cliente-servidor, se denomina cliente a la máquina que solicita un determinado servicio, y servidor a aquella que proporciona tal servicio.
DESARROLLO
Objetivos de un Sistema Distribuido.
Un sistema distribuido debe aparecer al usuario como un sistema centralizado.
• Transparencia a la localización.
• Transparencia a la fragmentación.
• Transparencia a la replicación.
Desventajas de un Sistema Distribuido.
• Optimización en el procesamiento de preguntas.
• Propagación de actualizaciones.
• Mayor problema con los accesos concurrentes.
Ventajas de un Sistema Distribuido.
- Autonomía local
- Cada grupo es responsable de sus datos.
- El tratamiento local es más rápido.
- Capacidad y Crecimiento incremental.
- Se pueden abordar proyectos de más envergadura.
- Se puede ampliar la información sin cambiar todo el sistema.
- Fiabilidad y Disponibilidad.
- Los fallos suelen ser locales.
- Se admite un cierto nivel de redundancia.
- Eficiencia y Flexibilidad.
Distribución de Datos.
El problema de diseño de bases de datos distribuidos se refiere, a hacer decisiones acerca de la ubicación de datos y programas a través de los diferentes sitios de una red de computadoras.
Consideraciones para la base de datos distribuidos:
• Diseño de la fragmentación, este se determina por la forma en que las relaciones globales se subdividen en fragmentos horizontales, verticales o mixtos.
• Diseño de la asignación de los fragmentos, esto se determina en la forma en que los fragmentos se mapean a las imágenes físicas, en esta forma, también se determina la solicitud de fragmentos.
Objetivos del Diseño de la Distribución de datos.
En el diseño de la distribución de los datos, se deben de tomar en cuenta los siguientes objetivos:
• Procesamiento local. La distribución de los datos, para maximizar el procesamiento local corresponde al principio simple de colocar los datos tan cerca como sea posible de las aplicaciones que los utilizan. Se puede realizar el diseño de la distribución de los datos para maximizar el procesamiento local agregando el número de referencias locales y remotas que le corresponden a cada fragmentación candidata y la localización del fragmento, que de esta forma se seleccione la mejor solución de ellas.
• Distribución de la carga de trabajo. La distribución de la carga de trabajo sobre los sitios, es una característica importante de los sistemas de cómputo distribuidos. Esta distribución de la carga se realiza para tomar ventaja de las diferentes características (potencia) o utilizaciones de las computadoras de cada sitio, y maximizar el grado de ejecución de paralelismo de las aplicaciones. Sin embargo, la distribución de la carga de trabajo podría afectar negativamente el procesamiento local deseado.
• Costo de almacenamiento y disponibilidad. La distribución de la base de datos refleja el costo y disponibilidad del almacenamiento en diferentes sitios. Para esto, es posible tener sitios especializados en la red para el almacenamiento de datos. Sin embargo el costo de almacenamiento de datos no es tan relevante si éste se compara con el del CPU, I/O y costos de transmisión de las aplicaciones.
Requerimientos de Información.
Con el fin de realizar una fragmentación adecuada, es necesario proporcionar información que ayude a realizarla. Esta información normalmente debe ser proporcionada por el usuario y tiene que ver con cuatro tipos:
• Información sobre el significado de los datos.
• Información sobre las aplicaciones que lo usan.
• Información acerca de la red de comunicaciones.
• Información acerca de los sistemas de cómputo.
Tipos de Fragmentación.
Existen tres tipos de fragmentaciones principales:
1. Fragmentación horizontal. Esta fragmentación se divide en primaria y derivada.
• Fragmentación horizontal primaria. Consiste del particionamiento en tuplas de una relación R en subconjuntos, donde cada subconjunto puede contener datos que tienen propiedades comunes y se puede definir expresando cada fragmento como una operación de selección sobre la relación R.
• Fragmentación horizontal derivada. Se define partiendo de una fragmentación horizontal. En esta operación se requiere de semi-junta(semi-join) el cual nos sirve para derivar las tuplas o registros de dos relaciones.
2. Fragmentación vertical. Una relación R produce fragmentos R1,R2,...,Rn; cada fragmento contiene subconjuntos de atributos Pr así como la clave primaria de R. Cada atributo debe encontrarse al menos en un fragmento.
3. Fragmentación híbrida (mixta). La relación R se divide en una serie de fragmentos R1,R2,...,Rn. Cada fragmento se obtiene como resultado de la aplicación del esquema de fragmentación horizontal o vertical a la relación R, o un fragmento de R obtenido con anterioridad. Resultado de la combinación de las dos fragmentaciones anteriores.
Asignación.
Encontrar la distribución óptima de los fragmentos F en los nodos S.
- Mínimo coste:
- almacenamiento.
- modificación de un fragmento en toda sede.
- coste de comunicación.
- Rendimiento:
- minimizar tiempos de respuesta.
- maximizar la capacidad de procesamiento del - sistema en cada nodo
- Seguridad y Control de Concurrencia.
- La protección de los datos deberá llevarse a cabo contra fallos físicos, fallos lógicos y fallos humanos (intencionados o no). Estos fallos alteran indebidamente los datos, los corrompen con lo que la base de datos ya no puede servir a los fines para los que fue creada.
El SGBD facilita normalmente mecanismos para prevenir los fallos (subsistema de control), para detectarlos una vez que se han producido (subsistema de detección) y para corregirlos después de haber sido detectados (subsistema de recuperación).
Aspectos fundamentales de la seguridad:
• Confidencialidad. No desvelar datos a usuarios no autorizados. Comprende también la privacidad (protección de datos personales).
• Accesibilidad. La información debe estar disponible.
• Integridad. Permite asegurar que los datos no han sido falseados.
La seguridad en las bases de datos abarca varios temas:
• Cuestiones éticas y legales relativas al derecho a tener acceso a cierta información.
• Cuestiones de política en el nivel gubernamental, institucional o corporativo relacionadas con la información que no debe estar disponible para el público.
• Cuestiones relacionadas con el sistema.
• Necesidad en algunas organizaciones de identificar múltiples niveles de seguridad y de clasificar los datos y los usuarios según estos niveles.
El SGBD debe proveer técnicas que permitan a ciertos usuarios tener acceso a porciones selectas de una base de datos sin tener acceso al resto. Por lo regular un SGBD cuenta con un subsistema de seguridad de autorización de la base de datos que se encarga de garantizar la seguridad de porciones de la base de datos contra el acceso no autorizado.
Existen dos tipos de mecanismos de seguridad:
• Discrecionales, se usan para otorgar privilegios a los usuarios.
• Obligatorios, sirven para imponer seguridad de múltiples niveles clasificando los datos y los usuarios en varias clases de seguridad e implementando después la política de seguridad apropiada de la organización.
Otro problema de seguridad es el acceso a una base de datos estadística, la cual sirve para proporcionar información estadística a partir de diversos criterios. Los usuarios de bases de datos estadísticas están autorizados para usarlas para obtener información estadística sobre una población pero no para tener acceso a información confidencial detallada sobre individuos específicos. La seguridad en bases de datos estadísticas debe cuidar que la información sobre individuos no sea accesible. En ocasiones es posible deducir ciertos hechos relativos a los individuos a partir de consultas, esto tampoco debe permitirse.
Otra técnica de seguridad es el cifrado de datos que sirve para proteger datos confidenciales que se transmiten por satélite o algún tipo de red de comunicaciones. Asimismo el cifrado puede proveer protección adicional a secciones confidenciales de una base de datos. Los datos se codifican mediante algún algoritmo de codificación. Un usuario no autorizado tendrá problemas para descifrar los datos codificados, pero un usuario autorizado contará con algoritmos para descifrarlos.
Entre las obligaciones del DBA está otorgar privilegios a los usuarios y clasificar los usuarios y los datos de acuerdo con la política de la organización. Las órdenes privilegiadas del DBA incluyen los siguientes tipos de acciones:
1. Creación de cuentas
2. Concesión de privilegios.
3. Revocación de privilegios.
4. Asignación de niveles de seguridad.
Un sistema de manejo de bases de datos confiable es aquel que puede continuar procesando las solicitudes de usuario aún cuando el sistema sobre el que opera no es confiable. En otras palabras, aun cuando los componentes de un sistema distribuido fallen, un DDMBS confiable debe seguir ejecutando las solicitudes de usuario sin violar la consistencia de la base de datos. El control de concurrencia trata con los problemas de aislamiento y consistencia del procesamiento de transacciones.
El control de concurrencia distribuido de una DDBMS asegura que la consistencia de la base de datos se mantiene en un ambiente distribuido multiusuario. Si las transacciones son internamente consistentes, la manera más simple de lograr este objetivo es ejecutar cada transacción sola, una después de otra. Sin embargo, esto puede afectar grandemente el desempeño de un DDBMS dado que el nivel de concurrencia se reduce al mínimo. El nivel de concurrencia, el número de transacciones activas, es probablemente el parámetro más importante en sistemas distribuidos. Por lo tanto, los mecanismos de control de concurrencia buscan encontrar un balance entre el mantenimiento de la consistencia de la base de datos y el mantenimiento de un alto nivel de concurrencia.
Si no se hace un adecuado control de concurrencia, se pueden presentar dos anomalías. En primer lugar, se pueden perder actualizaciones provocando que los efectos de algunas transacciones no se reflejen en la base de datos. En segundo término, pueden presentarse recuperaciones de información inconsistentes.
MAINFRAME
• Una computadora central es una computadora grande, potente y costosa usada principalmente por una gran compañía para el procesamiento de una gran cantidad de datos; por ejemplo, para el procesamiento de transacciones bancarias
• La capacidad de una computadora central se define tanto por la velocidad de su CPU como por su gran memoria interna, su alta y gran capacidad de almacenamiento externo, sus resultados en los dispositivos E/S rápidos y considerables, la alta calidad de su ingeniería interna que tiene como consecuencia una alta fiabilidad y soporte técnico caro pero de alta calidad. Una computadora central puede funcionar durante años sin problemas ni interrupciones y las reparaciones del mismo pueden ser realizadas mientras está funcionando.
CARACTERISTICAS DE UN MAINFRAME
• CONFIABILIDAD, DISPONIBILIDAD Y SERVICIO: Los componentes de hardware y software son de alta calidad y tienen la capacidad de auto -reparación.
• SEGURIDAD: los datos críticos deben estar asegurados, controlados y a disposición de los usuarios autorizados.
• ESCALABILIDAD: De hardware y software con la capacidad de ejecutar múltiples copias del software del SO.
• CONTROL CENTRALIZADO: El administrador del sistema es el único responsable del procesamiento de la información del sistema.
• MANEJO DE CARGAS DE TRABAJO:
-Procesamiento por lotes Batch: son trabajos planificados que se ejecutan por interacción del usuario.
-Procesamiento de transacciones Online: Estas operaciones mueven pequeñas cantidades de datos entradas y salidas.
• VELOCIDADDE PROCESO: Millones de instrucciones por segundo.
• COSTO: Miles de dólares, es muy costoso.
• TAMAÑO: Requieren instalaciones especiales y aire acondicionado.
MAINFRAME PROCESADOR
Mainframes tener uno o dos marcos metálicos que contienen jaulas especializados, así como otros elementos físicos.
System z9 Enterprise Class (z9 EC) modelo que tiene dos marcos. El z9 EC es ligeramente más grande que un refrigerador.
El procesador complejo central, o CPC, reside en su propia jaula en el interior de la computadora central, y se compone de uno a cuatro paquetes , la placa base o placa del sistema, cada paquete consta de procesadores, memoria, temporizadores, E / S y las conexiones.
Estas colecciones de piezas de hardware se llaman "libro paquetes "ya que se pueden deslizar dentro o fuera de la CPC jaula casi tan fácilmente como se puede deslizar un libro sobre o fuera de un estante.
En el Sistema z9, así como las anteriores modelos IBM, consta de tres distintasa reas en las que conste:
• El z9 EC de procesadores, que están dentro un módulo multichip
• Las tarjetas de memoria
• Las conexiones a los dispositivos de entrada / salida
Todos los paquetes conecta a una placa posterior en
marco de la z9 EC. Una placa base es una placa de circuito que permite que todos los paquetes de libros conectados compartan recursos.
MEMORIA
• La memoria central es un conjunto -generalmente grande- de celdas direccionables donde la computadora almacena toda la información (datos y programas) que utilizará mientras esté encendida.
• Cualquier instrucción que el procesador efectúe debe necesariamente residir en la memoria central, ya que allí es donde la UCP buscará la siguiente instrucción.
TIPOS DE DISPOSITIVOS
• RAM
Las computadoras de la primera generación se caracterizaban por disponer de muy pocas celdas de memoria, pues éstas eran costosas y muy difíciles de construir. La tecnología de las memorias de la primera y segunda generación estuvo dominada por las memoria de núcleos de ferrita. Cada celda de memoria consistía en un grupo de 8 milimétricas rondanas de ferritas, atravesadas por varios alambres. Cada rondana actuaba como un electroimán.
• CACHE
Estos circuito especiales de memoria "super rápida" (de poca capacidad) reciben el nombre de memoria caché, cuando existen, ocupan un lugar intermedio entre el procesador y la memoria. La memoria caché es una especie de RAM estática y se encuentra dentro de los procesadores, también podemos encontrarla de manera externa
• ROM
La memoria de solo lectura, conocida también como ROM (acrónimo en inglés de read-only memory), es un medio de almacenamiento utilizado en ordenadores y dispositivos electrónicos, que permite solo la lectura de la información y no su escritura, independientemente de la presencia o no de una fuente de energía
• MEMORIA
La memoria del sistema mínimo en cualquier modelo es de 16 GB. Tamaño de la memoria se puede aumentar en 16 GB incrementos de hasta un máximo de 128 GB por libro o 512 GB para todo el servidor. Cada libro Dispone de 4 u 8 tarjetas de memoria, que vienen en tres tarjetas tamaño físico: 4 GB, 8 GB y 16 GB.
• z9-109
• En cuanto a la UP y los diseños del subsistema de E / S, el diseño z9-109 también ofrece gran memoria flexibilidad y alta disponibilidad, permitiendo
• Actualizaciones simultáneas de memoria (si la capacidad instalada físicamente aún no se ha alcanzado)
Los servidores z9-109 puede tener más memoria física instalada que la inicial disponible
capacidad. Ampliaciones de memoria dentro de la capacidad instalada físicamente se puede hacer
al mismo tiempo por el Código Interno bajo Licencia, y sin cambios de hardware son necesarios.
• SISTEMAS OPERATIVOS PARA MAINFRAMES
Los sistemas operativos para mainframes son: multiusuario, multitareas, multiprogramación y esto lo logran gracias a que tienen multiprocesamiento, son sistemas de tiempo compartido, con memoria virtual y por supuesto manejan maquinas virtuales; además de ser capaces de soportar procesamientos en lotes ó bien en tiempo real.
• VM
SistemaOpertivo para máquina virtual.
VM puede manejar muy diversas aplicaciones de cómputo. Hace que un computador real parezca, ser muchos computadores virtuales y cada uno de ellos se puede manejar un SO distinto. Una instalación con VM puede crear así la ilusión de que ejecuta muchos sistemas de cómputo individuales, con diferentes SO.
Con VM es posible ejecutar la aplicación bajo el SO apropiado sin tener que detener todos los demás trabajos de producción que hay en la instalación.
• MVS
Memory Virtual System
Los objetivos principales de diseños de estos sistemas fueron suministrar un alto rendimiento, disponibilidad y compatibilidad entre entornos de grandes sistemas, suministrando una estabilidad mayor a los sistemas comercializados en aquella época.
MVS dispone de rutinas de recuperación funcional mediante las que se recuperan errores de hardware y software.
• OS/400
Uno de lo principales aspectos del sistema, es que trata a todas las entidades de datos como objetos, incluyendo las descripciones de los dispositivos para la utilización de terminales o impresoras, bases de datos, programas y pantallas. El sistema almacena las descripciones de todos los objetos y cuando un usuario nombra un objeto, el sistema lo reconoce y lo busca, obteniendo una completa información de dicho objeto. De ahí que el sistema pueda utilizar un objeto predefinido con la mínima intervención del usuario.
• VMS de DEC
Esta basado en l sistema operativo RSX para el PDP-11, por lo que maneja el concepto de tiempo compartido, memoria virtual y maquina virtual.
UNIX en cualquiera de sus tipos: HP-UX de la HP, ULTRIX de DEC, DG/UX de Data General, GENIX de National Semi-Conductor, SCO-UNIX de Santa Cruz Operation, etc.
• UNIX
Se trata de un sistema operativo de los más utilizados y con más futuro debido a que son muchos los organismos oficiales y particulares los que defienden su utilización, así como muchas firmas de fabricación y comercialización (arriba mencionadas) que lo incorporan en sus productos. Como un ejemplo, la Comunidad Económica Europea, que impone el sistema operativo UNIX en todas las aplicaciones que se desarrollan bajo sus auspicios.
• IBM Enterprise System/9000 (ES/9000)
El IBM Enterprise System/9000 (ES/9000) ofrece la gama más extensa de computación jamás ofrecido en una familia de procesador único. Basado en las tecnologías más recientes de IBM y la arquitectura de los sistemas probados, esta familia de procesadores de gran alcance proporciona un crecimiento de más de 100 veces los más pequeños montados en rack para sistemas de Top-of-the-line, ordenadores de uso general.
Modelos de procesadores ES/9000 proporcionan:
• Particionamiento lógico: permite que diferentes sistemas operativos se ejecuten simultáneamente en diferentes particiones lógicas.
• Gestión de reconfiguración dinámica: trabaja en conjunto con el sistema operativo para permitir cambios en el actual sistema de E/S de configuración.
• Servicio Integrado de Vectores: proporciona un elemento de ejecución especializada para procesar programas vectorizados.
• Función criptográfica integrada: admite el cifrado, descifrado, autenticación de mensajes, autenticación de personal y gestión de claves.
• Gestión multisistema: mayor control de configuraciones de sistemas múltiples.
• Cambios ambientales: mejoran la utilización de la potencia y el rendimiento de transferencia de calor de los nuevos modelos.
Mejora de la disponibilidad. En respuesta a las necesidades de los usuarios para la continuidad de las operaciones, los procesadores ES/9000 prevén:
• Reparación simultánea de un procesador de la línea central, sin dejar de trabajar los procesadores centrales.
• Sustitución de críticos en movimiento de aire, dispositivos en el procesador, de motores y bombas de la unidad de distribución.
• Gestión de reconfiguración dinámica para permitir cambios de configuración menos perjudiciales.
• Sistema de alimentación mejorado para proporcionar un funcionamiento constante del sistema para la mayoría de las fallas de suministro de energía.
• La eliminación del generador modelo 3089 para eliminar un posible punto de falla IBM ES/9000 utiliza unidades de soporte de procesadores .
Data Warehouse
Un Data Warehouse es un conjunto integrado de bases de datos, con orientación temática, que están diseñados para el apoyo a la Toma de Decisiones, y donde cada unidad de datos es relevante en algún momento del tiempo.
“El DW es considerado como algo que provee dos beneficios empresariales reales: Integración y Acceso de datos. Elimina una gran cantidad de datos inútiles y no deseados, como también el procesamiento desde el ambiente operacional clásico”.
Objetivos
- Hacer la información de la organización accesible.
- Hacer a la información de la organización consistente.
- Controlar el acceso efectivo a los datos.
- Generar información de manera flexible.
Características
- Orientado a un tema.
- Administra grandes cantidades de información.
- Guarda información en diversos medios de almacenamiento.
- Comprende múltiples versiones de uno (o varios) esquema de base de datos.
- Condensa y agrega información.
- Integra y asocia información de muchas fuentes.
Data Marts
Los Data Marts son subconjuntos de datos de un Data Warehouse para áreas especificas.
Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento.
- Usuarios limitados.
- Área especifica.
- Tiene un propósito especifico.
- Tiene una función de apoyo.
Oracle Data Warehousing
Oracle Database es una plataforma integral de base de datos para DW e Inteligencia de Negocios que combina escalabilidad, desempeño, análisis bien integrado, calidad de datos e integridad.
Al incorporar OLAP, Data Mining y capacidades estadísticas directamente en la base de datos, Oracle brinda toda la funcionalidad de motores analíticos autónomos con la escalabilidad, seguridad y confiabilidad empresarial de una base de datos Oracle.
Oracle Warehouse Builder
Oracle Warehouse Builder es una herramienta que permite cumplir los requerimientos de negocio, siendo esta para una mayor integración de los datos.
OWB tiene adicionalmente cuatro opciones para requerimientos de integración específicos:
- Producto Base
- Opción Enterprise ETL
- Opción de Calidad de Datos
- Conectores
O L A P
Procesamiento Analítico en Línea / On-Line Analytical Processing).
Es una solución utilizada en la inteligencia de negocios cuyo objetivo es agilizar la consulta de grandes cantidades de datos para extraer algún tipo de información útil.
TIPOS DE OLAP
- ROLAP Implementación OLAP que almacena los datos en un motor relacional.
- MOLAP Esta implementación OLAP almacena los datos en una base de datos multidimensional.
- HOLAP (Hybrid OLAP) Almacena algunos datos en un motor relacional y otros en una base de datos multidimensional.
Los siguientes acrónimos a veces también se utilizan, aunque no son sistemas tan generalizados como los anteriores:
- WOLAP o Web OLAP: OLAP basado u orientado para la web.
- DOLAP o Desktop OLAP: OLAP de escritorio
- RTOLAP o Real Time OLAP: OLAP en tiempo real
- SOLAP o Spatial OLAP: OLAP espacial
Objetivos
- OLAP es implementada en un modo cliente – servidor y a su vez le da una respuesta rápida cada que se le haga, no importando la complejidad de la BD.
- Ayuda a resumir , sintetizarla información al usuario con la visión comparativa y personalizada.
- OLAP tiene el análisis multi-dimensional mas fácil y mas eficiente para los usuarios de negocios.
Funcionalidad
- En la base de cualquier sistema OLAP se encuentra el concepto de cubo OLAP (cubo multi-dimensional o híper-cubo).
Utilidades
- Tiene acceso a grandes cantidades de datos.
- Analizan las relaciones entre muchos tipos de elementos empresariales.
- Involucran datos agregados.
- Comparan datos agregados a través de periodos jerárquicos.
- Presentan datos en diferentes perspectivas.
- Involucran cálculos complejos entre elementos de datos.
- Pueden responder con rapidez a consultas de usuarios.
ORACLE OLAP
Es una clase mundial multidimensional motor analítico integrado en Oracle Database. Ofrecen sofisticados cálculos usando simples consultas, produce resultados con rapidez de los tiempos de respuesta de pensamiento.
SU USO:
- En campos de entrega de información de negocios de ventas, marketing, informes de dirección, minería de datos y área.
- Se usa en informes de negocios de ventas.
- Con Oracle OLAP puede:
- Fácil definición de un modelo multidimensional con avanzados cálculos analíticos
- Productivamente entregar analítica ricos a cualquier herramienta de informes y análisis utilizando SQL simple
- Mejorar de forma transparente consultas de resumen en tablas utilizando cubo basadas en vistas materializadas
- Combine los datos OLAP con ningún otro dato en su base de datos Oracle - incluyendo espacial, minería de datos, XML, documentos y más
- Aproveche su experiencia existente de base de datos Oracle e inversión en software
ROLAP
PROCESAMIENTO ANALÍTICO EN LÍNEA RELACIONAL
OLAP Y MOLAP
OLAP: El propósito del OLAP (procesamiento analítico en línea) es permitir un análisis multidimensional de las bases de datos de gran volumen para realizar un análisis especial de los mismos (que son el tema de consultas especiales).
MOLAP (Multidimensional): Usa una base de datos propietaria multidimensional, en la que la información se almacena multidimensionalmente, para ser visualizada multidimensionalmente.
¿QUÉ ES ROLAP?
Se trata de sistemas y herramientas OLAP construido sobre una base de datos relacional, acceden a los datos de una base de datos relacional y generan consultas SQL.
El sistema ROLAP utiliza una arquitectura de tres niveles. La base de datos relacional maneja los requerimientos de almacenamiento de datos, y el motor ROLAP proporciona la funcionalidad analítica.
La arquitectura ROLAP accede a los datos almacenados en un Data Warehouse para proporcionar los análisis OLAP. La premisa de los sistemas ROLAP es que las capacidades OLAP se soportan mejor contra las bases de datos relacionales.
NIVELES
- El nivel de base de datos usa bases de datos relacionales para el manejo, acceso y obtención del dato.
- El nivel de aplicación es el motor que ejecuta las consultas multidimensionales de los usuarios.
- El motor ROLAP se integra con niveles de presentación, a través de los cuales los usuarios realizan los análisis OLAP.
VENTAJAS
La construcción de herramientas ROLAP presenta algunas ventajas frente a los sistemas multidimensionales:
- ROLAP se considera más escalable para manejar grandes volúmenes de datos.
- Gran variedad de herramientas de carga de datos para sistemas relacionales; se consigue que los tiempos de carga sean generalmente mucho menores que con cargas MOLAP automatizadas.
- Los datos se almacenan en una base de datos relacional estándar accedida por cualquier herramienta de generación de informes SQL (reporting). Estas herramientas no necesariamente de tipo OLAP.
DESVENTAJAS
Hay un consenso general en la industria de que las herramientas ROLAP tienen menor rendimiento que las herramientas MOLAP:
- El proceso de carga de tablas agregadas debe ser gestionado por código ETL personalizado. ROLAP no disponen de mecanismos automáticos para realizar esta tarea, necesita más tiempo de desarrollo de código.
- Muchos desarrolladores de modelos dimensionales ROLAP ignoran el paso de crear tablas agregadas. En este caso el rendimiento de una consulta se ve afectado porque entonces se necesita consultar las tablas con datos más detallados.
- Los sistemas ROLAP se construyen sobre bases de datos de propósito general, por lo que hay algunas funcionalidades especiales propias de las herramientas MOLAP que no están disponibles en los sistemas ROLAP .
RENDIMIENTO ROLAP
- En la industria OLAP, se percibe como ROLAP es capaz de escalar a grandes volúmenes de datos, pero sufre de un rendimiento menor en la ejecución de consultas (comparado con MOLAP)
PROVEEDORES DE ROLAP
- Microsoft Analysis Services
- Oracle Business Intelligence Enterprise Edition
- MicroStrategy
- Tableau Software
- Business Objects
DATAGRID
Es una arquitectura o un conjunto de servicios que permiten a los individuos o grupos de usuarios la capacidad de acceder, modificar y transferir enormes cantidades de datos distribuidos geográficamente con fines de investigación.
Middleware ofrece todos los servicios y las aplicaciones necesarias para la gestión eficiente de los conjuntos de datos y los archivos dentro de la cuadrícula de datos al tiempo que proporciona a los usuarios acceso rápido a las bases de datos y archivos.
DATOS DEL SERVICIO DE TRANSPORTE
Proporciona datos para el transporte o la transferencia de datos. El transporte de datos abarcará diversas funciones que no se limita sólo a la transferencia de bits, para incluir elementos tales como tolerancia a fallos y acceso a datos.
ESPACIO UNIVERSAL DE NOMBRES
Dado que las fuentes de datos dentro de la cuadrícula de datos consistirá de varios sistemas independientes y redes que utilizan archivos diferentes , sería difícil para un usuario localizar los datos dentro de la red de datos y saber que recuperan lo que únicamente necesitaban. Un espacio de nombre universal o unificado hace posible la creación de nombres de archivo lógicos que pueden ser referenciados dentro de la cuadrícula de datos.
LOS DATOS DE ACCESO AL SERVICIO
Acceso a los datos de servicios trabajan mano a mano con el servicio de transferencia de datos para proporcionar seguridad, controles de acceso y de gestión de las transferencias de datos dentro de la red de datos.
SERVICIO DE REPLICACIÓN DE DATOS
Para satisfacer las necesidades de escalabilidad, acceso rápido y la colaboración entre usuarios, la mayoría de replicación de datos de las redes de apoyo a los puntos de datos dentro de la arquitectura de almacenamiento distribuido.
ESTRATEGIA DE ACTUALIZACIÓN DE REPLICACIÓN
Las actualizaciones pueden ser diseñados en torno a un modelo centralizado donde se actualiza un único maestro de réplicas o un modelo descentralizado, en el que todos los compañeros actualizan entre sí. La topología de la colocación del nodo también puede influir en los cambios de las réplicas.
ESTRATEGIA DE COLOCACIÓN DE REPLICACIÓN
Hay un número de maneras en que el sistema de gestión de la replicación puede manejar la creación y la colocación de réplicas para servir mejor a la comunidad de usuarios. Si la arquitectura de almacenamiento admite la colocación de réplica con el almacenamiento de sitio suficiente, entonces se convierte en una cuestión de las necesidades de los usuarios que acceden a las bases de datos y una estrategia para la colocación de réplicas
REPLICACIÓN DINÁMICA: es una aproximación a la colocación de réplicas basado en la popularidad de los datos. El sistema de gestión de datos mantiene un registro de almacenamiento disponible en todos los nodos.
REPLICACIÓN ADAPTABLE: este método de replicación se ha diseñado en torno a un modelo de replicación jerárquica en la mayoría de las redes de datos.
EN PROPORCIONES JUSTAS REPLICACIÓN: al igual que los métodos de replicación adaptable y dinámica, se basa en un modelo de replicación jerárquica. También, la popularidad de los archivos desempeñan un papel clave en la determinación de qué archivos se replicarán.
GESTIÓN DE LOS RECURSOS DEL SISTEMA (RMS)
Representa la funcionalidad central de la cuadrícula de datos. Es el corazón del sistema que gestiona todas las acciones relacionadas con los recursos de almacenamiento. En algunas redes de datos, puede ser necesario para crear una arquitectura federada debido a las diferentes políticas administrativas y una diversidad de posibilidades se encuentran dentro de la cuadrícula de datos.
FEDERACIÓN DE TOPOLOGÍA
Es la opción para las instituciones que deseen compartir datos de los sistemas ya existentes. Permite que cada institución control sobre sus datos.
TOPOLOGÍA MONÁDICO
Tiene un repositorio central que todos los datos recogidos se introducen en. El repositorio central responde entonces a todas las consultas de datos. No hay réplicas en esta topología, en comparación con otros. Los datos sólo se accede desde el repositorio central que podría ser por medio de un portal web.
JERÁRQUICA TOPOLOGÍA
Se presta a la colaboración donde hay una única fuente de los datos y tiene que ser distribuidos en varias ubicaciones en todo el mundo.
HÍBRIDO DE TOPOLOGÍA
Es simplemente una configuración que contiene una arquitectura que consiste en cualquier combinación de los anteriores mencionados topologías.
INTELIGENCIA DE NEGOCIOS
Se denomina inteligencia empresarial, inteligencia de negocios o BI (del inglés business intelligence) al conjunto de estrategias y herramientas enfocadas a la administración y creación de conocimiento mediante el análisis de datos existentes en una organización o empresa.
El término inteligencia empresarial se refiere al uso de datos en una empresa para facilitar la toma de decisiones. Abarca la comprensión del funcionamiento actual de la empresa, bien como la anticipación de acontecimientos futuros, con el objetivo de ofrecer conocimientos para respaldar las decisiones empresariales.
Las herramientas de inteligencia se basan en la utilización de un sistema de información de inteligencia que se forma con distintos datos extraídos de los datos de producción, con información relacionada con la empresa o sus ámbitos y con datos económicos.
Mediante las herramientas y técnicas ELT (extraer, cargar y transformar), o actualmente ETL (extraer, transformar y cargar) se extraen los datos de distintas fuentes, se depuran y preparan (homogeneización de los datos) para luego cargarlos en un almacén de datos.
En un artículo de 1958, el investigador de IBM Hans Peter Luhn utiliza el término Inteligencia de Negocio. Se define la inteligencia como: " La capacidad de comprender las interrelaciones de los hechos presentados en tal forma como para orientar la acción hacia una meta deseada".
La inteligencia de negocios, tal como se entiende, hoy en día se dice que ha evolucionado desde los sistemas de apoyo a las decisiones que se inició en la década de 1960 y desarrollado a lo largo de mediados de los años 80. DSS se originó en los modelos por computadora, creado para ayudar en la toma de decisiones y la planificación. Desde DSS, data warehouses, sistemas de información ejecutiva, OLAP e inteligencia de negocios entraron en principio centrándose a finales de los años 80.
En 1989, Howard Dresner (más tarde, un analista de Gartner Group) propuso la "inteligencia de negocios" como un término general para describir "los conceptos y métodos para mejorar la toma de decisiones empresariales mediante el uso de sistemas basados en hechos de apoyo". No fue hasta finales de 1990 que este uso estaba muy extendido.
Este conjunto de herramientas y metodologías tienen en común las siguientes características:
- Accesibilidad a la información. Los datos son la fuente principal de este concepto. Lo primero que deben garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con independencia de la procedencia de estos.
- Apoyo en la toma de decisiones. Se busca ir más allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular sólo aquellos datos que les interesen.
- Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios y su capacidad para utilizar estas herramientas.
De acuerdo a su nivel de complejidad se pueden clasificar las soluciones de Business Intelligence en:
- Reportes
- Reportes predefinidos
- Reportes a la medida
- Consultas ("Query") / Cubos OLAP (On-Line Analytic Processing).
- Alertas
- Análisis
- Análisis estadístico
- Pronósticos ("Forecasting")
- Modelado Predictivo o Minería de datos ("Data Mining")
- Optimización
- Minería de Procesos
SISTEMAS PARALELOS DE BASES DE DATOS
Un sistema paralelo de base de datos explota con varios ordenadores para ejecutar programas de aplicación mediante el uso de varios procesadores en cooperación, a fin de mejorar el rendimiento. Por lo tanto, pueden soportar bases de datos grandes muy con cargas muy elevadas.
Un sistema de base de datos en paralelo puede ser vagamente definido como un DBMS implementado en un computador paralelo. Esta definición incluye muchas alternativas que van desde la portar sencillo de un DBMS existente, que puede requerir sólo rescritura las rutinas del sistema operativo de interfaz, a una combinación sofisticada de paralelo
VENTAJAS
1.- De alto rendimiento: Esto se puede conseguir a través de varias soluciones: base de datos orientada al soporte del sistema operativo, la gestión de datos en paralelo, optimización de consultas, y balanceo de carga.
2.- De alta disponibilidad: Debido a que un sistema de base de datos en paralelo redundante consta de muchos componentes, bien puede aumentar la disponibilidad de datos y tolerancia a fallos.
3.- Extensibilidad: es la posibilidad de ampliar el sistema sin problemas mediante la adición de procesamiento y de almacenamiento de energía para el sistema.
ARQUITECTURA FUNCIONAL
Asumiendo una arquitectura cliente / servidor, las funciones de apoyo de una base de datos paralela sistema puede dividirse en tres subsistemas:
1.- Session Manager. Que desempeña el papel de un monitor de transacciones, proporcionando apoyo para las interacciones del cliente con el servidor. En particular, realiza las conexiones y desconexiones entre los procesos cliente y los dos otros subsistemas.
2.- Transacción Manager. Recibe las transacciones del cliente relacionados con la compilación de consultas y ejecución.
3.- Data Manager. Proporciona todas las funciones de bajo nivel necesarios para ejecutar compilado consultas en paralelo, es decir, la ejecución de la base de datos del operador, soporte de transacciones paralelas, gestión de la caché, etc.
ARQUITECTURAS PARALELAS DBMS
Un sistema de base de datos paralela representa un compromiso en las opciones de diseño con el fin de proporcionar las ventajas mencionadas anteriormente con una buena relación coste / rendimiento.
SHARED-MEMORY
En el enfoque de memoria compartida cualquier procesador tiene acceso a cualquier módulo de memoria o la unidad de disco a través de una interconexión rápida (por ejemplo, un bus de alta velocidad o un conmutador de barra cruzada).
DISCOS COMPARTIDOS
Cualquier procesador tiene acceso a cualquier unidad de disco a través de la interconexión, pero el acceso exclusivo (no compartido) a su principal memoria.
Cada nodo de la memoria del procesador está bajo el control de su propia copia de la del sistema operativo.
COMPARTIDA NADA
Cada procesador tiene exclusivo el acceso a la memoria principal y la unidad de disco. Similar al disco compartido, cada procesador de memoria en el disco nodo está bajo el control de su propia copia del sistema operativo.
Luego, cada nodo puede ser visto como un sitio local (con su propia base de datos y software) en un sistema de base de datos distribuida.
ARQUITECTURAS HÍBRIDAS
Varias combinaciones posibles de las tres arquitecturas básicas son posibles de obtener diferentes soluciones de compromiso entre costo, rendimiento, capacidad de ampliación, disponibilidad.
Se discuten dos híbridos populares arquitecturas: NUMA y por conglomerados.
Jaru
15-01-2013 10:33
Cuando hablamos de bases de datos nos imaginamos una instancia de la misma ejecutándose en un servidor, o ejecutándose de manera local en nuestro equipo, claro hablamos de bases centralizadas.
Las bases de datos distribuidas siguen los mismos principios de diseño de una base de datos, solamente que esta se encuentra distribuida en varias computadoras, y esta puede aplicar tanto para una compañía con dos locales como para una gran transnacional.
El concepto de base de datos distribuido suena complejo y difícil de entender, y uno tal vez se pregunte que si habrá acceso a una de ellas, lo cierto del caso es que posiblemente que la respuesta es un “si”, sin embargo, una de las características de ellas es que es transparente para el usuario, y difícilmente se va dar cuenta que esta accediendo a una base de datos distribuida.
Eso si las bases de datos distribuidas requieren de un sistema gestor de bases de datos más complejo, al igual que un mejor conocimiento y entendimiento de las misma para quienes las diseñan y administran.
ADRIANA
15-01-2013 10:31
considero que en general esta materia nos fue de mucha ayuda para saber un poco mas sobre como se manejan las bases de datos distribuidas y para poder hacer sistemas eficientes.
diego
15-01-2013 08:20
En base a lo que se tiene como resaludo del análisis del tema de base de datos distribuidas,arquitectura, significados,herramientas, y todo lo que conlleva el saber acerca del tema, nos da un panorama principal y basto en conocimiento.
Sin embargo valdría la pena tomarse tiempo para analizar cada una de las partes que conlleva este tema, ya que de esto podría emplearse desde raíz en cualquier actividad en la que se necesite utilizar de esta herramienta que son las bases de datos distribuidas
Nestor Munguia Hernandez
15-01-2013 08:10
El hardware utilizado no difiere mucho del hardware utilizado en un servidor normal. Al principio se creía que si los componentes de una base de datos eran especializados serían más eficientes y rápidos, pero se comprobó que el decentralizar todo y adoptar un enfoque "nada compartido" (shared-nothing) resultaba más barato y eficaz. Por lo que el hardware que compone una base de datos distribuida se reduce a servidores y la red.
Nestor Munguia Hernandez
15-01-2013 08:08
Desde hace ya varios años las bases de datos son ampliamente utilizadas en departamentos de gobiernos, empresas comerciales, bancos, hospitales, etc. Actualmente se está cambiando el esquema bajo el cuál se utilizan las bases de datos, ya no son utilizadas únicamente de forma interna, sino que se tiene muchos accesos externos de tipos distintos. Estos cambios que se han introducido en el uso de las bases de datos ha creado la necesidad mejorar las prácticas de seguridad ya que el ambiente ya no es tan controlado como el esquema antiguo.
Nestor Munguia Hernandez
15-01-2013 08:07
Hay varios factores que han hecho que las bases de datos evolucionen a bases de datos distribuidas. En el mundo de los negocios se ha dado una globalización y a la vez las operaciones de las empresas son cada vez más descentralizadas geográficamente. También el poder de las computadoras personales aumentó y el costo de los Mainframes ya no tenía sentido. Además la necesidad de compartir datos ha hecho que crezca el mercado de las bases de datos distribuidas.
Nestor Munguia Hernandez
15-01-2013 08:06
En esta materia lo aprendido es que todo tiene un porque de las cosas las bases de datos son tan complejas y se tiene que tener una idea de como trabar con ellas ya sea en un sistema completo ,cada base tiene su desarrollo el cual se debe de implementar de una manera mucho mas sencilla y claro que dicho esto la base sera fácil,sera algo con lo que se debe manejar con precaución y con responsabilidad.
alicia
15-01-2013 07:34
como resumen general de bases de datos distribuidas el tema es mas extenso pero la informacion proporcionada es de gran aporte y tambien de gran importancia