Los datos

  • 0 0 0
  • Like this paper and download? You can publish your own PDF file online for free in a few minutes! Sign Up
File loading please wait...
Citation preview

Los datos Rafael Camps Paré P01/79008/00054

 FUOC • P01/79008/00054

Índice

Introducción............................................................................................... 5 Objetivos ...................................................................................................... 6 1. Los tres mundos: el real, el conceptual y el de las representaciones ............................................................... 7 1.1. La realidad: los objetos ...................................................................... 7 1.2. Las concepciones: la información ..................................................... 8 1.3. Las representaciones: los datos.......................................................... 8 1.4. La interpretación ............................................................................... 9 2. El mundo conceptual: entidades y atributos................................ 11 2.1. La información: expresión lingüística............................................... 11 2.2. Entidades, atributos y valores............................................................ 11 2.3. El tiempo............................................................................................ 13 2.4. Dominios y valores nulos .................................................................. 15 2.5. Indentificadores y claves ................................................................... 15 2.6. Atributos multivalor .......................................................................... 16 2.7. La entidad: instancia y tipo ............................................................... 17 3. El mundo de las representaciones ................................................... 19 3.1. La representación tabular .................................................................. 19 3.2. Ficheros, registros y campos .............................................................. 20 3.3. Bases de datos .................................................................................... 21 3.4. El registro físico y los soportes........................................................... 23 3.5. Organización de los datos ................................................................ 23 3.6. Acceso a los datos .............................................................................. 24 3.7. Nivel lógico y nivel físico .................................................................. 25 4. La memoria externa ............................................................................ 27 4.1. Justificación de la utilización de la memoria externa ....................... 27 4.2. Esquema de la E/S .............................................................................. 27 4.3. Tiempo de acceso............................................................................... 28 4.4. Características básicas de los soportes ............................................... 29 Resumen....................................................................................................... 33 Actividades.................................................................................................. 35

Ejercicios de autoevaluación .................................................................. 35

Los datos

 FUOC • P01/79008/00054

Solucionario................................................................................................ 36 Glosario ........................................................................................................ 36 Bibliografía................................................................................................. 37

Los datos

 FUOC • P01/79008/00054

5

Introducción

Los datos que se utilizan en los sistemas de información (SI) se acostumbran a almacenar en bases de datos (BD). Para poder hablar y razonar con cierta propiedad sobre las BD, nos convendrá tener claro qué son los datos y la información, abstracciones que en el campo de la informática representamos físicamente sobre discos magnéticos, CD-ROM, cartuchos de cinta, etc. Con este objetivo, tendremos que adquirir algunas nociones teóricas fundamentales y disponer de herramientas formales en las que basarnos. En este módulo didáctico estudiaremos los elementos básicos del mundo de las representaciones informáticas, así como su correspondencia con el mundo real y con el mundo de las abstracciones. Introduciremos los términos más habituales y los conceptos fundamentales sobre datos e información.

Los datos

 FUOC • P01/79008/00054

6

Objetivos

En este módulo, el estudiante encontrará las herramientas indispensables para alcanzar los siguientes objetivos: 1. Saber situar los términos básicos más habituales en el campo de los datos y la información (atributo, clave, entidad, fichero, base de datos, soporte, etc.). 2. Saber distinguir claramente el mundo de las representaciones sobre soportes físicos informáticos del mundo de las concepciones o abstracciones. 3. Poder enumerar los tipos básicos de acceso a los datos y ver los sistemas de organización como medios para hacerlos eficientes. 4. Entender que las representaciones informáticas se pueden estudiar desde un nivel o punto de vista puramente lógico, alejado de la realización física (implementación), o bien desde un nivel físico. En esta asignatura adoptaremos básicamente un punto de vista lógico. 5. Ser capaz de describir y evaluar las características básicas de los soportes de las memorias externas para el almacenamiento de datos.

Los datos

 FUOC • P01/79008/00054

7

Los datos

1. Los tres mundos: el real, el conceptual y el de las representaciones

Para tener un marco donde situar los términos y los conceptos que explicaremos, distinguiremos tres ámbitos diferentes: • El mundo real con los objetos de nuestro interés. • El mundo de las conceptualizaciones lógicas. • El mundo de las representaciones informáticas. Figura 1

1.1. La realidad: los objetos Para analizar o construir un sistema de información (SI) determinado, necesitamos conocer el mundo real al que este SI debe hacer referencia o modelizar. Así, nuestro mundo real podrá ser un hospital, una empresa distribuidora de productos alimenticios, la matriculación de los alumnos de una universidad, etc.

El mundo real, la parte de la realidad que nos interesa, es lo que percibimos con nuestros sentidos y está compuesto por objetos concretos, físicos o no.

Dado que trabajamos en el campo de los SI, los mundos reales que nos interesan son las organizaciones: empresas, instituciones, etc.

Ejemplos de objetos concretos El enfermo Juan García, la cama 34 de la segunda planta, el almacén de Soria, el camión B-3452-AG, la alumna María Pi, la asignatura Química I, la enfermedad meningitis, la devolución de un pedido concreto, un determinado accidente de tráfico, etc. son algunos ejemplos de objetos que pertenecen al mundo real.

 FUOC • P01/79008/00054

8

Los datos

1.2. Las concepciones: la información A partir de la observación del mundo real, los humanos somos capaces de deducir conocimientos e información. La observación de los objetos del mundo real nos conduce a su análisis y su síntesis; después, obtenemos abstracciones de ello, hacemos clasificaciones (podemos saber que dos objetos son de la misma clase a pesar de que sean diferentes), deducimos propiedades e interrelaciones, etc.

El conjunto de los conocimientos obtenidos a partir de la observación de un mundo real se denomina mundo conceptual o mundo de las concepciones. En la esfera de las concepciones construimos un modelo abstracto, conceptual, del mundo real, y esto nos ayuda a razonar y a expresarnos.

De la observación obtenemos la información La observación del ámbito de la matriculación en una universidad nos permite reconocer diferentes clases o tipos de objetos, como por ejemplo el alumno o la asignatura. Deducimos que todo alumno tendrá las propiedades (son abstracciones) fecha de nacimiento, DNI, nombre, etc., y de este modo obtenemos informaciones como las siguientes: el alumno de nombre Juan García tiene el DNI 34.567.854 y su año de nacimiento es 1979.

El proceso de observación/abstracción es básicamente un proceso para modelizar la estructura, las propiedades y el funcionamiento de la realidad.

De hecho, existen diferencias entre conocimiento e información. La información es un conocimiento transmisible, es decir, que se puede representar. Los únicos conocimientos que nos interesan aquí son, por lo tanto, las informaciones. Un mismo mundo real puede ser visto, concebido y modelizado de distintas formas por diferentes observadores (incluso por un mismo observador) según su entorno o marco de referencia. Por ejemplo, un profesor no ve del mismo modo el ámbito de la gestión de un centro universitario que un administrativo de secretaría. Tienen marcos de referencia diferentes. No están interesados en los mismos conceptos. El profesor, a diferencia del administrativo, no necesitará conocer el importe de la matrícula, no querrá distinguir las abstracciones alumno con beca y alumno sin beca. Los profesores estarán interesados en la calificación numérica, mientras que el servicio administrativo tal vez sólo tendrá en cuenta la forma textual de la calificación. Así, en el paso del mundo real al de las concepciones encontramos pluralismo. Es posible que la observación y el análisis de una misma parte de una organización o empresa lleven a concepciones diferentes, todas igualmente válidas, y que pueden tener que coexistir.

1.3. Las representaciones: los datos

El mundo de las concepciones o de los conocimientos es un mundo mental. Sin embargo, para trabajar con estos conocimientos y comunicarlos, necesitamos proyectar los pensamientos al exterior, representándolos físicamente de alguna manera. Éste es el mundo de las representaciones.

Podemos representar conocimientos... ... escribiendo a mano sobre un papel, grabando bytes en un disco magnético según un formato y una codificación determinados, etc.

 FUOC • P01/79008/00054

9

Los datos

Nosotros aquí nos ocuparemos de las representaciones informáticas, y hablaremos de datos, ficheros, bases de datos, registros, campos, bytes, discos, etc.

Damos el nombre de datos a las representaciones físicas de los conocimientos que tenemos de los objetos del mundo real. El paso de los conocimientos a los datos, o de una concepción a una representación informática, no es automático. Es un proceso humano, un proceso de diseño.

Obviamente, en este caso como en el caso de la información, también hay pluralismo. Un mismo conjunto de conocimientos se puede representar de muchas formas. Por ejemplo, en forma de base de datos relacional o como ficheros tradicionales, con vectores o sin ellos, con longitud fija o variable, con codificación ASCII o EBCDIC, etc. Una visión o concepción del mundo real de un hospital, de una universidad o de una distribuidora de productos se podrá representar de muchas formas sobre soportes físicos informáticos. Sin ningún tipo de duda, las tareas más importantes del analista/diseñador de SI o de aplicaciones informáticas son las siguientes: 1) Analizar los objetos del mundo real, y hacer abstracciones y obtener una concepción lógica de ellos. 2) Diseñar una representación informática concreta que se pueda tratar eficientemente. El hecho de saber observar la realidad y hacer de ella las abstracciones lógicas más adecuadas, así como la habilidad para el análisis y la síntesis, llegan a ser cualidades fundamentales que debe tener el desarrollador de SI. Y estas cualidades se deben educar y cultivar. Evolución del diseño de aplicaciones El paso de un mundo conceptual a un mundo de representaciones informáticas se hizo más sencillo a medida que la tecnología informática avanzaba y se simplificaba su utilización. En los años sesenta y setenta, el desarrollador de aplicaciones se veía obligado a tener en cuenta una multitud de detalles físicos de la representación informática. Actualmente, la simplificación del proceso de diseño de la representación hace que el proceso de observación/abstracción se convierta en la tarea principal del desarrollador de SI.

1.4. La interpretación

Acabamos de ver el camino que nos conduce de la realidad a los conocimientos, y de éstos a los datos o las representaciones. Sin embargo, nos hará falta interpretar la representación. El proceso inverso al de la representación se denomina interpretación.

Diseños diferentes Se pueden hacer muchos diseños diferentes de representación informática que correspondan a un único modelo conceptual de una realidad. Todos pueden representar la misma realidad, pero tendrán una eficiencia diferente según la utilización que se haga de ellos.

 FUOC • P01/79008/00054

10

Si consideramos otro dato, por ejemplo, una representación que consta de la serie de símbolos 2 0 0 2, y que está extraída de una base de datos relativa a la matriculación de alumnos, no podremos obtener ninguna información de ésta si no sabemos si hace referencia al año de matriculación, al año de nacimiento, al importe de la matrícula, al número de la matrícula, etc. Además, no sabremos de qué alumno concreto (de qué objeto del mundo real) se trata. Vemos, entonces, que para poder interpretar los datos se debe saber, además, a quién y a qué (a qué conceptos) hacen referencia. Hemos dicho que una información es un conocimiento que se puede representar, pero ahora, teniendo en cuenta el camino inverso, podremos decir que la información es el significado que le damos a los datos.

Los datos

 FUOC • P01/79008/00054

11

2. El mundo conceptual: entidades y atributos

Como ya hemos visto, el mundo conceptual es el mundo de las abstracciones lógicas y el dominio de la información. Este campo es fundamental para concebir (analizar y diseñar) el SI.

2.1. La información: expresión lingüística Cuando hablamos de información, nos movemos en el ámbito de las concepciones. Toda información se refiere a un objeto y nos describe una propiedad. Por ejemplo, una información sobre un alumno (el objeto) podría ser la propiedad “nació en 1979”. En términos lingüísticos, una información (un conocimiento elemental) se puede expresar con un sujeto (el alumno concreto) y un predicado (“nació en 1979”). El predicado está formado por el verbo y el complemento.

Con conectores lógicos (o, y, no) podemos expresar conocimientos más complejos. Por ejemplo, “este alumno concreto se llama Juan García y nació en 1979”.

2.2. Entidades, atributos y valores En informática se utilizan unos términos distintos de los que se emplean en lingüística. Se denominan entidades los objetos que conceptualizamos como distinguibles unos de otros (es decir, que son identificables), y de los que nos interesan algunas propiedades. El término entidad se corresponde con el término sujeto del campo de la lingüística. Es la conceptualización del objeto al que hace referencia la información. El predicado es la propiedad descrita, y sus dos partes, verbo y complemento, las denominamos atributo (año de nacimiento) y valor (1979), respectivamente.

Figura 2

Los datos

12

 FUOC • P01/79008/00054

Toda información se caracteriza por los tres elementos siguientes: entidad, atributo y valor. Si sólo conocemos el atributo (año de nacimiento) y el valor (1979), no tenemos información, ya que no sabemos a qué entidad (alumno) hace referencia. Si no conocemos el atributo, no sabremos a qué hace referencia el valor (¿el número 1979 es el año de nacimiento?, ¿o tal vez se trata del número de matrícula o de la altura en milímetros?). Para aclarar y precisar el significado de estos tres términos, entidad, atributo y valor, utilizaremos conceptos elementales de la teoría de conjuntos. Situados en este marco de la teoría de conjuntos, podemos considerar el atributo año de nacimiento como una correspondencia entre los alumnos y los años del calendario. Cada alumno tiene un solo año de nacimiento, y diferentes alumnos pueden tener el mismo año de nacimiento. Es decir, la correspondencia entre los alumnos y los años puede ser vista como una aplicación (en el sentido de las matemáticas) del conjunto de los alumnos sobre el conjunto de los años. Figura 3

Si E es un conjunto de entidades individuales (conceptualizaciones de los objetos del mundo real) y V es un conjunto de valores, podemos definir el atributo A como la aplicación de E sobre V. Si expresamos la aplicación en términos de una función, diremos que V = A(E). {Entidad}

{Valor} Atributo

Los datos

 FUOC • P01/79008/00054

13

Figura 4

Para un mismo conjunto origen podemos definir diferentes aplicaciones sobre diversos conjuntos imagen. Dicho de otro modo, una entidad puede tener más de un atributo. Ejemplo de entidad multiatributo Supongamos que lo que hay que saber de los alumnos es el número de matrícula, el número de DNI, el nombre y el año de nacimiento. Las entidades tendrán cuatro atributos y un valor para cada atributo. Representamos ahora, en la figura 5 de la página siguiente, los atributos como aplicaciones.

2.3. El tiempo Realmente, la información no es independiente del tiempo. El sueldo de un empleado, la altura de un alumno, el número de hijos, etc., varían con el tiempo. En un SI nos puede interesar mantener el valor actual de los atributos, pero tal vez también queremos incluir valores anteriores. Así, de este modo, el valor 3 del atributo número de hijos de Juan García no constituye una información suficientemente completa, si no sabemos a qué momento corresponde. Incluso los atributos estables, como por ejemplo el DNI de un alumno, pueden cambiar en el mundo real. Sin embargo, aunque no sea así, en un SI todo atributo puede cambiar de valor en el tiempo. Por ejemplo, hemos introducido un DNI erróneo, y lo detectamos y lo cambiamos al cabo de unos meses. Dado que durante estos meses hemos podido comunicar el DNI erróneo al mundo exterior, nos convendría tener registrado en el SI los dos número de DNI y la fecha del cambio. En general, para tener bien caracterizada una información no es suficiente con los tres elementos entidad, atributo y valor, sino que nos hará falta el tiempo.

Los datos

 FUOC • P01/79008/00054

14

Figura 5

Y tal vez no tendremos suficiente con sólo un tiempo, sino que nos harán falta varios: el momento en que se produjo el cambio en el mundo real, el momento en que se introdujo en el SI, etc. Tanto las técnicas de modelización conceptual que se utilizan en el ámbito profesional, como las bases de datos y los ficheros actuales, no dan facilidades

Los datos

 FUOC • P01/79008/00054

15

Los datos

específicas para considerar el tiempo como un elemento caracterizador de la información. En los próximos años esto cambiará, pero mientras tanto, la responsabilidad de incluir el tiempo en los SI corresponde al diseñador. Por ejemplo, se podría diseñar un fichero que contuviese los datos actuales, sin ningún atributo que hiciera referencia al tiempo, y un fichero histórico en el que cada registro de información fuese acompañado de una fecha y una hora.

2.4. Dominios y valores nulos

El conjunto de todos los valores válidos, o legales, que puede llegar a tener un atributo, recibe el nombre de dominio del atributo.

El número entero 981... ... o la serie de símbolos A-321.6, por ejemplo, no forman parte del dominio del atributo año de nacimiento de los alumnos de nuestro mundo real.

No se debe confundir el término dominio con el término tipo de dato de los lenguajes de programación. Es cierto que el tipo de dato realiza una función de dominio porque limita los valores aceptables, pero además tiene asociado un conjunto de operaciones, algo que el dominio no tiene.

Puede ocurrir que el valor de un atributo determinado de alguna entidad individual sea desconocido o no exista. Entonces diremos que el dominio acepta el valor nulo.

Podemos desconocer el nombre o el año de nacimiento de un determinado alumno. También puede suceder que algún alumno no tenga DNI. En estos casos, al definir el dominio del atributo deberemos indicar si aceptamos o no el valor nulo.

2.5. Indentificadores y claves Recordemos que en la teoría de conjuntos se denomina aplicación inyectiva aquella aplicación en la que a cada elemento imagen le corresponde un elemento origen como máximo. De este modo, el atributo año de nacimiento no es una aplicación inyectiva, porque varios alumnos pueden haber nacido el mismo año. Sin embargo, el atributo número de matrícula sí es una aplicación inyectiva, ya que en nuestro mundo real, en el ámbito de la matriculación de alumnos, no se acepta que dos de ellos tengan el mismo número de matrícula. Precisamente, este número se utiliza para distinguir unos de otros; es decir, para identificarlos.

Los atributos que concebimos como aplicaciones inyectivas se denominan identificadores.

Nota No se debe confundir el valor nulo con un cero o con los espacios en blanco. El valor de un DNI o de un año de nacimiento desconocido no es cero.

 FUOC • P01/79008/00054

16

Los datos

Los atributos son identificadores o no, según los objetos que nos interesa modelar. Si nos referimos a las personas, el DNI de una persona es un identificador. Sin embargo, si el mundo real que consideramos se refiere a seguros de accidentes, los objetos de nuestro interés serán los accidentes de tráfico, y entonces el atributo DNI (el DNI del conductor), no será un atributo identificador, ya que dos accidentes podrían ser del mismo conductor. Una entidad puede tener más de un identificador, o bien no tener ninguno. De este modo, los alumnos pueden quedar identificados tanto por el número de matrícula como por el DNI. Sin embargo, puede ocurrir que la entidad no tenga ningún atributo identificador. De este modo, por ejemplo, si consideramos los objetos ciudad con los atributos nombre ciudad, número de habitantes, país y superficie de arbolado, nos encontramos con que el nombre ciudad no identifica una ciudad, ya que pueden existir con el mismo nombre en diferentes países. Entonces, para identificar las ciudades tendremos que utilizar con-

Nombres de ciudades El nombre de las ciudades no es suficiente para identificarlas, porque un solo nombre puede hacer referencia a dos de ellas; por ejemplo, en Venezuela hay una ciudad que tiene por nombre Barcelona.

juntamente la pareja de atributos país y nombre ciudad. Conjuntos de atributos Como ya hemos visto anteriormente, las entidades corresponden a objetos que podemos identificar o distinguir. Para distinguir a los alumnos, podemos utilizar el atributo número de matrícula, ya que se trata de un atributo identificador. Sin embargo, en el caso de los accidentes de tráfico, el DNI del conductor no nos identifica el accidente. Ya que no hay un atributo identificador, podríamos identificar los accidentes con el par DNI del conductor y fecha y hora, o tal vez el conjunto de atributos país, nombre ciudad, calle, número, fecha y hora, o cualquier otro conjunto de atributos que nos diferenciase los accidentes.

Todo atributo o conjunto de atributos que permite identificar las entidades individuales recibe el nombre de clave.

En el caso de los alumnos, tanto el atributo número de matrícula como el DNI son claves, y cada uno es un atributo identificador. En el caso de las ciudades, el par de atributos país y nombre ciudad constituye una clave, pero ninguno de los dos es identificador. Otros significados del término clave En el campo de los ficheros y las bases de datos (BD), el término clave se utiliza también con otros significados. Por ejemplo, se acostumbra a denominar clave el atributo o conjunto de atributos que se utiliza para efectuar una búsqueda en un fichero. Podemos buscar dentro de un fichero a los alumnos que tienen el atributo nota igual a 8,5; es decir, utilizando como “clave” de búsqueda la nota. Sin embargo, obviamente, la nota no es una clave en el sentido que aquí damos a este término.

2.6. Atributos multivalor

Dado que el atributo es una aplicación entre conjuntos, a cada entidad le puede corresponder como máximo un solo valor. En consecuencia, un atributo no podrá ser multivalor (o multivaluado).

Todo atributo identificador es una clave, pero no toda clave es un atributo identificador.

 FUOC • P01/79008/00054

17

Por ejemplo, no será posible un atributo nota tal que cada alumno pueda tener más de una nota, ya que entonces no sería una aplicación, sino una correspondencia. Figura 6

Esta restricción es propia del modelo relacional y ha sido seguida al pie de la letra por la mayoría de los sistemas de gestión de BD del mercado. Dado que aquí nos moveremos dentro del ámbito del modelo relacional, que estudiaremos con detalle más adelante, no aceptaremos los atributos multivalor. En la práctica se utilizan con frecuencia, especialmente en los ficheros clásicos.

2.7. La entidad: instancia y tipo

Hasta aquí hemos utilizado el término entidad para denominar la conceptualización de un objeto del mundo real (una instancia): un alumno concreto, un accidente concreto, etc. Sin embargo, también lo utilizaremos para denominar la entidad genérica, el tipo, la abstracción alumno o accidente (no un alumno o un accidente concreto, ni el conjunto de los alumnos o de los accidentes). Todas las entidades alumnos son elementos del conjunto de alumnos. Todos los alumnos son individuos o instancias del mismo tipo (son instancias del tipo de entidad alumno).

Así pues, el término entidad tendrá dos acepciones: 1) La entidad como individuo o instancia.

Los datos

 FUOC • P01/79008/00054

18

2) La entidad como clase o tipo Todas las instancias de un mismo tipo (todas las entidades individuales de una misma entidad genérica) tienen los mismos atributos.

Todos los alumnos tienen número de matrícula, DNI, nombre y fecha de nacimiento, y por este motivo los consideramos de la misma entidad tipo alumno. Habitualmente sólo concretaremos cuál de las dos acepciones del término entidad utilizamos –instancia o tipo– cuando no quede suficientemente claro por el contexto.

Los datos

 FUOC • P01/79008/00054

19

3. El mundo de las representaciones

Ahora veremos los principales conceptos y términos que se utilizan en el campo de las representaciones informáticas, el mundo de los datos.

3.1. La representación tabular La información pertenece al dominio conceptual o mental. Sin embargo, para transmitirla y procesarla necesitamos representarla físicamente. La representación informática de una información elemental se denomina dato. El mundo de las representaciones será el mundo de los datos y para describirlo hablaremos de ficheros, registros, campos, BD, soportes, etc. La figura 5 es, en realidad, una representación gráfica, no informatizada, de la información de los alumnos. Se ha hecho utilizando este papel como soporte. Sin embargo, como hemos podido observar, con tantas flechas y conjuntos, no resulta demasiado cómoda para procesarla o transmitirla; esto sucede especialmente en un caso real, en el que habría decenas de atributos y miles de alumnos. Resulta mucho más sencillo llevar a cabo una representación tabular con una fila para cada entidad individual y una columna para cada atributo. Figura 7

La tabla anterior es una representación tabular, formalmente muy similar a la representación típica en ficheros informáticos. Es como un fichero de datos de alumnos que tiene un registro para cada alumno (en estos momentos sólo tiene tres) con cuatro campos para cada registro.

Una representación tabular de un conjunto de n entidades ei donde cada una de ellas tiene m atributos aj es, de hecho, un conjunto de n tuplas de grado m formadas por los valores vij.

Los datos

 FUOC • P01/79008/00054

20

El esquema (formato o cabecera) de esta tabla se podría escribir de la siguiente forma: E(a1, a2, ..., aj, ..., am). Podríamos considerarlo una representación de la entidad tipo E, es decir, el tipo de las entidades instancia ei, donde i = 1 a n. Todas las ei tienen la misma estructura; en otros términos, tienen los mismos atributos aj, donde j = 1 a m.

3.2. Ficheros, registros y campos Tradicionalmente, los datos han sido almacenados en ficheros sobre soportes magnéticos. El término fichero se emplea en el ámbito de los sistemas operativos (SO) en un sentido mucho más genérico que aquí. Evidentemente, en esta asignatura no hablaremos de ficheros de programas, pero tampoco lo haremos de ficheros de texto libre, ficheros de gráficos, etc. Sólo hablaremos de ficheros de datos estructurados en registros y de bases de datos, que es lo que normalmente se utiliza en los SI.

Un fichero de datos es una representación informática equivalente a la representación tabular: a) La representación de una entidad (el equivalente a una fila de la tabla) recibe el nombre de registro. b) La representación del valor de un atributo para una entidad se denomina campo. El conjunto de campos constituye el registro, y el conjunto de registros constituye el fichero.

Podemos considerar que, en el mundo de los ficheros tradicionales de datos, el equivalente de los atributos son las cabeceras de los campos.

Los datos

21

 FUOC • P01/79008/00054

Los datos

Los datos (las informaciones elementales) de cada uno de nuestros alumnos estarán almacenados en una estructura de cuatro campos, uno para cada atributo. Cada campo contendrá un valor (un dato). El conjunto de los datos de un alumno forma el registro –la “ficha”– del alumno, y el conjunto de los registros de los alumnos forma el fichero de alumnos. Figura 8 Fichero de alumnos número de matrícula

DNI

año de nacimiento

nombre

2.417

34.567.854

1979

Juan García

3.782

188.769

1977

María Pi

2.418

2.613.759

1979

Pedro Campins

Nombre o cabecera de los campos

Registros

Campo: un término polivalente El término campo se utiliza, en la práctica, en varios sentidos parecidos, circunstancia que puede conducir a confusión. Es frecuente utilizarlo en el sentido de la representación de un valor, pero con frecuencia se utiliza con el significado del continente, es decir, el lugar donde se almacena el valor; también es frecuente utilizarlo para denominar la cabecera. De este modo, se habla del dominio de un campo, de campos identificadores, de claves formadas por un campo identificador o distintos campos no identificadores, de campos multivalores, etc.

3.3. Bases de datos Consideremos ahora un mundo conceptual formado por diferentes entidades tipo. Su representación informática podría hacerse mediante un conjunto de ficheros.

De momento, en este módulo daremos el nombre de base de datos (BD) a un conjunto de ficheros de datos interrelacionados.

Supongamos que los tipos de objetos de nuestro interés son alumnos, asignaturas y profesores, y que los atributos de las tres entidades son los siguientes: a) Alumno: número de matrícula, DNI del alumno, año de nacimiento, nombre del alumno. b) Asignatura: código, nombre de la asignatura, créditos. c) Profesor: DNI del profesor, nombre del profesor, despacho. Podremos representar estas entidades mediante tres ficheros, uno para cada entidad, con los campos correspondientes a los atributos. Sin embargo, falta la información que permite interrelacionar las entidades entre sí. Supongamos que estas interrelaciones son las siguientes:

 FUOC • P01/79008/00054

22

1) Cualquier alumno puede cursar más de una asignatura y, evidentemente, cualquier asignatura puede ser cursada por muchos alumnos. 2) Toda asignatura impartida por un solo profesor, pero cada profesor puede impartir varias asignaturas. 3) Supongamos también que nos interesa la nota que el alumno tiene de cada asignatura. Se trata de un atributo (nota), que no es propiamente del alumno (ya que tiene una por asignatura) ni de la asignatura (ya que tiene tantas como alumnos la cursan). Equivaldría a un atributo de la interrelación entre asignatura y alumno. Figura 9

Fijémonos ahora en los problemas que plantea la representación informática de estas interrelaciones: a) La interrelación entre asignaturas y profesores se podría representar añadiendo a los registros de las asignaturas un campo DNI del profesor con el valor del DNI del profesor que la imparte. De este modo, una asignatura tendría un solo profesor, y un mismo profesor podría aparecer en diferentes asignaturas. b) La interrelación entre asignaturas y alumnos es más compleja y se podría representar mediante campos complejos de tipo vector; de este modo, se producirían los atributos multivalor, aquí prohibidos. Sin embargo, podríamos optar por tener otro fichero (una nueva entidad específica para describir esta interrelación), que tendría los siguientes campos (todos monovalor): código, número de matrícula, nota. Este nuevo fichero tendría un registro para cada par alumno-asignatura que realmente exista. Hemos representado la información de nuestro mundo real con cuatro ficheros de datos. Si tuviésemos que escribir un programa para mostrar una lista de notas acompañadas del nombre del alumno, el nombre de la asignatura y el nombre del profesor, tendríamos que hacer que leyese e interrelacionase los cuatro ficheros. Los programas que crean o actualizan estos ficheros no pueden ser demasiado sencillos, ya que deben mantener la coherencia del conjunto. Por ejemplo, al suprimir a un profesor del fichero de profesores, se debe eliminar también de las asignaturas que daba; al incluir la nota de un alumno no se debe poner un código de asignatura que no exista en el fichero de asignaturas, etc.

Los datos

 FUOC • P01/79008/00054

23

Los datos

Vemos, pues, que los conjuntos de ficheros interrelacionados nos plantean ciertas dificultades. El software tradicional de gestión de ficheros, los File Management Systems, no se ocupan de las posibles interrelaciones entre ficheros, y las dejan en manos de los usuarios informáticos. A finales de los años setenta empezó a salir al mercado software especializado en estos conjuntos complejos de bases de datos bajo el nombre de Database Management Systems o Sistemas de gestión de BD (SGBD). Los SGBD son bastante más sofisticados que los sistemas de gestión de ficheros, y su objetivo es facilitar el uso de las BD, el diseño, la programación, el mantenimiento, la utilización simultánea por muchos usuarios, etc.

3.4. El registro físico y los soportes La memoria interna (RAM) de los ordenadores es volátil. De este modo, los datos que almacena un programa desaparecen cuando termina su ejecución. Para almacenar los datos de forma permanente, hacen falta memorias externas –periféricos de almacenamiento– que sean soportes físicos permanentes, como por ejemplo los discos magnéticos, las cintas o los CD-ROM. Tal vez nuestros nietos o bisnietos no llegarán a recordar cómo se almacenaban y se gestionaban los datos permanentes sin los ordenadores, pero para nosotros todavía son habituales las representaciones físicas sobre papel o cartulinas, en las que los datos están escritos con un formato determinado, con un cierto lenguaje, un tipo de letra, tinta, etc. Sobre los soportes informáticos, los programas escriben registros de datos. El programa graba los datos de un registro en un cierto formato y con una codificación; por ejemplo, el campo nombre podría ser de longitud variable con un prefijo que indicase su longitud, y su codificación podría ser ASCII; el DNI podría estar en binario puro y ocuparía tres octetos, etc. Generalmente, el informático que diseña los ficheros o la BD para un SI concreto puede decidir detalles sobre el registro grabación de los datos. Es parte del denominado diseño físico.

3.5. Organización de los datos Las fichas de cartón de los alumnos de la secretaría no informatizada tal vez están organizadas o colocadas por orden alfabético según el nombre. Para facilitar el acceso a las mismas, tal vez haya pestañas separadoras para las dos primeras letras del nombre. Para buscar una ficha sabiendo sólo el número de matrícula, sin tener que mirar secuencialmente todas las fichas de los alumnos anteriores (están por orden alfabético), se podría disponer de una lista ordenada por el número de matrícula que nos diese el nombre del alumno. Esta lista actuaría, pues, como un índice que nos ayudaría a hacer más rápidas las búsquedas.

Ejemplo • Un libro de registro de movimientos bancarios, que tiene una línea (un registro) para cada movimiento. • En la secretaría de una escuela hay un archivador con cajones llenos de fichas, donde se registra la información de los alumnos (una ficha por alumno). Es el fichero de los alumnos.

 FUOC • P01/79008/00054

24

Los datos

El software de ficheros y el de BD nos dan unas posibilidades de organización parecidas a las del mundo no informático, y otras mucho más sofisticadas. Son similares a las que el alumno conoce como estructuras de datos en memoria interna. Son las secuencias, listas encadenadas, vectores, índices en forma de árbol equilibrado, hashing, etc. Sin embargo, se tendrán en cuenta las características propias de los soportes permanentes (discos, cintas, etc.).

El diseñador de un SI, cuando realiza el diseño físico de los ficheros o de la BD, debe tomar decisiones respecto a qué sistemas de organización se utilizarán.

3.6. Acceso a los datos Una cosa es cómo están organizados los datos (la colocación) y otra cómo se accede a ellos (la obtención). Todas las organizaciones aceptan varias formas de acceder a los datos y es el programa usuario, o tal vez el software, el que elige cómo lo hace. Hay dos formas básicas de acceso a los datos: el acceso secuencial y el acceso directo. La diferencia esencial es que el acceso secuencial a un registro presupone el acceso previo a todos los registros anteriores, mientras que el acceso directo, no. El acceso secuencial es un acceso “al siguiente”; en cambio, el acceso directo es un acceso “al deseado”. Otra dicotomía habitual en las formas de acceso es el acceso por valor y el acceso por posición. El acceso por valor nos lleva al registro en función del valor de alguno de sus datos, sin tener en cuenta la posición que ocupa el registro. El acceso por posición, en cambio, nos lleva a un lugar –una posición– donde encontramos un registro de datos, sin tener en cuenta el contenido.

Combinando las dos clasificaciones anteriores, tenemos las cuatro formas de acceso más habituales: 1) Acceso secuencial por posición (SP): después de haber accedido a un registro que ocupa una posición, se pide acceder al registro que ocupa la posición siguiente. Este tipo de acceso es el natural en el caso de datos almacenados en cintas magnéticas, pero también es muy utilizado en soportes físicos de acceso directo como los discos. Por ejemplo, para construir un cuadro resumen del fichero de alumnos, se podría usar el acceso SP, ya que debe ser posible leer a todos los alumnos sin que tenga importancia su orden lógico. 2) Acceso directo por posición (DP): se pide acceder al registro que ocupa la posición p. Por ejemplo, utilizaríamos accesos directos por posición en el caso de que quisiéramos programar una búsqueda dicotómica o una búsqueda hashing.

La posición p Cuando aquí hablamos de una posición p, no nos referimos a una posición byte (el byte número p dentro del fichero), sino a una posición registro. Cada registro ocupa una posición y en cada posición puede haber un registro. Recordad que aquí sólo hablamos de ficheros de datos estructurados en registros.

25

 FUOC • P01/79008/00054

Los datos

3) Acceso secuencial por valor (SV): después de haber accedido a un registro, se pide acceder al siguiente respecto al orden de un atributo (campo) determinado.

Por ejemplo, en un acceso SV por número de matrícula, una vez encontrado el alumno que tiene el 2.418 de número de matrícula (consultad la figura 7), encontraremos al alumno 3.782. Éste sería el tipo de acceso que utilizaríamos en un programa que suministrase una lista de alumnos ordenada por número de matrícula, a pesar de que el fichero fuese una secuencia ordenada por nombre, pero que estuviese equipado de un índice por número de matrícula (precisamente, éste era el caso de la secretaría no informatizada).

4) Acceso directo por valor (DV): se pide acceder al registro que tiene, para un atributo (campo) determinado, un valor dado.

Por ejemplo, queremos acceder a los datos del alumno Juan García (el registro donde el campo nombre vale Juan García).

De este modo, podemos hacer un cuadro resumen de las diferentes formas de acceso: Figura 10 Cuatro formas de acceso Por posición

Por valor

Secuencial

SP

SV

Directo

DP

DV

3.7. Nivel lógico y nivel físico El registro de los datos, la organización y los accesos se puede considerar desde un punto de vista más o menos alejado de la realización física.

En el mundo de las representaciones informáticas, se acostumbran a distinguir dos puntos de vista o niveles: el nivel físico, cuando es necesario considerar la realización física, y el nivel lógico, cuando no hace falta conocerla.

Los programadores trabajan a niveles diferentes en función de sus necesidades: 1) Nivel lógico: el programador de aplicaciones que trabaja con un lenguaje de alto nivel como el C, el Cobol, etc. puede ver o imaginar que los ficheros están formados simplemente por registros, uno detrás del otro, y que contienen campos con letras y números. No ve, ni le hace falta conocer, la realización física que tal

Años sesenta y setenta El actual software especializado en ficheros y BD nos proporciona la separación de niveles deseada (si bien no del todo completa). Sin embargo, en los años sesenta y setenta esta separación casi no existía. Los programadores de aplicaciones tenían que incluir en sus programas consideraciones relativas a índices, controles de paridad, tamaño de la pista del disco, etc.

 FUOC • P01/79008/00054

26

vez constará de encadenamientos de registros físicos (cada uno con distintos registros lógicos), marcas separadoras entre campos, comprensión de datos, índices, etc. El programador de aplicaciones trabajará a nivel lógico. 2) Nivel físico: entramos en el nivel físico cuando tenemos que considerar la realización física. Un programador de software básico (SGBD, SO, etc.), un diseñador físico de una BD, un técnico de sistemas que administra una BD, etc. deben entrar en el nivel físico. Figura 11

Para hacer la programación sencilla e independiente de las realizaciones, interesa que los programas no tengan que gestionar la organización y los accesos en el nivel físico, sino sólo en el nivel lógico.

Los datos

 FUOC • P01/79008/00054

27

Los datos

4. La memoria externa

Antes de acabar este módulo haremos una pequeña incursión en un tema de nivel muy físico: las memorias externas con soportes permanentes.

4.1. Justificación de la utilización de la memoria externa La necesidad de almacenar los datos nos obliga a utilizar memorias externas con soportes permanentes, como por ejemplo los discos magnéticos, las cintas o los CD-ROM. Sin embargo, la no-volatilidad no es la única razón que justifica su utilización, sino también su gran capacidad (habitualmente entre 10 y 1.000 veces mayor que la de la memoria principal o interna) y el precio bajo por byte (tal vez 10 o 100 veces inferior). El principal inconveniente de estos periféricos de almacenamiento persistente es el tiempo de acceso, que suele ser unas 1.000 veces mayor que el de la memoria interna.

4.2. Esquema de la E/S La unidad de transferencia entre la memoria externa y la interna es el bloque. El bloque es aquello que se lee o se escribe de una vez en una sola operación física de E/S. Es frecuente trabajar con bloques de 1 a 16 Kb. Por ejemplo, en el caso de los discos, el bloque mínimo será un sector, pero se acostumbra a leer de una vez toda una serie de sectores. En ocasiones se da el nombre de registro físico al bloque, y el de registro lógico a lo que aquí denominamos simplemente registro*. Dado que el tamaño de un registro (con frecuencia tiene entre 50 y 500 bytes) suele ser mucho me-

* Por ejemplo, los datos de un alumno.

nor que el de un bloque, se agrupan los registros (lógicos) en bloques (registros físicos). En el mundo de las BD se utiliza con frecuencia el término página como sinónimo de bloque. El sistema de ficheros del SO y, eventualmente, el SGBD se encargan de las operaciones de E/S de bloques y de gestionar el espacio dedicado a los buffers. Sin embargo, los programas de usuario (los que escribe el programador de aplicaciones) no entran en este nivel físico, sino que permanecen en un nivel lógico. De este modo, las operaciones que realizan son lecturas/escrituras de registros lógicos*. El software se encarga de pasar registros entre los programas de usuario y los buffers. El programa de usuario pide/envía un registro y el software (SO/SGBD) le sirve/ acepta desde/en los buffers de bloques.

* Leer o escribir los datos de un alumno.

 FUOC • P01/79008/00054

28

Del mismo modo que la unidad de transferencia entre la memoria externa y los buffers es el bloque, la unidad de transferencia entre los buffers y el programa de usuario es el registro.

Figura 12

4.3. Tiempo de acceso Las memorias externas tienen partes móviles. Esto hace que su tiempo de acceso sea mucho mayor que el de la memoria interna. Éste es su inconveniente principal y la causa por la que las estructuras de datos para la memoria externa tienen particularidades diferentes de las que se utilizan para las memorias internas.

El tiempo necesario para completar una operación física de lectura o escritura de un bloque en una memoria externa móvil consta de dos partes (tiempo de acceso + tiempo de transferencia): a) El tiempo de acceso es el tiempo necesario para que el mecanismo se coloque en el inicio del bloque que se debe leer o escribir. b) El tiempo de transferencia es el tiempo necesario para leer o escribir el bloque.

Con el fin de aclarar estos conceptos, a continuación los explicaremos con más detenimiento para el caso de los discos magnéticos, aunque en otros soportes son parecidos:

1) El tiempo de acceso en el caso de los discos magnéticos consta de dos partes: tiempo de búsqueda (seek) + tiempo de espera (latency o rotational delay).

Los datos

Operaciones lógicas y físicas Si en un bloque caben 100 registros y se está trabajando secuencialmente, cada 100 lecturas o escrituras efectuadas por el programa se ejecutará una lectura o una escritura de un bloque. El software será el encargado de llevar a cabo, mediante los buffers, la adaptación entre las operaciones lógicas y las físicas.

 FUOC • P01/79008/00054

29

a) En el tiempo de búsqueda, el brazo portador de los cabezales se coloca en el cilindro seleccionado. b) Después, en el tiempo de espera, se aguarda a que la rotación del disco (que no se detiene nunca) haga pasar por delante del cabezal el sector donde se inicia la operación. Así pues, este tiempo depende de la velocidad de la rotación. De este modo, si el disco gira a 7.200 r.p.m., el tiempo de espera máximo será de 8,3 ms (es decir, 7.200/60) y el tiempo de espera medio, de 4,2 ms (tiempo de espera medio = tiempo de espera máximo/2). Figura 13

2) El tiempo de transferencia será el tiempo que se tarde en leer o escribir todo el conjunto de sectores que intervienen en la operación; es decir, el tiempo que tarde en pasar el bloque por delante del cabezal. Fijémonos en que este tiempo depende del tamaño del bloque y de la velocidad de rotación. Los dispositivos de disco que tienen más de una unidad van equipados con un buffer local para poder realizar la transferencia a la memoria interna a gran velocidad, aprovechando el ancho de banda del canal, y hacer paralelo el acceso de las diversas unidades. Cuando hay buffer local, se pueden distinguir las siguientes dos velocidades de transferencia: a) La transferencia al buffer local, que depende de la velocidad de rotación. b) La transferencia del buffer local a los buffers de memoria interna del ordenador.

4.4. Características básicas de los soportes Acabamos de recordar la característica básica del tiempo de acceso. Haremos un breve recordatorio del resto de las características que nos pueden interesar.

Los datos

 FUOC • P01/79008/00054

30

Los datos

En la figura siguiente, representamos un triángulo con los cuatro tipos de periféricos más utilizados actualmente para almacenar datos. Cuanto más arriba esté un tipo, más rápido y más caro por byte es. Figura 14

Las principales características de los soportes, de interés para esta asignatura, son los siguientes: 1) Capacidad: MB (megabytes), GB (gigabytes*), TB (terabytes**).

* 1 GB = 103 MB. ** 1 TB = 103 GB.

2) Tiempo de acceso: ms (milisegundos). Si no se dice nada respecto a esto, se da el tiempo medio. 3) Velocidad de transferencia: MBps (megabytes por segundo). 4) Precio por gigabyte: euro/GB 5) Fiabilidad: hay una gran diversidad de tipos de medidas, como por ejemplo errores/hora, MTBF (tiempo medio entre dos fallos), etc. 6) Vida útil: horas, número de operaciones. 7) Utilidad: para qué se utiliza el soporte. 8) Transportabilidad: si es extraíble/intercambiable. 9) Compartición: es de uso exclusivo o bien lo pueden utilizar simultáneamente diferentes procesos. A continuación damos algunas de estas características para los tipos de soportes más frecuentes: 1) Discos duros a) Tamaño de la unidad: 5,25”; 3,5”; 1,3”.

Es necesario tener en cuenta... ... que el avance continuo y vertiginoso de las tecnologías de almacenamiento hace que la mayoría de las cifras dejen de parecerse a la realidad al cabo de pocos meses, especialmente el precio por byte y las capacidades.

 FUOC • P01/79008/00054

31

Los datos

b) Velocidad de rotación: de 3.600 a 10.000 r.p.m. (de 8,3 a 3 ms de tiempo de espera medio). Cuanto menor es el diámetro, más deprisa gira y menos se debe mover el brazo. c) RAID: matriz de discos. Objetivos: fiabilidad (mediante la redundancia) y rendimiento (mediante el paralelismo). Ejemplo de RAID: • Número de unidades: 20. • Capacidad total: 1.000 GB. • Precio: 50 euros/GB.

Ejemplo típico de disco duro Capacidad: 20 GB; tiempo medio de acceso: 10,2 ms (6 de tiempo de búsqueda + + 4,2 de tiempo de espera); velocidad de transferencia: 20 MBps; precio: 5euros/GB; tamaño del buffer local: 512 KB.

• Tamaño de la memoria caché (conjunto de buffers locales): 200 MB. 2) CD-ROM

a) Se utilizan para ficheros históricos, copias de seguridad (back-ups), etc.

Ejemplo típico de CD-ROM Capacidad: 1 GB; tiempo de acceso: 100 ms; velocidad de transferencia: 2 MBps; precio: 1 euro/GB; tamaño del buffer local: 512 KB.

b) Tienen una vida larga. c) Servidores –matrices– de CD: ordenador dedicado y un gran conjunto de CD, todos on-line. Ejemplo de servidor de CD:

Lectura recomendada Recomendamos consultar las páginas web de los fabricantes de periféricos y las revistas de informática profesional para estar al corriente de lo que hay en el mercado.

• Capacidad: 1 TB. • Tiempo de acceso: 100 ms. • Velocidad de transferencia: 2 MBps. • Precio: 400 euros/GB. d) Autocargadores: un solo CD on-line y unos cuantos (por ejemplo, 9) off-line. Cambio de CD: 2 segundos.

e) Librerías: más de un CD on-line, por ejemplo, 78 CD, dos de los cuales son on-line.

3) Cintas Ejemplo típico de cintas

a) Puesto que son de acceso secuencial, hoy casi sólo se utilizan para copias de seguridad (back-up), pero también para realizar intercambios entre sistemas y para procesos por lotes masivos batch (secuenciales).

b) Aparte de las cintas clásicas, actualmente hay muchas tecnologías de cintas en cartuchos: QUIC, DLT, DAT.

Capacidad: 28 MB; velocidad de transferencia: 2 MBps; precio: 30 euros/GB. Como en todas las cintas, el tiempo de acceso a un bloque cualquiera sería del orden de minutos.

 FUOC • P01/79008/00054

32

c) Tamaño de la unidad: 5,25”; 3,5”. d) Tienen una vida limitada. e) Autocargadores y librerías robot: de decenas a miles de cartuchos. Ejemplo de autocargador: • 4 unidades. • 60 cintas recargables. • Capacidad total: 2 TB. • Tiempo de acceso medio: 30 s. • Precio: 50 euros/GB. f) Matrices de cartuchos: todas las cintas on-line. Ejemplo de uso: hacer una copia de seguridad rápida de un RAID.

Los datos

 FUOC • P01/79008/00054

33

Resumen

En este módulo hemos explicado que los conocimientos que obtenemos observando los objetos del mundo real son abstracciones que denominamos información. Una información expresa el valor de un atributo (propiedad) para una entidad determinada (objeto). Hemos formalizado algunos de estos conceptos utilizando la teoría de conjuntos. A continuación se ha distinguido entidad genérica o tipo de entidad instancia. Las entidades instancia se deberán diferenciar unas de otras mediante un atributo (identificador) o un conjunto de atributos, que denominamos clave. La representación informática de una información recibe el nombre de dato. Los datos de cada objeto se agrupan en registros y los registros se estructuran en ficheros o BD (conjuntos de ficheros interrelacionados). Estos ficheros o BD se almacenan en memorias externas permanentes, cuyo tiempo de acceso es mucho más elevado que el de las memorias internas, que son volátiles. Finalmente, hemos revisado las características principales de estas memorias.

Los datos

 FUOC • P01/79008/00054

35

Actividades 1. Buscar información sobre los productos de los fabricantes de memorias externas (en folletos técnicos o comerciales o en la web), hay que analizarla y redactar el siguiente punto: – Hacer una descripción resumida de las características de una unidad DVD. (Una sola hoja.) 2. Buscad información sobre soportes de almacenamiento y haced un resumen sólo con aquellas características que aquí hemos considerado como principales.

Ejercicios de autoevaluación 1. ¿Cuáles son los tres elementos que determinan una información? 2. Indicar a qué podrían corresponder en el mundo de la secretaría no informatizada de una escuela los siguientes conceptos: • Entidad instancia • Entidad tipo • Base de datos • Soporte permanente 3. ¿Podemos crear un acceso directo por posición a un fichero almacenado en una cinta magnética? 4. Disponemos de un ordenador que debe trabajar como servidor de BD en un entorno multiusuario. Necesitamos comprar unos 35 GB de memoria externa y podemos elegir entre un disco de 40 GB y dos discos de 20 GB. Los dos tipos son mecánicamente iguales (diámetro, velocidad de rotación, etc.) y tienen el mismo número de pistas; sólo se diferencian en el hecho de que la densidad de grabación del que tiene más capacidad es el doble que la de los otros, y de este modo la pista tiene el doble de capacidad. El disco más denso vale el doble que cada uno de los demás. ¿Qué podemos hacer? 5. ¿Los valores de los datos son suficientes por sí solos para ser interpretados y obtener información de ellos?

Los datos

 FUOC • P01/79008/00054

36

Solucionario Ejercicios de autoevaluación 1. Entidad, atributo y valor (podríamos añadir el tiempo). 2. • Entidad instancia: ficha de un alumno. • Entidad tipo: tipo (formato) de la ficha de los alumnos. • Base de datos: conjunto de ficheros, libretas, papeles, etc. que contiene la información relativa a los alumnos, las asignaturas, los profesores y sus interrelaciones. • Soporte permanente: cartón o papel. 3. Si hemos escrito un programa de usuario que da al software de ficheros una orden del tipo “dame el registro que ocupa la posición 1.524”, seguro que recibiremos un error (ya sea en tiempo de compilación o de ejecución), porque el software del mercado no acepta el “acceso” directo para el caso de cintas magnéticas. Sin embargo, fijémonos en que el término acceso directo por posición es de nivel lógico, ya que el concepto posición no tiene nada que ver con ninguna característica física de ningún tipo de soporte. En teoría, el software podría aceptar la orden y, leyendo secuencialmente los primeros 1.524 registros del fichero, dar al programa el registro de la posición que buscamos. En la práctica no lo hacen porque sería demasiado lento. Éste es un ejemplo típico del hecho de que, desgraciadamente, en la práctica no siempre hay independencia entre el nivel lógico y el físico. El software obliga al programador a conocer el tipo de soporte físico para saber si le puede dar ciertas órdenes o no; es decir, el programa no se puede escribir independientemente de las características físicas de los soportes. Esto acostumbra a pasar, como en nuestro caso, por cuestiones de rendimiento. 4. El hecho de tener dos discos de 20 GB en lugar de uno de 40 GB nos costará el mismo dinero, pero tendrá las siguientes ventajas: a) Mejor rendimiento, ya que seguramente nuestro sistema (hardware + software) podrá encabalgar el tiempo de acceso de los dos discos. b) Más disponibilidad, porque si se estropea un disco todavía disponemos del otro. c) Menos coste, porque si se debe cambiar un disco nos costará la mitad. d) Se alargará la vida de los mecanismos de acceso. Los tratamientos por lotes (batch) masivos pueden ser ligeramente más lentos, porque hay más cambios de cilindro. 5. El valor “2002”, por ejemplo, no es suficiente por sí solo para saber si se trata de la fecha de nacimiento, de la fecha de matrícula, de un importe de un pago, etc. Si sabemos que el atributo se denomina DAT4, todavía no sabremos gran cosa. Debemos averiguar a qué atributo pertenece el valor y, además, qué semántica tiene el atributo.

Glosario atributo Propiedad de una entidad. base de datos Conjunto de ficheros interrelacionados. campo Representación del valor de un atributo. clave Atributo o conjunto de atributos que permite identificar los objetos (distinguirlos unos de otros). dato Nombre que recibe la información en el mundo de las representaciones informáticas. entidad Conceptualización de un objeto del mundo real. El concepto cuya entidad es estancia se denomina también tipo de entidad. fichero Conjunto de registros relativos a un mismo tipo de entidad. identificador Único atributo del que puede constar una clave.

Los datos

 FUOC • P01/79008/00054

37

memoria externa Memoria auxiliar con soporte persistente que se utiliza para mantener almacenados los datos permanentemente. organización Forma en la que se colocan –o se estructuran– los datos para facilitar su posterior uso. registro Conjunto de datos relativos a un objeto.

Bibliografía Bibliografía básica Falkenberg, E.D. (1996). “A Framework of Information System Concepts. The FRISCO Report”. IFIP WG 8.1 Task Group FRISCO. Es conocido como informe FRISCO. Muy interesante para profundizar en marcos conceptuales del tipo de los “tres mundos” que hemos utilizado aquí.

Bibliografía complementaria Para ampliar vuestros conocimientos sobre las memorias externas, los documentos técnicos y comerciales de los fabricantes o los distribuidores pueden ser una buena fuente de información. Una vía de acceso a estos documentos puede ser Internet.

Los datos