Adminsitración de datos y organización de archivos

domingo, 23 de agosto de 2020

Módulo IV: Elaboración de base de datos en Access

Contenido:

1. Explicación de tablas.

2. Explicación de estructura y relaciones.

Para esta entrada, mediante los conocimientos sobre base de datos explicados en los anteriores módulos se creó una base de datos en el programa de Access.

La idea que tuve en mente a la hora de crear las tablas fue la de una ferretería, ¿Qué bases de datos necesitarían?

* Las ferreterías normalmente tienen muchos empleados, por tanto una tabla específica de empleados será de utilidad para mantener un orden administrativo.

* Las ferreterías tienen muchos productos, por tanto una tabla con sus productos mantendría un orden en la cantidad de productos en venta y facilitaría la tarea de saber cuándo volver a comprar un tipo de producto.

* Para vender algún producto se necesitara un registro de compras, por tanto es necesario una tabla para hacer pedidos.

Con esto en mente me puse manos a la obra y abrí el editor de bases de datos Access de la empresa Microsoft del año 2013, lo primero que hice fue crear una tabla de prueba para comprobar cómo quedarían los datos:

Como se ve esta tabla se ve perfecta para ser la tabla de empleados, por tanto arreglé sus propiedades y cambie su nombre a “Empleados”, la clave principal para esta tabla es la columna “Id” para que no se repita el identificador, rellené esta tabla con información aleatoria de 5 trabajadores ficticios donde cada columna tiene parte de la información de cada uno:

Cada columna en la tabla de empleados tiene su propósito:

1. Id: Esta columna representa el identificador único para cada empleado (por tanto es la clave principal para evitar redundancia de valores), los primeros dos dígitos son el año en que el empleado se registró en el sistema, los otros tres dígitos representa el número de empleados hasta el momento en que ese empleado se registró, por ejemplo: el empleado Santiago Medina se registró en el sistema en el año 2020, y además fue el primer empleado de ese año, en cambio Carmen Rodríguez se registró en el sistema el año 2016 y fue la sexta empleada de ese año.

2. Nombre: Aquí va el nombre completo de los empleados, para evitar errores a la hora de pasar la base de datos a un servidor se evitó el uso de signos no comunes como también de vocales con acento ortográfico.

3. Edad: Simple, la edad del empleado, compone de un número menos de 90 (límite de edad para trabajar en la ferretería).

4. Cedula: la edad del empleado (espero que la edad y el número de cedulo concuerda puesto que son aleatorios).

5. Numero tlf: El número de teléfono del empleado (use códigos de teléfono venezolanos, los siete dígitos después son aleatorios).

6. Correo: Correo electrónico del empleado, se acepta cualquier proveedor de correo electrónico siempre y cuando no sean privados y así evitar problemas a la hora de enviar correos (vuelvo a recalcar que estos datos son aleatorios puesto que tal vez alguno de estos correos sea real).

Para la tabla de “Productos” se hace algo parecido con la tabla de Empleados en cuanto a la clave principal aunque NO están relacionadas de alguna forma a pesar de pertenecer al mismo archivo de Access. Esta tabla está compuesta de 16 productos para la ferretería (cantidad reducida con el propósito de ejemplo para el módulo) donde cada producto tiene un código de sistema, el nombre del producto, cantidad disponible en inventario, precio del momento (el formato del dinero por defecto en Access es el de euro, para cambiarlo a dólar use el formato $ #.##0,00;($ #.##0,00) para la tabla de precio) y la fecha de stock.

Explicación de cada columna en la tabla Productos:

1. Codigo: Esta columna es la clave principal de la tabla, el número de código representa el orden en la que el producto se registró en el sistema por tanto si se desea buscar un producto solo se debe buscar por el código del mismo.

2. Producto: En esta columna va el nombre del producto, tal como en la columna de nombre de la tabla de empleados se evitó el uso de símbolos no comunes y de vocales con acento ortográfico por motivos de servidor.

3. Cantidad_disp: Esta columna representa la cantidad disponible del producto.

4. Precio: Aquí está el precio en formato de dólares (por ser el más común y además por espacio), cada producto tiene su precio individual.

5. Fecha_stock: En esta columna va la fecha en la que el stock(cantidad total del producto permitida en almacen) es completado, esta columna es importante para los administradores puesto que les permite saber si un producto es rentable según la cantidad vendida tras el tiempo de ser completado el stock.

Para los pedidos de productos se crea la tabla “Pedidos” compuesta de las columnas Codigo, Nombre, Fecha_compra, Cantidad_compra, Pago_completo, Id_emp, Id_compra, por motivo de ejemplo solo está compuesta de tres pedidos con cada uno de sus columnas completadas.

La explicación de cada columna es la siguiente:

1. Codigo: este es el código del producto del que se hace un pedido, esta debe ser igual a algún código de la tabla de “Productos”.

2. Nombre: esta columna es el nombre del comprador (se evita el uso de símbolos no comunes y de vocales con acento ortográfico).

3. Fecha_compra: Esta columna contiene la fecha en la que se realiza el pedido.

4. Cantidad_compra: La cantidad que se desea comprar del producto especificado por el Codigo.

5. Pago_completo: Esta columna es de tipo “Si/No” puesto que solo puede tener alguno de estos valores y el motivo es que existe para decir si el comprador hizo el pago completo o no a la hora de hacer el pedido.

6. Id_emp: Esta columna se utiliza para comprobar que empleado atendió al comprador y debe tener la Id de algún empleado de la tabla de “Empleados”.

7. Id_compra: Esta columna es la clave principal de la tabla puesto que es el identificador de pedido y no puede ser repetido con el fin de que su consulta sea única.

Estructura y relaciones

La estructura de base de datos que se usa es la relacional puesto que es la que Access usa por defecto, ya que almacena sus datos en filas y columnas y las tablas pueden estar conectadas entre sí por claves comunes y toda información se recupera mediante consultas.

En cuanto a las relaciones son las siguientes:

Como se ve en la foto existen dos relaciones referenciando a dos filas de la tabla “Pedido”, primero una relación de tipo 1 a 1 entre la tabla de “Productos” (principal) y “Pedido” (referenciada), que compone del código del producto del que se hace el pedido. La segunda relación es de tipo 1 a muchos entre la tabla “Empleados” y la tabla “Pedido”, puesto que no puede existir una id repetida entre empleados pero estas pueden estar relacionadas a varios pedidos.

miércoles, 15 de julio de 2020

Módulo III: Relaciones y normalización

Tema: Relación entre bases de datos y normalización de datos

Contenido general:

1. Relación entre base de datos.

2. Tipos de relaciones existentes entre bases de datos.

2.1. Relaciones de uno a uno.

2.2. Relaciones de uno a muchos.

2.3. Relaciones de muchos a uno.

2.4. Relaciones de muchos a muchos.

3. Normalización de datos en una base de datos.

3.1. Importancia y utilidad.

3.2. Niveles de normalización (FN1, FN2, FN3).

3.3. Ejemplo de normalización y aplicación de FN1, FN2, FN3.

Video referente al tema:

1. Relaciones entre bases de datos.

En una base de datos relacionales, las relaciones son asociaciones entre las tablas que se crean utilizando claves únicas que permiten establecer concordancia y relación entre las entidades o tablas además de que evita la redundancia de datos guardados en tablas y permitir la consulta de datos de forma eficaz y crear informes.

2. Tipos de relaciones existentes entre bases de datos

A la hora de manejar bases de datos es importante saber qué tipos de relaciones pueden presentarse entre dos tablas, estas relaciones se dividen en tres tipos:

2.1. Relaciones de uno a uno: En una relación uno a uno, una fila de la tabla A no puede tener más de una fila coincidente en la tabla B y viceversa. Se crea una relación uno a uno si ambas columnas relacionadas son claves principales o tienen restricciones únicas. Este tipo de relación no es común porque la mayoría de información que está relacionada de esta manera estaría en una tabla.

2.2. Relaciones de uno a muchos: En una relación de uno a muchos, un registro de una tabla se puede asociar a uno o varios registros de otra tabla, por ejemplo, de la tabla clientes, cada cliente puede tener varios pedidos de ventas.

En este ejemplo, el capo de clave principal de la tabla clientes, ID de clientes, se ha diseñado para contener valores únicos. El capo de clave externa de la tabla Pedidos, ID de cliente, se ha diseñado para permitir varias instancias del mismo valor. Esta relación devuelve registros relacionados cuando el valor de campo ID de cliente de la tabla Pedidos es el mismo que el valor del campo ID de cliente de la tabla Clientes.

2.3. Relaciones de muchos a uno: Como las relaciones son bidireccionales, además de las relaciones uno a muchos también hay relaciones de muchos a uno, una relación de muchos a uno hace referencia a una tabla o entidad que contiene valores y hace referencia a otra tabla o entidad que tiene valores exclusivos. Las relaciones de muchos a uno con frecuencia son impuestas por las relaciones de clave foránea y clave primaria, y generalmente las relaciones se establecen entre las tablas de hechos y las entidades o tablas de dimensiones y entre los niveles de una jerarquía.

Por ejemplo, suponga que decide enviar un paquete de mercancía de muestra para todas las personas de la tabla [EMPLEADOS]. Usted añade una tabla [Tarifa_Postal] que contiene los códigos postales y la tarifa postal para cada código postal. El uso de esta estructura le permite imprimir las etiquetas para cada persona, incluyendo el valor de enviar el paquete.

El campo Codigo_Postal de la tabla [CODIGOS_POSTALES] es la llave primaria, así que en esta relación, la tabla [Tarifa_Postal] es la tabla Uno. El campo Codigo_Postal en la tabla [EMPRESAS] es la llave foránea para esta relación: en este caso, puede tener valores duplicados para empresas que están en una misma área. La tabla [EMPRESAS] es entonces la tabla Muchos para la relación con la tabla [CODIGOS_POSTALES].

2.4. Relaciones de muchos a muchos: Una relación de muchos a muchos, una fila de la tabla A puede tener muchas filas coincidentes en la tabla B y viceversa. Esta relación se crea definiendo una tercera tabla denominada tabla de conexión. La clave principal de la tabla conexión consta de las claves extranjeras de la tabla A y de la B. Por ejemplo, la tabla “Authors” y la tabla “Titles” tienen una relación de muchos a muchos que se define mediante una relación de uno o varios de cada uno de estas tablas a la tabla “TitleAuthors”. La clave principal de la tabla “TitleAuthors” es la combinación de la columna au_ID (la clave principal de la tabla “Authors”) y la clumna title_ID (la clave principal de la tabla “Titles”).

3. Normalización de datos en una base de datos: La normalización de datos tiene como propósito organizar los datos de una base de datos, tomando en cuenta la creación de tablas y las reglas que se usan para definir las relación, estas reglas se diseñan para proteger los datos, y para que la base de datos sea flexible con el fin de eliminar redundancia y dependencia de incoherencias.

3.1. Importancia y utilidad: La normalización obtiene gran importancia y tienen utilidad a la hora de administrar los datos presentes en tablas de una base de datos estas son:

3.1.1. Evitar redundancia de datos.

3.1.2. Disminuir problemas a la hora de actualizar los datos en tablas.

3.1.3. Proteger la integridad de los datos.

3.1.4. Facilitar el acceso e interpretación de los datos.

3.1.5. Reducir el tiempo y complejidad de revisión de las bases de datos.

3.1.6. Optimizar el almacenamiento.

3.1.7. Prevenir el borrado indeseado de datos.

3.2. Niveles de normalización: Para normalizar una base de datos existen principalmente 3 reglas, las cuales se deben cumplir para evitar la redundancia en las tablas. A estas reglas se les conoce como “forma normal” que va desde la 1 a la 3 (FN1, FN2, FN3).

3.2.1. Primera Forma Normal (FN1): La primera forma normal significa que los datos están en un formato de entidad, lo que significa que se han cumplido las siguientes condiciones:

a. Eliminar grupos repetidos en tablas individuales.

b. Crear una tabla independiente para cada conjunto de datos relacionados.

c. Identificar cada conjunto de datos relacionados con la clave principal.

3.2.2. Segunda Forma Normal (FN2): La segunda forma normal asegura que cada atributo describe la entidad, crear tablas separadas para el conjunto de valores y los registros múltiples, estas tablas se deben relacionar con una clave externa. Esto significa:

a. Crear tablas independientes para conjuntos de valores que se apliquen a varios registros.

b. Relacionar estas tablas con una clave externa.

3.2.3. Tercera forma normal (FN3): La tercera forma normal comprueba las dependencias transitivas, eliminando campos que no dependen de las claves principales, Esto es simplemente:

a. Eliminar los campos que no dependan de la clave.

3.3. Ejemplo de normalización y aplicación de FN1, FN2, FN3:

Se presenta una tabla no normalizada, que contiene estudiantes, Tutor, Habitación y las Clases 1, 2 y 3. Se aplicara la FN1, FN2, FN3.

a. FN1: Al aplicarle la primera forma normal eliminamos los grupos repetidos, quedándonos con una sola columna de clases repitiendo los datos del estudiante, tutor y habitación y ahora no tenemos grupos repetidos porque aplicamos la primera forma normal (FN1).

b. FN2: Al pasar a la segunda forma normal vamos a eliminar los datos redundantes, y para lograrlo vamos a crear dos tablas. Una tabla se llamara Estudiantes donde eliminaremos los datos redundantes quedándonos con los datos únicos (Estudiante, Tutor y Habitación) y en una segunda tabla que llamaremos Registro para el número de estudiante y las clases que llevara en el ejemplo el estudiante 1606 y 2602 llevara cada uno tres clases. El contenido de la (FN1) Primera Forma Normal que estaba en una tabla ha sido divido en dos tablas para eliminar los datos redundantes e introducirlo a la (FN2) Segunda Forma Normal.

c. FN3: La tercera forma normal comprueba las dependencias transitivas, eliminando campos que no dependen de la clave principal. Para pasar a la tercera forma normal tenemos que eliminar los campos de No Dependen de la Clave y para lograrlo dividimos la tabla estudiante en dos tablas y creamos la tabla Facultad donde trasladaremos la columna habitación que No Depende de la Clave que es la columna estudiante, el nombre del tutor será el enlace con la tabla estudiante aunque también podría ser la columna estudiante.

Fuentes por pregunta:

1. https://docs.microsoft.com/es-es/office/troubleshoot/access/define-table-relationships#:~:text=Una%20relación%20funciona%20haciendo%20coincidir,un%20campo%20de%20otra%20tabla.

2. https://fmhelp.filemaker.com/help/18/fmp/es/index.html#page/FMP_Help%2Fone-to-one-relationships.html%23

https://docs.microsoft.com/es-es/office/troubleshoot/access/define-table-relationships#:~:text=Una%20relación%20funciona%20haciendo%20coincidir,un%20campo%20de%20otra%20tabla.

https://doc.4d.com/4Dv16/4D/16.6/Tipos-de-relaciones.300-4460802.es.html

3. https://ed.team/blog/normalizacion-de-bases-de-datos

http://www.marcossarmiento.com/2017/06/28/normalizacion-de-base-de-datos/

viernes, 3 de julio de 2020

Modulo II: Bases de datos

Tema: Introducción a las Bases de Datos.

Contenido general:

1. Distintos conceptos de base de datos.

2. Importancia de las bases de datos.

3. Objetivos que debe cumplir una base de datos.

4. Organización de las bases de datos.

5. Relaciones, entidades, atributos, esquemas, subesquemas.

6. Tipos de estructura en Base de Datos.

Vídeo del tema a tratar en este modulo:

1. Distintos conceptos de base de datos.

1.1. Una base de datos se entenderá como una colección de datos relacionados entre sí y que tienen un significado implícito.

1.2. Es un conjunto de información relacionada que se encuentra agrupada o estructurada (no confundir con un archivo, ya que por sí mismo no constituye una base de datos, sino más bien la forma en que está organizada la información es la que da origen a la base de datos.).

1.3. Es una colección de datos a la disposición de una o muchas organizaciones en tiempo real combinando los datos de manera que parezcan estar en una sola ubicación (un servidor por ejemplo).

2. Importancia de las bases de datos: La cantidad de datos que se generan a día de hoy es descomunal por tanto el registrar y el acceder de forma correcta estos datos tiene gran importancia, y hoy en día la forma más eficaz de hacerlo es con bases de datos, además de que nos permite ahorrar espacio físico y tiempo de consultar información de ellas.

3. Objetivos que debe cumplir una base de datos: Las bases de datos almacenan información que luego es obtenida con de forma rápida y exacta por las organizaciones que la requieran con el objetivo de que dicha organización use esa información para facilitar la toma de decisiones.

4. Organización de las Bases de Datos: Una base de datos se organiza en campos, registros, archivos, un campo es una pieza de información como por ejemplo: nombre, edad, ciudad, un registro es un conjunto de campos como por ejemplo: registro trabajadores en una empresa, registro de maquinarias que cuenta una empresa, un archivo es una colección de registros como por ejemplo: los archivos del área de una empresa

5. Relaciones, entidades, atributos, esquemas, subesquemas.

5.1. Relaciones: Son una parte esencial en las bases de datos relacionales, ya que son las que permiten establecer las concordancias, asignaciones y relaciones entre las entidades o tablas, así mismo permite garantizar la integridad referencial de los datos.

5.2. Entidades: Objetos con información descriptiva sobre ellos el cual interesa guardar datos.

5.3. Atributos: Son los que describen la entidad. Se divide en dos grupos:

5.3.1. Identificadores: Identifican de manera única cada instancia.

5.3.2. Descriptores: Identifican las instancias y pueden repetirse.

5.4. Esquemas: Es la descripción de la base de dato, que se especifica durante el diseño de la base de datos y no se espera que cambie con frecuencia. La mayoría de los modelos de datos utilizan ciertas convenciones para mostrar su esquema como diagramas.

5.5. Subesquemas: Son los diferentes esquemas en el nivel de vistas, que describen diferentes vistas de la base de datos. Las vistas se dividen en: nivel externo, nivel conceptual, nivel interno.

6. Tipos de estructura en Base de Datos.

6.1. Estructura jerárquica: Esta es la estructura que tenían las primeras bases de datos. Las relaciones entre registros forman una estructura en árbol. En esta estructura los datos se organizan en una forma similar a un árbol visto al revés, en donde un nodo padre de información puede tener varios hijos. El nodo que no tiene padres es llamado raíz, y a los nodos que no tienen hijos se les conoce como hojas (por ser la última parte del árbol).

6.2. Estructura en red: Esta estructura contiene relaciones más complejas que las jerárquicas. Admite relaciones de cada registro con varios que se pueden seguir por distintos caminos, en otras palabras, se permite que un mismo nodo tenga varios padres. Esta estructura es una solución eficiente al problema de redundancia de datos.

6.3. Estructura relacional: La estructura relacional es la más extendida hoy en día. Almacena los datos en filas o registros (en matemática, “tuplas”) y columnas o campos (atributos). Estas tablas pueden estar conectadas entre sí por claves comunes. En este modelo, el lugar y la forma en que se almacenen los datos no tienen relevancia(a diferencia del jerárquico y el de red). Esto tiene la considerable ventaja de que es más fácil de entender y de utilizar. La información puede ser recuperada o almacenada mediante “consultas” que ofrecen una amplia flexibilidad y poder para administrar la información.

6.4. Estructura multidimensional: La estructura multidimensional tiene parecidos a la del modelo relacional, pero en vez de las dos dimensiones filas-columnas, tiene N dimensiones. Esta estructura ofrece el aspecto de una hoja de cálculo.

6.5. Estructura orientada a objetos: La estructura orientada a objetos está diseñada siguiendo el paradigma de los lenguajes orientados a objetos, tales como Encapsulación (propiedad que permite ocultar información al resto de objetos), herencia (propiedad que hace que los objetos hereden comportamientos dentro de una jerarquía de clases), polimorfismo (propiedad de una operación mediante la cual puede ser aplicada a distintos tipos de objetos). De este modo soporta los tipos de datos gráficos, imágenes, voz y texto de manera natural. Esta estructura tiene gran difusión en aplicaciones web para aplicaciones multimedia.

Fuentes:

1. https://www.monografias.com/trabajos7/bada/bada.shtml

https://gestionbasesdatos.readthedocs.io/es/latest/Tema1/Teoria.html

2. https://prezi.com/wmtnk8zil6qp/la-importancia-de-las-bases-de-datos-en-la-actualidad/?fallback=1

5. https://www.ecured.cu/Bases_de_datos

https://www.jairogaleas.com/relaciones-en-bases-de-datos/

https://senati.cld.bz/89001621-FUNDAMENTO-DE-BASE-DE-DATOS/28/#zoom=z

6. https://gestionbasesdatos.readthedocs.io/es/latest/Tema1/Teoria.html

https://www.ecured.cu/Bases_de_datos

miércoles, 17 de junio de 2020

Modulo I: datos y archivos

Contenido general:

1. Datos.

2. Breve descripción sobre la evolución de la computación en función de los datos.

3. Sistemas de codificación.

4. Creación, manejo y verificación de códigos.

5. Archivo de datos

6. Tipos de archivos según los datos

7.Formas de representación de los datos

8.Organización y Proceso de archivo.

9. Organización secuencial.

10. Organización y Proceso de Archivos indexados.

11. Organización directa.

Vídeo del tema a tratar subido a blogger:

Vídeo en youtube por si el anterior falla en abrir y/o es muy lento:

Dale click aquí para descargar archivo pdf de este modulo

1. Datos.

1.1. Definición de dato: Un dato es la representación de una variable que puede ser cuantitativa o cualitativa, indican un valor que se le asigna a las cosas. Los datos son información. Un dato por sí solo no puede demostrar demasiado, siempre se evalúa el conjunto para poder examinar los resultados.

1.2. Dato en información: En informática, los datos son representaciones simbólicas (vale decir: numéricas, alfabéticas, algorítmicas, etc.) de un determinado atributo o variable cualitativa o cuantitativa, o sea: la descripción codificada de un hecho empírico, un suceso, una entidad. Entonces los datos son, así, la información que recibe el computador a través de distintos medios, y que se manipula mediante el procesamiento de los algoritmos de programación.

2. Breve descripción sobre la evolución de la computación en función de los datos: Desde un principio las computadoras y los datos estuvieron unidos, el propósito para el cual la computación fue diseñada es crear algoritmos que solucionen problemas y procesar información a gran escala. La solución de cualquier problema requiere de un procedimiento, un método, una serie de pasos ordenados para convertir los datos de entrada en datos de salida deseados (las soluciones).

Tanto la computación, como la ciencia de información (ciencia encargada de la recolección, clasificación, uso, almacenamiento de datos procesados), presentan antecedentes muy antiguos que se pierden en la historia. Sin embargo, ambas iniciaron su etapa fuerte de progreso durante la década de los años 60. Aun cuando la ciencia de la información y la computación surgieron como disciplinas independientes; con gran rapidez, ellas firmaron una alianza indisoluble para el progreso. Esta unión se debe a que progresivamente a la ciencia de la información se le dificultaba alcanzar sus objetivos y metas, sobre todo considerando el crecimiento acelerado del volumen de datos disponibles, así como el nivel de procesamiento que se proponía sin la existencia de las computadoras aun cuando sus antecesoras, la bibliotecología y la documentación de hecho, trataron la información en forma manual y mecánica, es decir, en forma no automática, durante siglos.

3. Sistemas de codificación.

3.1. Definición de codificación: La codificación se puede definir como la asignación de símbolos mediante un plan sistemático, para distinguir ciertos fenómenos y establecer su ordenamiento dentro de una clasificación determinada.

3.2. Definición de sistemas de codificación: Los sistemas de codificación y la necesidad de clasificación surge de la necesidad de registrar, enmascarar, ordenar, identificar, agrupar y clasificar fenómenos o elementos o relacionarlo con un grupo determinado, en forma tal que los elementos codificados puedan ser decodificados tan eficientemente como sea posible por medio de un índice o guía.

4. Creación, manejo y verificación de códigos.

4.1. Creación de códigos:

4.1.1. Desarrolle categorías de codificación, empiece redactando una lista de todos los temas, conceptos e interpretaciones, tipologías y proposiciones identificados o producidos durante el análisis inicial.

4.1.2. Codifique todos los datos, codifique todas las notas de campo, las transcripciones, los documentos y otros materiales, escribiendo en el margen el número asignado o la letra correspondiente a cada categoría.

4.1.3. Separe los datos pertenecientes a las diversas categorías de codificación, el investigador reúne los datos codificados pertenecientes a cada categoría. …se recortan las notas de campo, las transcripciones y otros materiales y se colocan los datos de cada categoría en carpetas de archivo.

4.1.4. Vea que datos han sobrado, algunos de esos datos probablemente se ajusten a las categorías de codificación existentes. También se pueden plantear nuevas categorías.

4.1.5. Refine su análisis, la codificación y separación de los datos permite comparar diferentes fragmentos relacionados con cada tema, concepto, proposición, etcétera, y en consecuencia refinar y ajustar las ideas.

Una vez realizada la codificación de los datos, se puede proceder a la confección de la matriz de datos. Según Galtung, J. (16): “La matriz de datos es un modo de ordenar los datos de manera que sea particularmente visible la forma tripartita.”

En efecto, cada fila de la matriz corresponde a una unidad de análisis, cada columna a una variable y en cada celda, figura el valor que cada unidad asume para cada variable. De esta manera, con la articulación de estos tres elementos se configura una Matriz de Datos.

4.2. Manejo de códigos: Una vez grabados, los datos pueden ser transformados para facilitar su análisis. Algunas de las transformaciones más corrientes consisten en re-codificar variables, definir nuevas variables a partir de variables existentes, reemplazar los valores perdidos.

4.3. Verificación de códigos: Utilizar códigos numéricos para la entrada de datos, no solo facilita la entrada de los mismos, sino que también facilita la identificación de errores en el proceso.

Existen una forma sencillas de determinar errores en la entrada de datos, cuando los errores se encuentran fuera del rango de posibles valores. Un tipo de error más difícil de detectar es el que se encuentra dentro del rango de posibles valores. Por ejemplo, el género es 1 y usted entra un 2. Sin embargo, como el género puede ser 1 o 2, el valor entrado, a pesar de ser incorrecto, se encuentra dentro del rango de posibles valores.

5. Archivo de datos: Los archivos como colección de datos sirve para la entrada y salida a la computadora y son manejados con programas.

Cada archivo es referenciado por su identificador (su nombre). Los archivos pueden ser contrastados con Arrays y registros; Lo que resulta dinámico y por esto en un registro se deben especificar los campos, él número de elementos de un arrays (o arreglo), el número de caracteres en una cadena; por esto se denotan como "Estructuras Estáticas".

En los archivos no se requiere de un tamaño predeterminado; esto significa que se pueden hacer archivos de datos más grandes o pequeños, según se necesiten.

6. Tipos de archivos según los datos.

6.1. Archivo de Entrada: Una colección de datos localizados en un dispositivo de entrada.

6.2. Archivo de Salida: Una colección de información visualizada por la computadora.

6.3. Constantes: están formados por registros que contienen campos fijos y campos de baja frecuencia de variación en el tiempo.

6.4. De Situación: son los que en cada momento contienen información actualizada.

6.5. Históricos: Contienen información acumulada a lo largo del tiempo de archivos que han sufrido procesos de actualización, o bien acumulan datos de variación periódica en el tiempo.

6.6. Archivos de Movimiento o Transacciones: Son aquellos que se utilizan conjuntamente con los maestros (constantes), y contienen algún campo común en sus registros con aquellos, para el procesamiento de las modificaciones experimentado por los mismos.

6.7. Archivos de Maniobra o Transitorios: Son los archivos auxiliares creados durante la ejecución del programa y borrados habitualmente al terminar el mismo.

7. Formas de representación de los datos: La representación de datos es visualizar a través de diferentes medios escritos y gráficos los comportamientos de las variables que se estén estudiando.

7.1. Presentación escrita: Esta forma de presentación de información se usa cuando una serie de datos incluye pocos valores, por lo cual resulta más apropiada la palabra escrita como forma de escribir el comportamiento de los datos; mediante la forma escrita, se resalta la importancia de las informaciones principales.

7.2. Presentación tabular: Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que responden a un ordenamiento lógico; es de gran uso e importancia para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla consta de varias partes, las principales son las siguientes:

7.2.1. Título: Es la parte más importante del cuadro y sirve para describir todo el contenido de este.

7.2.2. Encabezados: Son los diferentes subtítulos que se colocan en la parte superior de cada columna.

7.2.3. Columna matriz: Es la columna principal del cuadro

7.2.4. Cuerpo: El cuerpo contiene todas las informaciones numéricas que aparecen en la tabla.

7.2.5. Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de estos.

7.2.6. Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que aparecen en la tabla o cuadro y que no han sido explicados en otras partes.

7.3. Presentación gráfica: Proporciona al lector o usuario mayor rapidez en la comprensión de los datos, una gráfica es una expresión artística usada para representar un conjunto de datos.De acuerdo al tipo de variable que vamos a representar, las principales gráficas son las siguientes:

7.3.1. Histogramas: Es un conjunto de barras o rectángulos unidos uno de otro, en razón de que lo utilizamos para representar variables continuas.

7.3.2. Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual distancia. Pueden disponerse en forma vertical y horizontal.

7.3.3. Gráfica lineal: Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se usan para representar series de tiempo o cronológicas.

7.3.4. Gráfica circular: se usan especialmente para representar las partes en que se divide una cantidad total.

8. Organización de archivos: Los archivos se encuentran organizados lógicamente como una secuencia de registros de varias longitudes diferentes.

8.1. Los archivos de registros de longitud fija: Son los que almacenan la información en los archivos mediante un encabezado y luego se introducen uno a uno los registros ubicados en posiciones consecutivas.

8.2. Los registros de longitud variable: Es el almacenamiento de registros de varios tipos en un archivo y permite uno o más campos de longitudes variables y dichos campos pueden ser repetidos. La longitud de los registros debe estar definida correctamente para poder leer y escribir de forma efectiva.

9. Organización secuencial: Se refiere al procesamiento de los registros, no importa el orden en que se haga, para eso los registros están organizados en forma de una lista y recuperarlos y procesarlos uno por uno de principio a fin.

9.1. Rudimentos de los archivos Secuenciales: Dependiendo del dispositivo de almacenamiento utilizado el archivo se puede mostrar el usuario como si fuera un sistema secuencial.

9.1.1. Al finalizar un archivo secuencial se denota con una marca de fin de archivo. (End end-of-file)

9.1.2. El usuario de un archivo secuencial puede ver los registros en un orden secuencial simple.

9.1.3. La única forma de recuperar registros es comenzar al principio y extraerlos en el orden contemplado.

9.2. Cuestiones de programación: La manipulación de los archivos se hace en el contexto de la programación en un lenguaje por procedimientos de alto nivel. Estos lenguajes tienden a expresar la manipulación de archivos mediante subrutinas que se definen como parte del lenguaje formal o se incluyen como extensiones del lenguaje en una biblioteca estándar.

La mayor parte de los lenguajes por procedimiento de alto nivel cuenta con características que ayudan a detectar la marca de fin de archivo.

10. Organización y procesos de archivos indexados: Es la aplicación de incluir índices en el almacenamiento de los archivos; de esta forma nos será más fácil buscar algún registro sin necesidad de ver todo el archivo.

Un índice en un archivo consiste en un listado de los valores del campo clave que ocurren en el archivo, junto con la posición de registro correspondiente en el almacenamiento masivo.

10.1. Fundamento de los Índices.

10.1.1. La colocación de un listado al inicio del archivo: Para la identificación del contenido.

10.1.2. La presentación de un segundo índice: Para reflejar la información de cada punto principal del índice anterior.

10.1.3. La actualización de los índices: Cuando se insertan y eliminan archivos, es preciso actualizar los índices para evitar contratiempos actualizando un archivo.

10.1.4. La organización de un índice: Nos evita examinar archivo por archivo para recuperar algún registro buscado; por lo tanto ahorraríamos tiempo si tenemos una adecuado organización de los índices.

10.2. Cuestiones de Programación: Algunos lenguajes de alto nivel cuentan con subtítulos para manipular los archivos de un registro indizado.

Valiéndose de las subrutinas es posible escribir programas sin tener que preocuparse por la estructura real del sistema de índices que se aplique.

11. Organización directa: Un archivo está organizado en modo directo cuando el orden físico no se corresponde con el orden lógico. Los datos se sitúan en el archivo y se accede a ellos directa-aleatoriamente mediante su posición, es decir, el lugar relativo que ocupan.

11.1. Ventajas y desventajas.

11.1.1. Ventaja: esta organización permite que se puedan leer y escribir los registros en cualquier orden y posición; además son de muy rápido acceso a la información que contienen.

11.1.2. Desventaja: Esta organización requiere programar la relación existente entre el contenido de un registro y la posición que ocupa; además el acceso a los registros en modo directo implica la posible existencia de huecos libres dentro del soporte y, por consecuencia, pueden existir huecos libres entre los registros.

11.2. Las condiciones para que un archivo sea de organización directa son:

11.2.1. Almacenamiento en un soporte direccionable.

11.2.2. Los registros deben contener un campo específico denominado clave que identifica a cada registro como único, es decir, dos registros no pueden tener el mismo valor clave.

11.2.3. Existencia de una correspondencia entre los posibles valores de la clave y las direcciones posibles sobre el soporte.

En la práctica el programador no gestiona directamente relaciones absolutas, sino direcciones relativas respecto al principio del archivo. La manipulación de dirección relativa permite diseñar el programa con independencia de la posición absoluta del archivo en el soporte.