Análisis base de datos del Titanic con Python

analisis base de datos

Introducción

En este artículo voy a desarrollar un caso práctico sobre el análisis de la base de datos del Titanic. Dicha base de datos se puede encontrar en la página web llamaba Kaggle, la cual tiene bases de datos de licencia libre, como la que se va a usar en este artículo, para realizar los diferentes análisis.  El editor usado para el desarrollo de este caso práctico se llama Spyder, que junto al lenguaje Python, nos servirá para sacar la información que consideremos que puede ser útil de la base de datos para posteriormente usar esa información realizando diferentes estudios.

¿Qué es el editor Spyder?

Es un editor de código abierto y está escrito Python. Este editor está focalizado en investigación y en el análisis de datos, se puede usar para el desarrollo de proyectos de Machine Learning.  


Características del editor


  • Editor multilingüe 

  • Registro de historial

  • Herramientas para el desarrollador 

  • Ventana de exploración de variables 

  • Visor de documentación

  • Completado de código en tiempo real y definiciones de referencia

¿Qué es Kaggle?

Es una plataforma online donde se pueden realizar competiciones de Data Mining. Esta técnica es utilizada por muchas empresas para realizar la optimización de sus procesos llevados a cabo por especialistas que ayudan a resolver el problema mediante el análisis de datos, la resolución y visualización de estos.


Esta plataforma proporciona un repositorio para que las empresas publiquen sus datos y establecer competiciones de equipos de manera pública para que se puedan descargar las bases de datos, y los diferentes equipos propongan soluciones a los problemas propuestos.


Diferentes tipos de variables presentes en una base de datos

Para la realización del análisis de  esta base de datos nos vamos a encontrar dos tipos de variables, las cuales es importante diferenciar el concepto, ya que entender y diferenciar las variables es  importante sobre todo para el proceso de limpieza de datos. Los datos son preparados para posteriormente introducirlos a los algoritmos de Machine Learning.

Variables categóricas

Los valores de este tipo de variables son categorías o grupos mutuamente excluyentes. Estas variables también reciben el nombre de variables cualitativas. Un ejemplo de este tipo de variables, por ejemplo la variable del sexo (hombre o mujer), la variable de embarque que representa las ciudades donde el pasajero embarca en el barco etc.

Variables cuantitativas

Son variables que representan números que suelen representar una medición, por ejemplo el número de pasajeros, la cantidad que cuesta un billete para embarcar etc.

Librerías de Machine Learning en este caso de estudio

Es una biblioteca de código abierto que proporciona análisis y manipulación de los datos, cuenta con diferentes tipos de estructuras de datos. El DataFrame es su estructura de datos más famosa, es una estructura tabular que se compone de columnas y filas ordenadas. En este artículo utilizaremos la librería Pandas para realizar diferentes funciones como la representación y carga de los datos.

Es una librería de Python que permite realizar gráficas 2D, los datos contenidos en listas, vectores son representados de manera gráfica. Gracias a librerías como esta se puede tener una mejor comprensión de los resultados tras realizar los análisis, ya que se puede entender mejor el concepto que nos quieren transmitir los datos de manera visual.

Es usada para la computación científica y la manipulación de datos en Python. Podemos utilizar Numpy para trabajar con arreglos multidimensionales de alta eficiencia. Además, proporciona potentes estructuras de datos para realizar los cálculos matemáticos.

Caso práctico base de datos del Titanic

Interpretación de los campos de la base de datos

El primer paso que debemos realizar es entender bien de qué campos se compone la base de datos que queremos analizar, comprender el significado de las diferentes columnas por la que está formada la base de datos y ver qué tipos de variables (categóricas o cualitativas) hay presentes en ella. También será importante la calidad y cantidad de la información, ya que influye directamente en lo bien o mal que funcione el modelo posteriormente.

Representa la descripción de los campos de la base de datos del Titanic.

Carga de datos usando la librería Pandas

Los datos que están codificados en un archivo CSV han sido almacenados en la variable llamada data, que se muestra en la ventana de explorador de variables. Estos datos han sido almacenados en dicha variable usando un método de la librería Pandas llamado read_csv (). La librería Pandas dispone de diversos métodos para realizar la carga de los datos en función del formato de archivo en el que se encuentren almacenados los datos.

En la ventana de explorador de variables podemos ver todas las variables creadas durante el desarrollo del programa, proporcionando información relevante sobre estas variables como su tipo y tamaño. Pinchando en la variable data podemos abrir una ventana que mostrará el contenido de los campos de nuestra base de datos. Otra cosa que podemos observar es que dicha variable, como nos informa el explorador de variables, está representada mediante la estructura de datos de DataFrame de la librería Pandas para la representación de los datos.


Métodos para proporcionar información y preprocesado de datos.

Podemos preparar los datos de la tabla para poder representarlos de la manera que mejor nos interese para realizar una mejor interpretación de los datos. Para realizar la conversión de los datos de las columnas utilizamos el método replace ().


Método: replace (“subcadena a sustituir”, “subcadena por la cual reemplazar”, parámetro)

También podemos sacar información relevante de la base de datos utilizando una serie de comandos para obtener dicha información.


Shape (): Podemos utilizar este método para que nos informe del tamaño de la base de datos.

Dtypes: Nos especifica el tipo de dato de cada columna de la base de datos.  


Se puede realizar un estudio estadístico de las variables cuantitativas presentes en la base de datos, utilizando el método describe ().

Podemos observar el total de valores nulos que tiene cada columna, ya que esta información es interesante para poder realizar la limpieza de los datos y prepararlos para los algoritmos.

Utilizando el método crosstab () de la librería Pandas podemos cruzar datos de diferentes columnas para comparar datos. En este caso vamos a cruzar los datos de las columnas Sexo y Sobreviviente para sacar la información del número de muertos según el género. Podemos ver en la tabla resultante que mueren más hombres que mujeres.


Utilizando el mismo método vamos a cruzar los datos de la columna Clase y Edad para ver en qué clase viajaban los pasajeros en función de su edad. Podemos ver según la información que nos proporciona la tabla que la clase baja del barco estaba compuesta mayoritariamente por jóvenes.

Uso de la Librería gráfica para la visualización de los datos.

Ahora vamos a utilizar la librería gráfica descrita en este artículo para obtener la información de manera gráfica, ya que nos proporciona una mejor comprensión de la información de manera visual.

Rubén Martínez Cutillas
Rubén Martínez Cutillas
Ir arriba