Práctica con Pandas, Dataframes y Seaborn 🐼
Exploración de datos
Cargando e inspeccionando los datos
Después de visitar Michigan y aprender que se pueden cultivar uvas para vino (¡y que se puede hacer vino!) En un lugar tan frío, decides que te gustaría comenzar un viñedo allí. Has visto los viñedos y sabes que, aunque es posible cultivar uvas de vinificación allí, a veces hace demasiado frío. Uno se pregunta si, debido al cambio climático, Michigan pronto tendrá un clima más cálido y más adecuado para el cultivo de uvas.
Sabes que Europa tiene una larga historia de cultivo de uvas y te preguntas si mantuvieron registros que pudieran indicar cómo responden las uvas a los cambios de temperatura. Encuentras un estudio que ha recopilado numerosos registros de fechas de cosecha de uvas durante más de cuatro siglos y también una base de datos de anomalías de temperatura en Europa que se remontan a 1655.
Usando el conjunto de datos proporcionado, grape_harvest.csv
(descarga aquí), explora cómo la fecha de cosecha de la uva europea cambia con respecto a la temperatura a lo largo de siglos de datos.
Para comenzar, importa pandas
en la celda siguiente:
Luego, lee en grape_harvest.csv
usando la función pd.read_csv()
un marco de datos de pandas.
# Lee los datos de la cosecha aquí
# Coloca grape_harvest.csv en el mismo directorio desde el que estás ejecutando este .ipynb
# Si está en un directorio diferente, deberás especificar la ruta al archivo
# Alternativamente, puede leer los datos de GitHub usando la siguiente URL:
# https://raw.githubusercontent.com/DanChitwood/PlantsAndPython/master/grape_harvest.csv
Respuesta
Ahora, escribe un código para inspeccionar las propiedades de los datos y luego responde las siguientes preguntas:
Usa una función de pandas para mirar las primeras cinco líneas de datos:
Respuesta
year | region | harvest | anomaly | |
---|---|---|---|---|
0 | 1700 | alsace | 42.9 | -0.91 |
1 | 1701 | alsace | 35.9 | -0.76 |
2 | 1702 | alsace | 45.0 | -1.40 |
3 | 1703 | alsace | 49.4 | -1.21 |
4 | 1704 | alsace | 30.4 | -0.44 |
Usa una función de pandas para ver las últimas cinco líneas de datos:
Respuesta
year | region | harvest | anomaly | |
---|---|---|---|---|
4727 | 1873 | vendee_poitou_charente | 32.0 | 0.06 |
4728 | 1874 | vendee_poitou_charente | 2.0 | -0.22 |
4729 | 1875 | vendee_poitou_charente | 29.0 | -1.02 |
4730 | 1876 | vendee_poitou_charente | 32.0 | -0.55 |
4731 | 1877 | vendee_poitou_charente | 34.0 | -0.56 |
Usa una función de pandas para ver un resumen de las estadísticas (como el recuento, el mínimo, el máximo y la media) para columnas con datos continuos:
Respuesta
year | harvest | anomaly | |
---|---|---|---|
count | 4732.000000 | 4732.000000 | 4732.000000 |
mean | 1832.835376 | 33.959510 | -0.337811 |
std | 91.713152 | 11.807714 | 0.675309 |
min | 1655.000000 | -13.000000 | -2.470000 |
25% | 1762.000000 | 25.900000 | -0.750000 |
50% | 1834.500000 | 34.000000 | -0.280000 |
75% | 1903.000000 | 42.600000 | 0.060000 |
max | 2007.000000 | 75.000000 | 1.460000 |
Utiliza una función de pandas para obtener los nombres de las columnas.
Respuesta
Para una de las columnas que es una variable categórica, usa una función para enumerar todos los niveles para esa variable.
Respuesta
array(['alsace', 'auvergne', 'auxerre_avalon', 'beaujolais_maconnais',
'bordeaux', 'burgundy', 'champagne_1', 'champagne_2',
'gaillac_south_west', 'germany', 'high_loire_valley',
'ile_de_france', 'jura', 'languedoc', 'low_loire_valley',
'luxembourg', 'maritime_alps', 'northern_italy',
'northern_lorraine', 'northern_rhone_valley', 'savoie',
'southern_lorraine', 'southern_rhone_valley', 'spain',
'switzerland_leman_lake', 'various_south_east',
'vendee_poitou_charente'], dtype=object)
Para la variable categórica, también usa una función para determinar cuántas filas hay que representan cada nivel.
Respuesta
switzerland_leman_lake 353
burgundy 350
southern_rhone_valley 333
jura 306
ile_de_france 302
bordeaux 274
alsace 262
languedoc 233
spain 231
low_loire_valley 203
champagne_2 183
germany 165
northern_italy 156
maritime_alps 136
auxerre_avalon 128
northern_lorraine 127
northern_rhone_valley 126
savoie 123
southern_lorraine 109
luxembourg 107
high_loire_valley 92
various_south_east 82
champagne_1 81
auvergne 80
vendee_poitou_charente 75
beaujolais_maconnais 73
gaillac_south_west 42
Name: region, dtype: int64
¿Cuántas filas hay en este conjunto de datos?
¡Felicitaciones por leer los datos y explorar su estructura! En la siguiente actividad, exploraremos la relación entre las fechas de cosecha de la uva y el clima.