При работе с данными крайне важно быстро получить общее представление о наборе данных, прежде чем приступать к дальнейшему анализу. Pandas предоставляет несколько методов для просмотра данных, включая head(), tail() и sample().
Эти методы позволяют изучать начальные строки, последние строки и получать случайные выборки из Series.
Метод iloc() позволяет получить элементы или подмножества на основе их позиций или условии, которое зависит от позиции. Например:
import pandas as pd
ages = [41, 56, 31, 38]
names = ["Tom", "Bob", "Sam", "Alice"]
series = pd.Series(ages, index=names)
# Доступ к одному элементу по позиции
element = series.iloc[2]
print("один элемент по позиции", element)
# Доступ к нескольким элементам по позициям
subset = series.iloc[[0, 2]]
print("\nнесколько элементов по позициям")
print(subset)
Метод iloc() позволяет нам получать доступ к конкретным элементам на основе их позиций, даже если в серии используются нечисловые индексы, как в случае выше.
Использование iloc[2] извлекает элемент на позиции 2, который в примере выше равен 31. Аналогично, series.iloc[[0, 2]] возвращает подмножество Series, которое
содержит элементы на позициях 0 и 2. Консольный вывод программы:
один элемент по позиции 31 несколько элементов по позициям Tom 41 Sam 31 dtype: int64
Метод head() позволяет просмотреть первые несколько строк данных. По умолчанию отображаются первые 5 строк, но с помощью необязательного параметра можно указать конкретное количество отображаемых строк:
import pandas as pd
series = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
# Отображение по умолчанию (первые 5 строк)
print("Первые пять элементов:")
print(series.head())
# Отображение первых 3 строк
print("\nПервые три элемента:")
print(series.head(3))
Консольный вывод программы:
Первые пять элементов: 0 10 1 20 2 30 3 40 4 50 dtype: int64 Первые три элемента: 0 10 1 20 2 30 dtype: int64
Метод tail() позволяет просмотреть последние несколько строк. По умолчанию отображаются последние 5 строк, но также с помощью необязательного параметра можно указать конкретное количество отображаемых строк:
import pandas as pd
series = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100])
# Отображение по умолчанию (последние 5 строк)
print("Последние 5 элементов:")
print(series.tail())
# Отображение последние 3 строки
print("\nПоследние 3 элемента:")
print(series.tail(3))
Консольный вывод программы:
Последние 5 элементов: 5 60 6 70 7 80 8 90 9 100 dtype: int64 Последние 3 элемента: 7 80 8 90 9 100 dtype: int64
Метод sample() позволяет получать случайные выборки из данных. В качестве параметра метод принимает количество извлекаемых выборок, что позволяет проводить рандомизированное исследование набора данных:
import pandas as pd series = pd.Series([10, 20, 30, 40, 50, 60, 70, 80, 90, 100]) # Получаем 3 произвольных строки sample_data = series.sample(3) print(sample_data)
Пример консольного вывода:
7 80 6 70 1 20 dtype: int64