Начало работы с библиотекой Pandas

#Начало-работы-с-библиотекой-Pandas

Одна из наиболее популярных библиотек с открытым исходным кодом для работы с данными, которые представлены ввиде таблиц - рядов и колонок. Существует достаточно большое количество разнообразных инструментов для обработки данных, но основными преимуществами Pandas являются:

  • хорошая интеграция с другими компонентами научной экосистемы, таких как statsmodels, matplotlib, seaborn, scikit-learn
  • вся функциональность доступна в одном фреймворке Pandas
  • прекрасное сообщество, в котором получить ответ на интересующий вопрос не составляет труда

Автором библиотеки является Wes McKinney, который начал работу в 2008 году. Свое название библиотека получила от соединения слов "panel data", которыми пользуются в финансовых учереждениях для обозначения данных, которые представленны ввиде таблиц (Вес как раз в то время работал в одном таком учереждении).

Все данные Pandas хранит как массивы numpy (numpy - numerical python, библиотека Python, которая формирует основу для многих популярных фреймворков научного мира).

Форматов для хранения данных огромное количество - XML, JSON, байты и другие. Однако Pandas оперирует данными, которые находятся ввиде таблиц (tabular data), хотя и имеет возможность подгружать различные форматы файлов, в которых хранятся данные.

Двумя основными объектами, с которыми работает библиотека являются DataFrame и Series.

  • DataFrame - двумерный массив данных, представленный рядами и столбиками.
  • Series - одномерный массив. Его можно представить как один столбик данных.
Loading output library...

Функция read_csv() позволяет загрузить данные из .csv файла, указав соответствующий путь. Функция head() по-умолчанию выводит 5 первых наблюдений из таблицы данных (5 рядов). Существует функция tail(), которая выводит последние наблюдения. В качестве параметра возможно установить желаемое число наблюдений, например:

Loading output library...

Основными компонентами DataFrane являются:

  • колонки(название каждого столбика)
  • индекс (название каждого ряда)
  • данные (сами значения в таблице данных)

Также существует понятие оси. Ось со значением 1 соответствует колонкам, а со значением 0 - рядам. Оси по своей сути соответствуют индексу и колонкам.

Узнаем тип данных, который скрывается за объектом DataFrame:

Loading output library...

Директория самого верхнего уровня, в которой хранятся все другие директории и файлы, технически называется в Python пакетом (package). pandas - это пакет. Все директории, которые находятся в пакете, называются под-пакетами (sub-packages). Все файлы с раширениями .py называются модулями.

Для того, чтобы выбрать одну колонку из таблицы данных, можно воспользовать оператором [], передав ему название колонки. Возвращаемый объект будем Series.

Loading output library...

Как можно увидеть, двумя основными компонентами объекта Series, являются индекс и сами значения. Мета-данные, которые характеризуют название Series, а также их тип данных и длину не являются частью Series. Важно отметить, что данные в одной колонке должны быть одного типа (исключение составляет тип object, который может включать строки, списки, целые значения и даже другие таблицы данных в качестве значений колонок.

Наиболее часто встречаемые типы:

  • булевые значение (boblean)
  • целые (integer)
  • дробные (float)
  • объекты - строки (object)
  • даты (datetime)
Loading output library...

При считывания файла мы имеем возможность указать, какие колонки должны быть восприняты как дата с помощью параметра parse_dates:

Loading output library...

Узнать количество строк и колонок позволяет следуящая команда:

Loading output library...
Loading output library...

Метод info() выводит дополнительную информацию, которая позволит увидеть количесиво пропущенных значений, а также размер памяти, который требуется для хранения данных.

Упражнение 1

#Упражнение-1
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...
Loading output library...