Уроки — PythonRu

Запуск Django-приложения в Docker контейнере

Максим — Fri, 11 Jun 2021 07:00:00 +0000

Если вы занимаетесь программированием некоторое время, то наверняка слышали о Docker или о таком термине, как контейнеры. В этом руководстве разберемся с его значением как раз на примере Docker, а также рассмотрим, как контейнеризировать простое Django-приложение. В конце темы вы будете знать следующее:

Виртуализация
Контейнеризация (с помощью Docker)
Docker
Создание Dockerfile
Docker Compose
Настройка Django приложения в среде Docker с помощью Dockerfile и docker-compose

Условия

Чтобы справиться с этим руководством вам нужно иметь следующее:

Git/GitHub
PyCharm (или любой другой редактор кода)
Опыт работы с Django

Готовый репозиторий с Django-приложением, как всегда на GitLab: https://gitlab.com/PythonRu/django-docker.

Что такое виртуализация

Обычно при развертывании веб-приложения в хостинге (например, DigitalOcean или Linode) вы настраиваете виртуальную машину или виртуальный компьютер, куда будет перенесен весь код с помощью git, FTP или другими средствами. Это называется виртуализацией.

Со временем разработчики начали видеть недостатки такого процесса — как минимум затраты на приспосабливание к изменениям в операционной системе. Им хотелось объединить среды разработки и производственную, вследствие чего и появилась идея контейнеризации.

Что такое контейнеры, и что в них такого особенного?

Контейнер, если говорить простыми словами, — это место для среды разработки, то есть, вашего приложения и тех зависимостей, которые требуются для его работы.

Контейнеры позволяют разработчику упаковывать приложение со всеми зависимостями и передавать его между разными средами без каких-либо изменений.

Поскольку контейнеризация — куда более портативное, масштабируемое и эффективное решение, такие платформы, как Docker, становятся популярным выбором разработчиков.

Введение в Docker

Docker — это набор инструментов, с помощью которого можно создавать, управлять и запускать приложения в контейнерах. Он позволяет запросто упаковывать и запускать приложения в виде портативных, независимых и легких контейнеров, которые способны работать где угодно.

Установка Docker

Для установки Docker на компьютере, воспользуйтесь инструкцией с официального сайта. У каждой операционной системы есть своя версия приложения.

Настройка приложения

Для этого руководства используем репозиторий приложения для опросов, написанного на Django. По мере продвижения в этом руководстве настроим Dockerfile, в котором будут обозначены инструкции для контейнера, внутри которого приложение и будет работать. После этого же настроим и файл docker-compose.yml для упрощения всего процесса.

На ПК с установленным git перейдите в выбранную папку и клонируйте следующий репозиторий из GitLab:

git clone https://gitlab.com/PythonRu/django-docker.git

После этого перейдите в корень этой папки и откройте ее в редакторе с помощью такой команды:

cd django-docker && code .

В этой папке создайте файл Dockerfile (регистр играет роль) без формата. Внутри него будут находиться настройки контейнера. Инструкции из него компьютер будет выполнять каждый раз при запуске команды docker build.

Следующий этап — создание файла requirements.txt, в котором перечислены все зависимости. Позже он будет использован для Dockerfile, в котором также требуется указывать все требуемые зависимости.

В файле requirements.txt добавьте Django версии 3.1.2 в таком формате:

Django==3.1.2

Что такое Dockerfile

Идея написания Dockerfile может показаться сложной, но не забывайте, что это всего лишь инструкция (набор шагов) для создания собственных образов (images). Dockerfile будет содержать следующее:

Базовый образ, на основе которого требуется построить свой. Он выступает своего рода фундаментом для вашего приложения. Это может быть операционная система, язык программирования (Python в нашем случае) или фреймворк.
Пакеты и дополнительные инструменты для образа.
Скрипты и файлы, которые требуется скопировать в образ. Обычно это и есть исходный код приложения.

При чтении или написании такого файла удобно держать в голове следующее:

Строки с инструкциями обычно начинаются с ключевого слова, например: RUN, FROM, COPY, WORKDIR и так далее.
Комментарии начинаются с символа #. При выполнении инструкций из файла такие комментарии обычно игнорируются.

Создание Dockerfile

Приложение будет работать на основе официального образа Python. Напишем следующие инструкции:

# Указывает Docker использовать официальный образ python 3 с dockerhub в качестве базового образа
FROM python:3
# Устанавливает переменную окружения, которая гарантирует, что вывод из python будет отправлен прямо в терминал без предварительной буферизации
ENV PYTHONUNBUFFERED 1
# Устанавливает рабочий каталог контейнера — "app"
WORKDIR /app
# Копирует все файлы из нашего локального проекта в контейнер
ADD ./app
# Запускает команду pip install для всех библиотек, перечисленных в requirements.txt
RUN pip install -r requirements.txt

Файл Docker Compose

Docker Compose — это отличный инструмент, помогающий определять и запускать приложения, для которых требуются несколько сервисов.

Обычно Docker Compose использует файл docker-compose.yml для настройки сервисов, которые приложение будет использовать. Запускаются эти сервисы с помощью команды docker-compose up. Это создает и запускает все сервисы из файла. В большинстве веб-приложений нужны, веб-сервер (такой как nginx) и база данных (например, PostgreSQL). В этом приложении будем использовать SQLite, поэтому внешняя база данных не потребуется.

Для использования особенностей Docker Compose нужно создать файл docker-compose.yml в той же папке, где находится Dockerfile и добавить туда следующий код:

version: '3.8'
services:
   web:
       build: .
       command: python manage.py runserver localhost:8000
       ports:
           - 8000:8000

Дальше разберем содержимое файла построчно:

version: '3.8'

Эта строка сообщает Docker, какая версия docker-compose должна быть использована для запуска файла. На момент написания руководства последняя версия — 3.8, но обычно синтаксис не сильно меняется по мере выхода последующих.

После настройки docker-compose откройте терминал и запустите команду docker-compose up -d для запуска приложения. Дальше открывайте ссылку localhost:8000 в браузере, чтобы увидеть приложение в действии:

Для закрытия контейнера используется команда docker-compose down.

Выводы

Репозиторий проекта: https://gitlab.com/PythonRu/django-docker.

В этом руководстве вы познакомились с виртуализацией, контейнеризацией и другими терминами из мира Docker. Также вы теперь знаете, что такое Dockerfile, как его создавать для запуска контейнеризированного Django-приложения. Наконец, разобрались с настройкой docker-compose с помощью файла docker-compose.yml для сервисов, от которых зависит самое приложения.

Не существует единого правильного способа использовать Docker в Django-приложении, но считается хорошей практикой следовать официальным инструкциями, чтобы максимально обезопасить свое приложение.

Алгоритм классификации Random Forest на Python

Максим — Mon, 07 Jun 2021 07:54:00 +0000

Случайный лес (Random forest, RF) — это алгоритм обучения с учителем. Его можно применять как для классификации, так и для регрессии. Также это наиболее гибкий и простой в использовании алгоритм. Лес состоит из деревьев. Говорят, что чем больше деревьев в лесу, тем он крепче. RF создает деревья решений для случайно выбранных семплов данных, получает прогноз от каждого дерева и выбирает наилучшее решение посредством голосования. Он также предоставляет довольно эффективный критерий важности показателей (признаков).

Случайный лес имеет множество применений, таких как механизмы рекомендаций, классификация изображений и отбор признаков. Его можно использовать для классификации добросовестных соискателей кредита, выявления мошенничества и прогнозирования заболеваний. Он лежит в основе алгоритма Борута, который определяет наиболее значимые показатели датасета.

Алгоритм Random Forest

Давайте разберемся в алгоритме случайного леса, используя нетехническую аналогию. Предположим, вы решили отправиться в путешествие и хотите попасть в туда, где вам точно понравится.

Итак, что вы делаете, чтобы выбрать подходящее место? Ищите информацию в Интернете: вы можете прочитать множество различных отзывов и мнений в блогах о путешествиях, на сайтах, подобных Кью, туристических порталах, — или же просто спросить своих друзей.

Предположим, вы решили узнать у своих знакомых об их опыте путешествий. Вы, вероятно, получите рекомендации от каждого друга и составите из них список возможных локаций. Затем вы попросите своих знакомых проголосовать, то есть выбрать лучший вариант для поездки из составленного вами перечня. Место, набравшее наибольшее количество голосов, станет вашим окончательным выбором для путешествия.

Вышеупомянутый процесс принятия решения состоит из двух частей.

Первая заключается в опросе друзей об их индивидуальном опыте и получении рекомендации на основе тех мест, которые посетил конкретный друг. В этой части используется алгоритм дерева решений. Каждый участник выбирает только один вариант среди знакомых ему локаций.
Второй частью является процедура голосования для определения лучшего места, проведенная после сбора всех рекомендаций. Голосование означает выбор наиболее оптимального места из предоставленных на основе опыта ваших друзей. Весь этот процесс (первая и вторая части) от сбора рекомендаций до голосования за наиболее подходящий вариант представляет собой алгоритм случайного леса.

Технически Random forest — это метод (основанный на подходе «разделяй и властвуй»), использующий ансамбль деревьев решений, созданных на случайно разделенном датасете. Набор таких деревьев-классификаторов образует лес. Каждое отдельное дерево решений генерируется с использованием метрик отбора показателей, таких как критерий прироста информации, отношение прироста и индекс Джини для каждого признака.

Любое такое дерево создается на основе независимой случайной выборки. В задаче классификации каждое дерево голосует, и в качестве окончательного результата выбирается самый популярный класс. В случае регрессии конечным результатом считается среднее значение всех выходных данных ансамбля. Метод случайного леса является более простым и эффективным по сравнению с другими алгоритмами нелинейной классификации.

Как работает случайный лес?

Алгоритм состоит из четырех этапов:

Создайте случайные выборки из заданного набора данных.
Для каждой выборки постройте дерево решений и получите результат предсказания, используя данное дерево.
Проведите голосование за каждый полученный прогноз.
Выберите предсказание с наибольшим количеством голосов в качестве окончательного результата.

Поиск важных признаков

Random forest также предлагает хороший критерий отбора признаков. Scikit-learn предоставляет дополнительную переменную при использовании модели случайного леса, которая показывает относительную важность, то есть вклад каждого показателя в прогноз. Библиотека автоматически вычисляет оценку релевантности каждого признака на этапе обучения. Затем полученное значение нормализируется так, чтобы сумма всех оценок равнялась 1.

Такая оценка поможет выбрать наиболее значимые показатели и отбросить наименее важные для построения модели.

Случайный лес использует критерий Джини, также известный как среднее уменьшение неопределенности (MDI), для расчета важности каждого признака. Кроме того, критерий Джини иногда называют общим уменьшением неопределенности в узлах. Он показывает, насколько снижается точность модели, когда вы отбрасываете переменную. Чем больше уменьшение, тем значительнее отброшенный признак. Таким образом, среднее уменьшение является необходимым параметром для выбора переменной. Также с помощью данного критерия можете быть отображена общая описательная способность признаков.

Сравнение случайных лесов и деревьев решений

Случайный лес — это набор из множества деревьев решений.
Глубокие деревья решений могут страдать от переобучения, но случайный лес предотвращает переобучение, создавая деревья на случайных выборках.
Деревья решений вычислительно быстрее, чем случайные леса.
Случайный лес сложно интерпретировать, а дерево решений легко интерпретировать и преобразовать в правила.

Создание классификатора с использованием Scikit-learn

Вы будете строить модель на основе набора данных о цветках ириса, который является очень известным классификационным датасетом. Он включает длину и ширину чашелистика, длину и ширину лепестка, и тип цветка. Существуют три вида (класса) ирисов: Setosa, Versicolor и Virginica. Вы построите модель, определяющую тип цветка из вышеперечисленных. Этот датасет доступен в библиотеке scikit-learn или вы можете загрузить его из репозитория машинного обучения UCI.

Начнем с импорта datasets из scikit-learn и загрузим набор данных iris с помощью load_iris().

Метод	Действие
.append()	метод для добавления элементов в список
.insert()	для добавления элементов в конкретное место в списке
.index()	для получения индекса элемента
.clear()	для очистки списка
.remove()	для удаления элемента списка
.reverse()	чтобы развернуть список в обратном порядке
.count()	для подсчета количества элементов в списке
sum()	для сложения элементов списка
min()	показывает элемент с самым низким значением в списке
max()	элемент с самым высоким значением в списке

	Name	Age	Overall	Potential	Positions	Club
0	L. Messi	33	93	93	RW,ST,CF	FC Barcelona
1	Cristiano Ronaldo	35	92	92	ST,LW	Juventus
2	J. Oblak	27	91	93	GK	Atlético Madrid
3	K. De Bruyne	29	91	91	CAM,CM	Manchester City
4	Neymar Jr	28	91	91	LW,CAM	Paris Saint-Germain

Метод	Проверка на	Работает с
assertEqual(x, y)	x == y
assertNotEqual(x, y)	x != y
assertTrue(x)	bool(x) равно True
assertFalse(x)	bool(x) равно False
assertIs(x, y)	x это y	3.1
assertIsNot(x, y)	x это не y	3.1
assertIsNone(x)	x это None	3.1
assertIsNotNone(x)	x это не None	3.1
assertIn(x, y)	x в y	3.1
assertNotIn(x, y)	x не в y	3.1
assertIsInstance(x, y)	isinstance(x, y)	3.2
assertNotIsInstance(x,y)	не isinstance(x, y)	3.2

Файл	Описание
spiders	Эта папка содержит всех Spider в формате класса Python. Если запустить Scrapy, то он выполнит поиск именно в этой папке
items.py	Содержит контейнер, который будет загружаться вместе с извлеченными данными
middleware.py	Содержит механизм обработки для работы с запросами и ответами
pipeline.py	Набор классов Python для последующей обработки классов
settings.py	Здесь находятся все настройки

Операторы	Применение
{ }	Скобки (объединение)
f(args…)	Вызов функции
x[index:index]	Срез
x[index]	Получение по индексу
x.attribute	Ссылка на атрибут
**	Возведение в степень
~x	Побитовое нет
+x, -x	Положительное, отрицательное число
*, /, %	Умножение, деление, остаток
+, —	Сложение, вычитание
<<, >>	Сдвиг влево/вправо
&	Побитовое И
^	Побитовое ИЛИ НЕ
\|	Побитовое ИЛИ
in, not in, is, is not, <, <=, >, >=, <>, !=, ==	Сравнение, принадлежность, тождественность
not x	Булево НЕ
and	Булево И
or	Булево ИЛИ
lambda	Лямбда-выражение

Файл	Описание
`app_dir`	Корневая папка проекта
`app`	Пакет Python с файлами представления, шаблонами и статическими файлами
`__init__.py`	Этот файл сообщает Python, что папка `app` — пакет Python
`static`	Папка со статичными файлами проекта
`templates`	Папка с шаблонами
`views.py`	Маршруты и функции представления
`config.py`	Настройки приложения
`runner.py`	Точка входа приложения

Метод	Описание
`generate_password_hash(password)`	Принимает пароль и возвращает хэш. По умолчанию использует одностороннюю функцию pbkdf2 для создания хэша.
`check_password_hash(password_hash, password)`	Принимает хэш и пароль в чистом виде, затем сравнивает `password` и `password_hash`. Если они одинаковые, возвращает `True`.

Метод	Описание
`is_authenticated()`	Возвращает `True`, если пользователь проверен (то есть, зашел с корректным паролем). В противном случае — `False`.
`is_active()`	Возвращает `True`, если действие аккаунта не приостановлено.
`is_anonymous()`	Возвращает `True` для неавторизованных пользователей.
`get_id()`	Возвращает уникальный идентификатор объекта `User`.

Метод	Описание
all()	Возвращает результат запроса (представленный `flask_sqlalchemy.BaseQuery`) в виде списка.
count()	Возвращает количество записей в запросе.
first()	Возвращает первый результат запроса или `None`, если в нем нет строк.
first_or_404()	Возвращает первый результат запроса или ошибку 404, если в нем нет строк.
get(pk)	Возвращает объект, который соответствует данному первичному ключу или `None`, если объект не найден.
get_or_404(pk)	Возвращает объект, который соответствует данному первичному ключу или ошибку 404, если объект не найден.
filter(*criterion)	Возвращает новый экземпляр `flask_sqlalchemy.BaseQuery` с оператором `WHERE`.
limit(limit)	Возвращает новый экземпляр `flask_sqlalchemy.BaseQuery` с оператором `LIMIT`.
offset(offset)	Возвращает новый экземпляр `flask_sqlalchemy.BaseQuery` с оператором `OFFSET`.
order_by(*criterion)	Возвращает новый экземпляр `flask_sqlalchemy.BaseQuery` с оператором `OFFSET`.
join()	Возвращает новый экземпляр `flask_sqlalchemy.BaseQuery` после создания SQL JOIN.

animal	water_need
zebra	100
lion	350
elephant	670
kangaroo	200

Уроки — PythonRu

Запуск Django-приложения в Docker контейнере

Условия

Что такое виртуализация

Что такое контейнеры, и что в них такого особенного?

Введение в Docker

Установка Docker

Настройка приложения

Что такое Dockerfile

Создание Dockerfile

Файл Docker Compose

Выводы

Алгоритм классификации Random Forest на Python

Алгоритм Random Forest

Как работает случайный лес?

Поиск важных признаков

Сравнение случайных лесов и деревьев решений

Создание классификатора с использованием Scikit-learn

Поиск важных признаков с помощью scikit-learn

Повторная генерация модели с отобранными признаками

Преимущества Random Forest:

Недостатки Random Forest:

Заключение

Алгоритмы K-ближайших соседей и K-средних на Python

Модели K-ближайших соседей

Используемый датасет

Необходимые библиотеки

Импорт датасета

Стандартизация датасета

Разделение датасета на обучающие и тестовые данные

Обучение модели K-ближайших соседей

Делаем предсказания с помощью алгоритма K-ближайших соседей

Оценка точности нашей модели

Выбор оптимального значения для K с помощью метода «Локтя»

Модели кластеризации методом K-средних

Используемый датасет

Импортируемые библиотеки

Визуализация датасета

Создание и обучение модели кластеризации K-средних

Применяем нашу модель кластеризации K-средних для получения предсказаний

Визуализация точности предсказаний модели

Заключительные мысли

Полное руководство по линейной регрессии в Scikit-Learn

Линейная регрессия

Функция оценки/стоимости

Наша модель

Градиентный спуск

Градиенты

Скорость обучения

Когда прекратить итерацию?

Нормализация данных

Другие виды градиентного спуска

Допущения нашей модели

Реализация линейной регрессии в Scikit-Learn

Полиномиальные переменные

Категориальные переменные

Интерпретация вашей модели

Доверительные интервалы

Разделение на обучающий/тестовый датасеты и кросс-валидация

Устранение проблем высоких bias/variance

Кросс-валидация и настройка гиперпараметров

Регуляризация

Итог

Создаем API блога на Django REST Framefork

Требования

Настройка проекта

Создание API для пользователей

Сериализатор для User

Представления для User

URL-паттерны

Создание API для Post

Модель Post

Сериализатор Post

Представления Post

URL-паттерны Post

Настройка разрешений

Создание API для Comments

Модель Comment

Сериализатор Comment

Представления комментариев