Перейти к содержанию

Формат отчета#

Формат отчета#

Warning

Вся исчерпывающая информация для работы есть в рамках данного сайта, в том числе ссылки на те фрагменты документации, которые вам нужны.
  • Титульный лист
  • Дневник практики
  • Оглавление
  • Введение - опишите ваше представление о машинном обучении и его роли в современном мире. Также постарайтесь отметить, как ваше маленькое исследование в рамках летней практики может быть ползено для будущих проектов. В случае затруднения посоветуйтесь с преподавателем.
  • Глава 1. Выбор и оценка источников данных -
  • Раздел 1.1 Парсинг данных - Описываете что такое парсинг данных и как он реализован. Опишите, какие пакеты нужны для работы. Приведите пример структуры html страницы. Затем Вставьте таблицу 1. Список кодов состояния HTTP. Кратко прокомментаируйте таблицу. Уделите внимание механизмам использоования прокси у передачи хедера (user-agents). Вставьте откомментированный Листинг 1. Код для парсинга набора данных {название вашего набора}
  • Раздел 1.2 Разведочный анализ данных - Описываете, какой набор данных вам достался (приводите, сколько в нем строчек, сколько в нем признаков, какие признаки есть, какого они типа, приводите диаграммы, отражающие соотношения количества пропущенных значений и заполенных. Полный Отчет, составленный с помощью sweetviz прикладываете в Прилоежние 1). Формулируете свои представления, насколько этот набор дданных соотвествует процессам в реальной жизни, для чего находите 2-3 статьи из киберленики, elibrary, researchgate, google scholar. Статьи должны быть научными и оформлены в соответсвии с ГОСТ Р 7.0.5-2008 «Система стандартов по информации, библиотечному и издательскому делу. Библиографическая ссылка. Общие требования и правила составления»..
  • Раздел 1.3 Работа с признаками - Описываете, как нормализуете/стандартизируете признаки. Описываете, как заполняете пустые значения, какие признаки добавляете, оформляете формулы, если таковые используются. Приводите не менее 4 графиков с анализом взаимосвязи между переменными. Анализируете графики. Придумать не мнее 3 признаков, которые имеют корряляцию с целевой переменной не ниже 0.4. (**Все листинги приводите в Приложение 2.1, 2.2, 2.3 и так далее, в тексте работы указываете, где предсталвен код для генерации графиков, где для выборки и проч)
  • Глава 2. Алгоритм {Название алгоритма} -
  • Раздел 2.1 Описание алгоритма {decisiontree/CatBoost/XGBoost/} - Алгоритм выбирается в зависимости от вашшего номера в списке
    Если номер делится нацело на 3, то алгоритм Decisiontree
    Если при делении нацело на 3, остаток 1, то алгоритм CatBoost
    Если при делении нацело на 3, остаток 2, то алгоритм XGBoost
    В главе описываются что это за модель, как обучается, какие преимущества и недостатки, что необходимо настраивать во время обучения(какие гиперпараметры). Алгоритм обучения представить в виде блок-схемы.
  • Раздел 2.2 Обучениее модели {название вашей модели}
    Описывается как производилось разделение на тестовые и обучающие выборки, какие признаки вошли в итоговый набор, процент соотношений меж тестовой и обучающей выборкой
    Приводится соответствующий листинг кода. Затем приводится описание процесса обучения модели и ее итоговые гиперпараметры(кол-во листьев и прочее)
    Приводится оценка точности модели для регрессионных моделей MAPE, mse,mae
    Для модели классификации общее accuracy, recall, confusion matrix(матрица ошибок). Приводится листинг кода обучения и расчета точности/
  • Раздел 2.3 Интерпретация модели. При помощи библиотеки shap визуализируется значимость признаков. Приводится не менее 2 визуальных представлений значимости см. конспект на сайте(2 разных графика).Затем приводится анализ каждого графика по отдельности с предположением почему модели показался признак более важным/ Проверяем полученный результат с нашими предположениями из 1 главы 1.3
  • Глава 3. Оценка результатов и их публикация -
    Требования к заданию:
    При помощи Streamlit (см. следующий ресурс) формируется интерактивный!!! Дашборд он выкладывается на сайт Streamlit в нем должно быть не менее 3 графиков, причем один из графиков интерпретирует результаты обучения модели, два других посвящены признакам. Также обязательно должна быть описана точность модели при помощи текста или визуального представления.
    Заголовок страницы должен иметь стандартное название фио_ группа_номерварианта_название_набора_ данных.
    Перед графиками должно присутствовать краткое описание самого набора данных. Желательно чтобы дашборд умещался в 1 экран и не требовал прокрути вниз.
  • Раздел 3.1 Теория построения дашбор. Подобрать 2-3 источника из научной литературы или официальных книг. Добавить их в список литературы, описать процесс создания дашбордов и правила их построения
  • Раздел 3.2 Реализация дашборда средствами streamlit. Описание функциональных возможностей стримлит. Приведение рисунка конечного дашбордаю Основные элементы страницы подписать. Листинг добавить в приложение в конце отчета
  • Выводы - описываете результаты проекта
  • Список использованных источников - помимо научных источников добавить документации всех используемых библиотек в рамках проекта и ГОСТ. Итого должно получиться около 12 источников. Если получилось меньше то вы процитировали не все документации

Пример оформления ссылки на документацию:

  1. Официальная документация Streamlit [Электронный ресурс] URL: https://docs.streamlit.io/ (дата обращения 19.07.2025)

Дневник производственной практики#

Пример дневника производственной практки. Вы делаете свою версию!

Дата Выполняемая работа Отметка о выполнении Примечание
07.07.2025 – 08.07.2025 Ознакомление с заданием на практику. Установка рабочего окружения (Python, Jupyter Notebook, библиотеки). Поиск и выбор подходящего набора данных. Выполнено
09.07.2025 – 10.07.2025 Реализация парсинга: анализ структуры HTML-страниц, написание кода с использованием requests, BeautifulSoup, настройка заголовков и прокси. Выполнено
11.07.2025 – 12.07.2025 Первичный анализ данных: изучение признаков, типов данных, пропусков. Генерация отчета с помощью sweetviz. Поиск научных публикаций по теме данных. Выполнено
14.07.2025 – 15.07.2025 Обработка признаков: нормализация, заполнение пропусков, создание новых признаков. Построение графиков взаимосвязей. Выполнено
16.07.2025 – 17.07.2025 Теоретическое изучение алгоритма (DecisionTree / CatBoost / XGBoost). Построение блок-схемы. Подготовка обучающей и тестовой выборки. Выполнено
18.07.2025 – 19.07.2025 Обучение модели. Подбор гиперпараметров. Расчёт метрик качества (MAPE, MAE, accuracy и др.), сохранение и описание модели. Выполнено
21.07.2025 – 22.07.2025 Интерпретация модели: использование библиотеки shap, построение графиков важности признаков, их анализ. Выполнено
23.07.2025 – 24.07.2025 Теоретическое изучение принципов построения дашбордов. Разработка и реализация интерактивного дашборда в Streamlit. Публикация проекта онлайн. Выполнено
25.07.2025 Итоговое оформление отчета: написание выводов, формирование списка литературы, добавление всех приложений и финальных листингов. Выполнено

Пример титульного Листа#

Не перепутайте титульные листы! Скачать пример титульного листа можно по ссылке

Warning

Преподаватель не опечатался. Буква ф в слове "федеральное" должно быть с маленькой буквы!

Интерфейс программв

Варианты данных#

Вариант Описание характеристик датасета Ссылка
1 ph: pH воды (от 0 до 14). Hardness: Способность воды образовывать осадок с мылом, измеряется в мг/л. Solids: Общее содержание растворённых веществ (TDS), в ppm (мг/л). Chloramines: Количество хлораминов в ppm (мг/л). Sulfate: Количество растворённых сульфатов в мг/л. Conductivity: Электропроводность воды в мкСм/см (μS/cm). Organic_carbon: Содержание органического углерода в ppm (мг/л). Trihalomethanes: Содержание тригалометанов в мкг/л (μg/L). Turbidity: Показатель светопропускной способности воды, измеряется в NTU. Potability: Указывает, пригодна ли вода для питья: 1 — пригодна, 0 — не пригодна. Ссылка
2 URL: анонимный идентификатор URL, проанализированного в исследовании. URL_LENGTH: количество символов в URL. NUMBER_SPECIAL_CHARACTERS: количество специальных символов, найденных в URL, таких как “/”, “%”, “#”, “&”, “.”, “=”. CHARSET: категориальная переменная, обозначающая стандарт кодировки символов (набор символов). SERVER: категориальная переменная, обозначающая операционную систему сервера, полученную из ответа на запрос. CONTENT_LENGTH: размер содержимого заголовка HTTP. WHOIS_COUNTRY: категориальная переменная; страны, полученные с помощью API Whois из ответа сервера. WHOIS_STATEPRO: категориальная переменная; штаты/регионы, полученные с помощью API Whois из ответа сервера. WHOIS_REGDATE: дата регистрации сервера, полученная через Whois (формат DD/MM/YYYY HH:MM). WHOIS_UPDATED_DATE: дата последнего обновления информации о сервере, полученная через Whois. TCP_CONVERSATION_EXCHANGE: количество TCP-пакетов, обменянных между сервером и клиентом-ловушкой (honeypot). DIST_REMOTE_TCP_PORT: количество различных удалённых портов, отличных от TCP. REMOTE_IPS: общее количество IP-адресов, подключившихся к honeypot. APP_BYTES: количество переданных байтов. SOURCE_APP_PACKETS: количество пакетов, отправленных от honeypot на сервер. REMOTE_APP_PACKETS: количество пакетов, полученных от сервера. APP_PACKETS: общее количество IP-пакетов, сгенерированных в ходе взаимодействия между honeypot и сервером. DNS_QUERY_TIMES: количество DNS-запросов, сгенерированных в ходе взаимодействия между honeypot и сервером. TYPE: категориальная переменная; тип анализируемого веб-сайта: 1 — вредоносный, 0 — безопасный. Ссылка
3 obj_ID — Object Identifier, уникальный идентификатор объекта в каталоге изображений, используемом системой CAS. alpha — Прямое восхождение (в угловых градусах) на эпоху J2000. delta — Склонение (в угловых градусах) на эпоху J2000. u — Значение фотометрии в ультрафиолетовом фильтре. g — Значение фотометрии в зелёном фильтре. r — Значение фотометрии в красном фильтре. i — Значение фотометрии в ближнем инфракрасном фильтре. z — Значение фотометрии в инфракрасном фильтре. run_ID — Номер прохода (Run Number), используемый для идентификации конкретного сканирования. rereun_ID — Номер переобработки, указывающий, как было обработано изображение. cam_col — Номер колонки камеры, идентифицирующий строку сканирования в рамках прохода. field_ID — Номер поля, используемый для идентификации каждого участка (поля) наблюдения. spec_obj_ID — Уникальный идентификатор спектроскопического объекта. Если два наблюдения имеют одинаковый spec_obj_ID, они относятся к одному и тому же классу объекта. class — Класс объекта: галактика, звезда или квазар. redshift — Значение красного смещения, определяемое по увеличению длины волны. plate — Идентификатор пластины (plate ID), на которой проводилось наблюдение в SDSS. MJD — Modified Julian Date, модифицированная юлианская дата, указывающая дату наблюдения. fiber_ID — Идентификатор волокна (fiber), которое направляло свет на фокальную плоскость в момент наблюдения. Ссылка
4 winery — название винодельни. wine — наименование вина. year — год сбора винограда. rating — средняя оценка вина, выставленная пользователями (по шкале от 1 до 5). num_reviews — количество пользователей, оставивших отзыв о вине. country — страна происхождения (в данном наборе данных — Испания). region — регион производства вина. price — цена в евро (€). type — сорт (разновидность) вина. body — оценка насыщенности (body), отражающая плотность и вес вина во рту (по шкале от 1 до 5). acidity — оценка кислотности, отражающая степень свежести, терпкости и “слюнкообразующий” эффект вина (по шкале от 1 до 5). Ссылка
5 Информация об атрибутах: (классы: съедобный = e, ядовитый = p) cap-shape — форма шляпки: bell = колокольчатая, conical = коническая, convex = выпуклая, flat = плоская, knobbed = с бугорком, sunken = вдавленная. cap-surface — поверхность шляпки: fibrous = волокнистая, grooves = бороздчатая, scaly = чешуйчатая, smooth = гладкая. cap-color — цвет шляпки: brown = коричневый, buff = охристый, cinnamon = коричный, gray = серый, green = зелёный, pink = розовый, purple = фиолетовый, red = красный, white = белый, yellow = жёлтый. bruises — наличие потемнений при повреждении: bruises = t — есть потемнения, no = f — нет потемнений. odor — запах: almond = миндальный, anise = анисовый, creosote = креозотовый, fishy = рыбный, foul = гнилостный, musty = затхлый, none = отсутствует, pungent = резкий, spicy = пряный. gill-attachment — прикрепление пластинок (поров): attached = прикреплённые, descending = нисходящие, free = свободные, notched = с выемкой. gill-spacing — расстояние между пластинками: close = близкое, crowded = скученное, distant = редкое. Ссылка
6 Temperature (numeric) — температура в градусах Цельсия: от экстремально низких до экстремально высоких значений. Humidity (numeric) — влажность воздуха в процентах; возможны значения выше 100% (в качестве выбросов). Wind Speed (numeric) — скорость ветра в км/ч; включает нереалистично высокие значения. Precipitation (%) (numeric) — уровень осадков в процентах; содержит выбросы. Cloud Cover (categorical) — описание облачности (категориальный признак). Atmospheric Pressure (numeric) — атмосферное давление в гектопаскалях (hPa); широкий диапазон значений. UV Index (numeric) — индекс ультрафиолетового излучения, отражающий его интенсивность. Season (categorical) — сезон, в течение которого были собраны данные (категориальный признак). Visibility (km) (numeric) — видимость в километрах; возможны как очень низкие, так и очень высокие значения. Location (categorical) — тип местности, в которой производилась запись (категориальный признак). Weather Type (categorical) — тип погоды; целевая переменная классификации (категориальный признак). Ссылка
7 Все атрибуты являются числовыми переменными: id — идентификатор записи. Area — площадь зерна. MajorAxisLength — длина главной оси эллипса, описывающего зерно. MinorAxisLength — длина малой оси. Eccentricity — эксцентриситет эллипса (показывает вытянутость). ConvexArea — площадь выпуклой оболочки зерна. EquivDiameter — эквивалентный диаметр (диаметр круга той же площади, что и объект). Extent — отношение площади зерна к площади ограничивающего прямоугольника. Perimeter — периметр зерна. Roundness — округлость (чем ближе к 1, тем круглее). AspectRation — соотношение сторон (отношение длины к ширине). Class — класс риса (Jasmine = 1, Gonen = 0). Ссылка
8 Name: Имя пациента, связанное с медицинской записью. Age: Возраст пациента на момент поступления, в годах. Gender: Пол пациента — «Male» (мужской) или «Female» (женский). Blood Type: Группа крови пациента (например, «A+», «O-» и др.). Medical Condition: Основное медицинское состояние или диагноз пациента, например, «Diabetes» (диабет), «Hypertension» (гипертония), «Asthma» (астма) и др. Date of Admission: Дата поступления пациента в медицинское учреждение. Doctor: Имя врача, ответственного за лечение пациента во время госпитализации. Hospital: Название медицинского учреждения или больницы, где пациент был госпитализирован. Insurance Provider: Страховая компания пациента, например, «Aetna», «Blue Cross», «Cigna», «UnitedHealthcare», «Medicare» и др. Billing Amount: Сумма счета за медицинские услуги, оказанные пациенту, выраженная числом с плавающей точкой. Room Number: Номер палаты, в которой размещался пациент во время госпитализации. Admission Type: Тип госпитализации — «Emergency» (экстренный), «Elective» (плановый), «Urgent» (срочный), отражающий характер поступления. Discharge Date: Дата выписки пациента из медицинского учреждения, основанная на дате поступления и случайном количестве дней в реалистичных пределах. Medication: Название лекарства, назначенного или примененного пациенту во время госпитализации, например, «Aspirin», «Ibuprofen», «Penicillin», «Paracetamol», «Lipitor». Test Results: Результаты медицинского анализа, выполненного во время госпитализации; возможные значения: «Normal» (норма), «Abnormal» (отклонение), «Inconclusive» (неоднозначно). Ссылка
9 1 - fixed acidity — фиксированная кислотность. 2 - volatile acidity — летучая кислотность. 3 - citric acid — лимонная кислота. 4 - residual sugar — остаточный сахар. 5 - chlorides — хлориды. 6 - free sulfur dioxide — свободный диоксид серы. 7 - total sulfur dioxide — общий диоксид серы. 8 - density — плотность. 9 - pH — уровень pH. 10 - sulphates — сульфаты. 11 - alcohol — содержание алкоголя. 12 - quality (score between 0 and 10) — качество (оценка от 0 до 10). Ссылка
10 Это данные, подтверждающие уровень физической подготовки с учетом возраста и некоторых показателей физической активности. age: возраст, от 20 до 64 лет. gender: пол, F (женский) или M (мужской). height_cm: рост в сантиметрах (для перевода в футы разделите на 30.48). weight_kg: вес в килограммах. body fat_%: процент жира в организме. diastolic: диастолическое давление (минимальное). systolic: систолическое давление (максимальное). gripForce: сила сжатия (например, рук). sit and bend forward_cm: расстояние наклона вперед в сидячем положении, см. sit-ups counts: количество подтягиваний корпуса (пресс). broad jump_cm: прыжок в длину с места, см. class: класс физической подготовки — A, B, C, D (A — лучший) / стратифицировано. Ссылка
11 01 date: дата в формате MM-DD-YYYY. 02 day: день недели. 03 quarter: часть месяца (месяц разделён на четыре квартала). 04 department: отдел, связанный с данным случаем. 05 team_no: номер команды, связанный с данным случаем. 06 no_of_workers: количество работников в каждой команде. 07 no_of_style_change: количество изменений стиля конкретного продукта. 08 targeted_productivity: целевая производительность, установленная руководством для каждой команды на каждый день. 09 smv: Standard Minute Value — нормативное время, выделенное на выполнение задачи. 10 wip: незавершённые работы (Work in Progress), количество незавершённых изделий. 11 over_time: количество сверхурочных минут работы каждой команды. 12 incentive: сумма финансового стимула (в BDT), мотивирующего выполнение определённого действия. 13 idle_time: время простоя производства по разным причинам. 14 idle_men: количество работников, простаивавших из-за остановки производства. 15 actual_productivity: фактический процент выполненной производительности (от 0 до 1). Ссылка
12 Все атрибуты числовые, перечислены ниже: aluminium — опасно, если больше 2.8. ammonia — опасно, если больше 32.5. arsenic — опасно, если больше 0.01. barium — опасно, если больше 2. cadmium — опасно, если больше 0.005. chloramine — опасно, если больше 4. chromium — опасно, если больше 0.1. copper — опасно, если больше 1.3. flouride — опасно, если больше 1.5. bacteria — опасно, если больше 0. viruses — опасно, если больше 0. lead — опасно, если больше 0.015. nitrates — опасно, если больше 10. nitrites — опасно, если больше 1. mercury — опасно, если больше 0.002. perchlorate — опасно, если больше 56. radium — опасно, если больше 5. selenium — опасно, если больше 0.5. silver — опасно, если больше 0.1. uranium — опасно, если больше 0.3. is_safe — класс, 0 — небезопасно, 1 — безопасно. Ссылка
13 age — возраст (числовой). job — тип работы (категориальный): "admin.", "unknown", "unemployed", "management", "housemaid", "entrepreneur", "student", "blue-collar", "self-employed", "retired", "technician", "services". marital — семейное положение (категориальный): "married", "divorced" (включает разведен/вдовец), "single". education — образование (категориальный): "unknown", "secondary", "primary", "tertiary". default — есть ли задолженность по кредиту? (бинарный): "yes", "no". balance — средний годовой баланс в евро (числовой). housing — есть ли жилищный кредит? (бинарный): "yes", "no". loan — есть ли персональный кредит? (бинарный): "yes", "no". contact — тип контактной связи (категориальный): "unknown", "telephone", "cellular". day — последний день контакта в месяце (числовой). month — последний месяц контакта в году (категориальный): "jan", "feb", "mar", ..., "nov", "dec". duration — длительность последнего контакта в секундах (числовой). campaign — количество контактов, выполненных в рамках этой кампании с клиентом (числовой, включая последний контакт). pdays — количество дней с момента последнего контакта в предыдущей кампании (-1 означает, что клиент не контактировался ранее) (числовой). previous — количество контактов, выполненных до этой кампании с клиентом (числовой). poutcome — результат предыдущей маркетинговой кампании (категориальный): "unknown", "other", "failure", "success". Ссылка
14 pH: Значение pH молока, варьируется от 3 до 9.5, обычно в пределах от 6.25 до 6.90. Temperature: Температура молока в градусах Цельсия, в диапазоне от 34°C до 90°C, обычно от 34°C до 45.20°C. Taste: Вкус молока — категориальный признак: 0 — плохой, 1 — хороший. Максимальное значение в данных — 1 (хороший). Odor: Запах молока — категориальный признак: 0 — плохой, 1 — хороший. Максимальное значение в данных — 0 (плохой). Fat: Жирность молока — категориальный признак: 0 — низкая, 1 — высокая. Максимальное значение в данных — 1 (высокая). Turbidity: Мутность молока — категориальный признак: 0 — низкая, 1 — высокая. Максимальное значение в данных — 1 (высокая). Colour: Цвет молока, числовой диапазон от 240 до 255, максимум — 255. Grade: Класс (целевая переменная) молока — категориальный признак: Low (Плохой), Medium (Средний), High (Высокий). Ссылка
15 battery_power — емкость аккумулятора в мАч (mAh). blue — наличие Bluetooth (1 = есть, 0 = нет). clock_speed — тактовая частота процессора в ГГц. dual_sim — поддержка двух SIM-карт (1 = да, 0 = нет). fc — разрешение фронтальной камеры (в мегапикселях). four_g — поддержка 4G (1 = да, 0 = нет). int_memory — внутренняя память (в гигабайтах). m_dep — толщина телефона (глубина) в сантиметрах. mobile_wt — вес телефона в граммах. n_cores — количество ядер процессора. pc — разрешение основной (задней) камеры (в мегапикселях). px_height — высота экрана в пикселях. px_width — ширина экрана в пикселях. ram — объем оперативной памяти (в мегабайтах). sc_h — высота экрана в мм. sc_w — ширина экрана в мм. talk_time — максимальное время разговора на одном заряде (в часах). three_g — поддержка 3G (1 = да, 0 = нет). touch_screen — наличие сенсорного экрана (1 = да, 0 = нет). wifi — поддержка Wi-Fi (1 = да, 0 = нет). price_range — целевая переменная, диапазон цены (0 — низкий, 1 — средний, 2 — высокий, 3 — очень высокий). Ссылка
16 Общие данные: gameId — уникальный ID игры (можно использовать с Riot Games API). gameDuration — продолжительность игры в секундах. Целевая переменная: blueWins — 1, если выиграла синяя команда, 0 — иначе. redWins — 1, если выиграла красная команда, 0 — иначе. Особые первые достижения (флаги): blueFirstBlood, redFirstBlood — первая кровь. blueFirstTower, redFirstTower — первая башня. blueFirstBaron, redFirstBaron — первый барон. blueFirstDragon, redFirstDragon — первый дракон. blueFirstInhibitor, redFirstInhibitor — первый ингибитор. Количественные показатели команд (синие и красные соответственно): DragonKills — количество убитых драконов. BaronKills — количество убитых баронов. TowerKills — количество уничтоженных башен. InhibitorKills — количество уничтоженных ингибиторов. WardPlaced — количество поставленных вардингов (тотемов). Wardkills — количество уничтоженных вардингов соперника. Kills — количество убийств вражеских чемпионов. Death — количество смертей. Assist — количество ассистов. ChampionDamageDealt — нанесённый урон чемпионам противника. TotalGold — общее количество заработанного золота. TotalMinionKills — количество убитых миньонов. TotalLevel — суммарный уровень всех чемпионов команды. AvgLevel — средний уровень чемпионов команды. JungleMinionKills — количество убитых миньонов в джунглях. KillingSpree — максимальная серия убийств без смерти. TotalHeal — общее количество исцеления. ObjectDamageDealt — урон, нанесённый объектам (например, башням). Ссылка
17 A_id: Уникальный идентификатор каждого фрукта. Size: Размер фрукта. Weight: Вес фрукта. Sweetness: Степень сладости фрукта. Crunchiness: Текстура, указывающая на хрусткость фрукта. Juiciness: Уровень сочности фрукта. Ripeness: Стадия зрелости фрукта. Acidity: Уровень кислотности фрукта. Quality: Общая оценка качества фрукта. Классификация фруктов: разработка модели классификации для категоризации фруктов на основе их характеристик. Прогноз качества: создание модели для предсказания оценки качества фруктов, используя различные атрибуты. Ссылка
18 Fixed Acidity — Фиксированная кислотность: концентрация устойчивых кислот в вине, влияющих на вкус и баланс. Volatile Acidity — Летучая кислотность: количество уксусной кислоты, влияющей на аромат и качество вина. Citric Acid — Лимонная кислота: натуральная кислота, придающая вину свежесть и яркость вкуса. Residual Sugar — Остаточный сахар: количество сахара, оставшегося после ферментации, влияет на сладость вина. Chlorides — Хлориды: содержание солей хлора, могут влиять на вкус и качество напитка. Free Sulfur Dioxide — Свободный диоксид серы: количество свободного SO2, используемого как консервант. Total Sulfur Dioxide — Общий диоксид серы: сумма свободного и связанного SO2, контролирует окисление и порчу вина. Density — Плотность: масса вина на единицу объёма, связана с содержанием спирта и сахара. pH — Уровень pH: показатель кислотности, влияет на вкус и стабильность вина. Sulphates — Сульфаты: соединения, влияющие на аромат и консервацию вина. Alcohol — Алкоголь: содержание этанола в вине, измеряется в процентах объёма. Quality — Качество: итоговая оценка вина на основе сенсорной оценки (шкала от 0 до 10). Ссылка
19 name — Имя: Английское имя покемона. japanese_name — Японское имя: Оригинальное японское имя покемона. pokedex_number — Номер в Покедексе: Порядковый номер покемона в национальном Покедексе. percentage_male — Процент самцов: Доля особей мужского пола в виде, пусто если покемон не имеет пола. type1 — Основной тип: Первый тип покемона. type2 — Вторичный тип: Второй тип покемона (если есть). classification — Классификация: Описание покемона из Покедекса игр Sun и Moon. height_m — Рост (м): Рост покемона в метрах. weight_kg — Вес (кг): Вес покемона в килограммах. capture_rate — Шанс поимки: Вероятность успешного поимки покемона. base_egg_steps — Шаги для вылупления: Количество шагов для вылупления яйца с данным покемоном. abilities — Способности: Строка с перечислением возможных способностей покемона. experience_growth — Рост опыта: Характеристика роста опыта для развития покемона. base_happiness — Базовое счастье: Начальный уровень счастья покемона. against_? — Защита от типа: 18 признаков, указывающих на количество урона от атак определённого типа. hp — Здоровье (HP): Базовое значение здоровья покемона. attack — Атака: Базовое значение физической атаки. defense — Защита: Базовое значение физической защиты. sp_attack — Спец. атака: Базовое значение специальной атаки. sp_defense — Спец. защита: Базовое значение специальной защиты. speed — Скорость: Базовое значение скорости покемона. generation — Поколение: Поколение, в котором покемон был впервые представлен. is_legendary — Легендарный: Указывает, является ли покемон легендарным (1 — да, 0 — нет). Ссылка
20 id — Уникальный идентификационный номер, присвоенный каждому дому в наборе данных. date — Дата добавления дома в набор данных в формате ГГГГ-ММ-ДД. price — Цена дома в долларах США. bedrooms — Количество спален в доме, в наборе данных встречаются дома с 0 до 33 спален. bathrooms — Количество ванных комнат в доме, варьируется от 0 до 8. sqft_living — Площадь жилой зоны в квадратных футах. sqft_lot — Общая площадь участка в квадратных футах. floors — Количество этажей в доме. waterfront — Индикатор расположения дома у воды (озеро или пляж): 0 — нет, 1 — да. view — Оценка вида на город, озеро или пляж из дома, от 0 до 5. condition — Общая оценка состояния дома, от 1 до 5. grade — Общая оценка качества дома, от 1 до 12. sqft_above — Площадь дома над уровнем земли в квадратных футах. sqft_basement — Площадь подвала дома (ниже уровня земли) в квадратных футах. yr_built — Год постройки дома. yr_renovated — Год проведения ремонта или реконструкции дома. zipcode — Почтовый индекс (5 цифр), в котором расположен дом. lat — Географическая широта расположения дома. long — Географическая долгота расположения дома. sqft_living15 — Средняя площадь жилой зоны 15 ближайших домов в квадратных футах. sqft_lot15 — Средняя площадь участка 15 ближайших домов в квадратных футах. Ссылка
21 checking_status — Статус существующего расчетного счета (текущий счет). duration — Срок кредита в месяцах. credit_history — Кредитная история: кредиты, взятые и своевременно погашенные, задержки, критические случаи. purpose — Цель получения кредита. credit_amount — Сумма кредита. savings_status — Статус сберегательного счета или облигаций. employment — Текущий стаж работы в годах. installment_commitment — Размер ежемесячного платежа в процентах от располагаемого дохода. personal_status — Личные данные: пол и семейное положение. other_parties — Другие заемщики или поручители. residence_since — Срок проживания по текущему адресу в годах. property_magnitude — Величина собственности (например, тип имущества). age — Возраст клиента. other_payment_plans — Другие планы по выплатам (например, по другим кредитам). housing — Жилищные условия (аренда, собственность и т.д.). existing_credits — Количество уже существующих кредитов у клиента. job — Тип работы (профессия). num_dependents — Количество иждивенцев. own_telephone — Наличие собственного телефона (да/нет). foreign_worker — Является ли клиент иностранным работником (да/нет). class — Класс — целевая переменная (например, хороший или плохой заемщик). Ссылка
22 Gender — Пол пассажиров (женский, мужской). Customer Type — Тип клиента (лояльный клиент, нелояльный клиент). Age — Возраст пассажиров. Type of Travel — Цель поездки пассажиров (личная поездка, деловая поездка). Class — Класс обслуживания в самолёте (бизнес, эконом, эконом плюс). Flight distance — Дистанция перелёта. Inflight wifi service — Уровень удовлетворенности сервисом Wi-Fi на борту (0 — не применимо; 1–5 — по шкале удовлетворенности). Departure/Arrival time convenient — Удовлетворенность удобством времени вылета/прилёта. Ease of Online booking — Удобство онлайн-бронирования. Gate location — Удовлетворенность расположением выхода на посадку. Food and drink — Удовлетворенность питанием и напитками. Online boarding — Удовлетворенность онлайн-регистрацией на рейс. Seat comfort — Уровень комфорта сидений. Inflight entertainment — Удовлетворенность развлечениями на борту. On-board service — Удовлетворенность обслуживанием на борту. Leg room service — Удовлетворенность пространством для ног. Baggage handling — Удовлетворенность обращением с багажом. Check-in service — Удовлетворенность регистрацией на рейс. Inflight service — Общая удовлетворенность сервисом на борту. Cleanliness — Удовлетворенность чистотой. Departure Delay in Minutes — Задержка вылета в минутах. Arrival Delay in Minutes — Задержка прибытия в минутах. Satisfaction — Уровень удовлетворенности авиакомпанией (удовлетворён, нейтрален, недоволен). Ссылка
23 Age — Возраст. Occupation — Род занятий. Annual_Income — Годовой доход. Num_Bank_Accounts — Количество банковских счетов. Num_Credit_Card — Количество кредитных карт. Interest_Rate — Процентная ставка. Num_of_Loan — Количество кредитов. Delay_from_due_date — Задержка с оплатой после срока, дней. Num_of_Delayed_Payment — Количество просроченных платежей. Changed_Credit_Limit — Изменение кредитного лимита. Num_Credit_Inquiries — Количество запросов на кредитную историю. Credit_Mix — Состав кредитов (разные типы кредитов). Outstanding_Debt — Невыплаченный долг. Credit_Utilization_Ratio — Коэффициент использования кредита (отношение использованного кредита к лимиту). Payment_of_Min_Amount — Оплата минимального платежа (да/нет). Total_EMI_per_month — Общая сумма ежемесячных платежей по кредитам. Amount_invested_monthly — Сумма ежемесячных инвестиций. Payment_Behaviour — Поведение при оплатах (например, своевременность). Monthly_Balance — Ежемесячный баланс (на счёте). Credit_Score — Кредитный рейтинг. Credit_History_Age_Months — Возраст кредитной истории в месяцах. Ссылка
24 1-214: Функции на основе разрешений. 215-241: Функции на основе API. Ссылка
25 Scientific name — Научное название (род и вид трилобита). Order — Отряд трилобита (числовое обозначение в поле order_num). Family — Семейство трилобита (числовое обозначение в поле family_num). Genus — Род трилобита (числовое обозначение в поле genus_num). Species — Вид трилобита. Early_interval — Начальный временной интервал, когда был найден окаменелый остаток. Late_interval — Конечный временной интервал, когда был найден окаменелый остаток. max_age_mya — Максимальный возраст окаменелости в миллионах лет. min_age_mya — Минимальный возраст окаменелости в миллионах лет. Country — Страна, где найден трилобит. State — Штат или область, если применимо. Longitude — Долгота места находки. Latitude — Широта места находки. Latlng_basis — Метод определения координат (широты и долготы). Latlng_precision — Точность указанных координат. Formation — Геологическая формация, в которой найден трилобит (например, «бургесский сланец»). Stratigraphy_scale — Масштаб или размер формации по стратиграфии. Lithology — Основной тип породы в формации. Environment — Тип окружающей среды, в которой жил трилобит. assembly_composition — Состав находок — какие другие окаменелости были обнаружены вместе. preservation_mode — Способ фоссилизации трилобита. collection_name — Более конкретное описание места находки. collection_type — Тип данных, которые можно получить из данной коллекции. life_habit — Образ жизни трилобита. vision — Зрение трилобита (например, некоторые рода, как Cryptolithus, были слепыми). diet — Рацион питания трилобита. time_period — Крупный геологический период жизни трилобита (кембрий, ордовик, силур, девон, пермь). Ссылка
26 age — Возраст. job — Род занятий. marital — Семейное положение. education — Образование. default — Есть ли дефолт по кредиту (задолженность). housing — Есть ли жилищный кредит. loan — Есть ли личный кредит. contact — Тип контактной связи (например, телефон, мобильный). month — Месяц последнего контакта с клиентом. day_of_week — День недели последнего контакта. duration — Длительность последнего звонка (в секундах). campaign — Количество контактов с клиентом в текущей кампании. pdays — Количество дней с последнего контакта с клиентом в предыдущей кампании (-1 если не было). previous — Количество контактов с клиентом в предыдущих кампаниях. poutcome — Результат предыдущей маркетинговой кампании. emp.var.rate — Изменение уровня безработицы (темп занятости). cons.price.idx — Индекс потребительских цен. cons.conf.idx — Индекс потребительской уверенности. euribor3m — Ставка Euribor за 3 месяца. nr.employed — Количество занятых на рынке труда. y — Целевая переменная: подписался ли клиент (да/нет). Ссылка
27 enrollee_id — Уникальный идентификатор участника. city — Код города. city_development_index — Индекс развития города (масштабированный показатель). gender — Пол (M — мужской, F — женский). relevent_experience — Наличие релевантного опыта работы. enrolled_university — Тип университета, в котором обучается (если есть). education_level — Уровень образования. major_discipline — Основная специализация/дисциплина. experience — Общий опыт работы в годах. company_size — Количество сотрудников в компании текущего работодателя. company_type — Тип текущего работодателя (например, частная, государственная и т.д.). last_new_job — Разница в годах между предыдущей и текущей работой. training_hours — Количество пройденных учебных часов. target — Целевая переменная: 0 – не ищет смену работы, 1 – ищет смену работы. Ссылка
28 asm_commands_add, asm_commands_call, asm_commands_cdq, ... asm_commands_xor — количество или частота использования соответствующих ассемблерных инструкций в образце (например, add — сложение, call — вызов функции, jmp — переход, mov — перемещение данных, xor — логическое исключающее ИЛИ и т.д.). line_count_asm — количество строк кода ассемблера в файле/образце. size_asm — общий размер ассемблерного кода (в байтах или инструкциях). Class — метка класса, к которому принадлежит образец (например, тип малвари или легитимное ПО). Ссылка
29 Marital status — Семейное положение студента (категориальный признак). Application mode — Способ подачи заявки студентом (категориальный признак). Application order — Порядковый номер заявки студента (числовой признак). Course — Учебная программа или курс, который посещает студент (категориальный признак). Daytime/evening attendance — Посещение занятий днем или вечером (категориальный признак). Previous qualification — Квалификация, полученная студентом до поступления в вуз (категориальный признак). Nationality — Национальность студента (категориальный признак). Mother's qualification — Образование матери студента (категориальный признак). Father's qualification — Образование отца студента (категориальный признак). Mother's occupation — Род деятельности матери студента (категориальный признак). Father's occupation — Род деятельности отца студента (категориальный признак). Displaced — Статус переселенца (студент ли является перемещённым лицом) (категориальный признак). Educational special needs — Наличие у студента особых образовательных потребностей (категориальный признак). Debtor — Является ли студент должником (категориальный признак). Tuition fees up to date — Оплачена ли своевременно учебная плата (категориальный признак). Gender — Пол студента (категориальный признак). Scholarship holder — Является ли студент стипендиатом (категориальный признак). Age at enrollment — Возраст студента на момент поступления (числовой признак). International — Является ли студент иностранным (категориальный признак). Curricular units 1st sem (credited) — Количество зачтённых учебных единиц в первом семестре (числовой признак). Curricular units 1st sem (enrolled) — Количество учебных единиц, на которые студент записался в первом семестре (числовой признак). Curricular units 1st sem (evaluations) — Количество учебных единиц, по которым студент проходил оценку в первом семестре (числовой признак). Curricular units 1st sem (approved) — Количество учебных единиц, успешно пройденных студентом в первом семестре (числовой признак). Ссылка
30 age — Возраст клиента (числовой признак). job — Вид профессии клиента (категориальный признак). marital — Семейное положение клиента (категориальный признак). education — Уровень образования клиента (категориальный признак). default — Есть ли у клиента задолженность по кредиту? (бинарный признак: "yes" — есть, "no" — нет). balance — Средний годовой баланс на счёте в евро (числовой признак). housing — Есть ли у клиента ипотечный кредит? (бинарный признак: "yes" — есть, "no" — нет). loan — Есть ли у клиента личный кредит? (бинарный признак: "yes" — есть, "no" — нет). contact — Тип связи с клиентом (категориальный признак: "unknown", "telephone", "cellular"). day — Последний контакт — день месяца (числовой признак). month — Последний контакт — месяц года (категориальный признак: "jan", "feb", "mar", ..., "nov", "dec"). duration — Продолжительность последнего контакта в секундах (числовой признак), важный параметр. campaign — Количество контактов с клиентом в текущей маркетинговой кампании (числовой признак, включает последний контакт). pdays — Количество дней с момента последнего контакта в предыдущей кампании (числовой признак, -1 означает, что клиент не контактировался ранее). previous — Количество контактов с клиентом до текущей кампании (числовой признак). poutcome — Результат предыдущей маркетинговой кампании (категориальный признак: "unknown", "other", "failure", "success"). y — Подписался ли клиент на срочный вклад? (бинарный признак: 0 — нет, 1 — да). Ссылка

Кто придумал разбить csv файл на тысячу кусочков? Конечно, Локи
Интерфейс программв