Управление качеством данных: роли, процессы, инструменты

Что такое нормирование данных в машинном обучении

Практическая ценность стандартизации данных

Замечание 1

Реализация стандартизации данных в производстве заключается в увеличении достоверности анализа фильтрационных и емкостных свойств различных коллекторов и на этой базе в повышении точности подсчета запасов, а также проектировании процесса разработки месторождений полезных ископаемых.

Предлагаемая методика обработки сведений на основе расширенных приемов системы стандартов в значительной мере увеличивает скорость начальной обработки, позволяет более эффективно применять инновационные технологии, положительно влияет на достоверность оценки характеристик, так как минимизирует воздействие субъективного критерия на качество интерпретации данных.

Решение проблемы необъективности результатов при обработке информации требует формирования универсальных средств преобразования исходных диаграмм в стабильный стандартный вид, практичный для новой пакетной обработки. Эти трансформации подразумевают разноплановые процедуры нормировки, стандартизации корректировки, калибровки и сертификации сведений.

Все методики в данном аспекте базируются на одних и тех же принципах, поэтому имеет смысл объединить их в один общий термин – комплексная типизация. Включение в стандартизированные шкалы математических уравнений по унификации сведений с учетом ряда технологических закономерностей, присущих определенному предмету, помогает специалистам получить высокое качество анализа данных при очень интенсивном режиме работы.

Сначала поймите разницу между дисперсией, стандартным отклонением и среднеквадратичной ошибкой.

Дисперсия (дисперсия)

Измерьте степень дисперсии (отклонения) случайной величины или набора данных

Предположим, что используется математическое ожидание (среднее значение) набора случайных величин или статистических данных.

E

(

x

)

E(x)
E(x), Тогда его дисперсия выражается как данные и

E

(

x

)

E(x)
E(x)Сумма квадратов разностей

x

E

(

x

)

2

\sum^2
∑x−E(x)2, А затем найти его ожидание (среднее), чтобы получить

D

(

x

)

=

x

E

(

x

)

2

D(x)=\sum^2
D(x)=∑x−E(x)2

Зачем использовать стандартное отклонение

Согласно вышеизложенному, мы знаем, что дисперсия используется для измерения степени дисперсии (отклонения) случайной величины или набора данных. Формула для стандартного отклонения (также называемая среднеквадратической ошибкой):

σ

=

D

(

x

)

\sigma = \sqrt {D(x)}
σ=D(x)​, Дисперсия и стандартное отклонение имеют общее свойство: чем больше значение, тем более пологая кривая распределения, то есть более разбросанная. Поскольку данные являются случайными, предполагая, что такое же распределение основано на центральной предельной теореме, данные подчиняются распределению Гаусса (нормальному) (типичным примером является ошибка). Давайте посмотрим на область распределения. При использовании стандартного отклонения мы можем четко увидеть вероятность того, что данные принадлежат определенному значению. (Когда мы обрабатываем функции, мы можем отфильтровать выбросы на основе этого)

Значение нормирования данных в науке и технологиях

Одной из основных целей нормирования данных является устранение искажений, возникающих из-за различного масштаба и единиц измерения признаков. Это позволяет достичь более точных результатов анализа и улучшить работу алгоритмов машинного обучения.

Нормирование данных также помогает в устранении выбросов и стандартизации значений признаков. Значения, выходящие за пределы нормированного диапазона, могут быть исключены из анализа или преобразованы для более корректной интерпретации результатов.

В науке и технологиях используются различные методы нормирования данных, включая мин-макс нормализацию, z-нормализацию (стандартизацию) и логарифмическое преобразование. Выбор метода зависит от типа данных, их распределения и конкретных целей анализа.

Нормирование данных применяется во множестве областей, включая экономику, физику, биологию, медицину и информационные технологии. Оно является необходимым шагом при использовании статистических методов, машинного обучения и построении моделей.

Преимущества нормирования данных

Улучшает производительность моделей машинного обучения: нормированные данные сокращают время обучения и повышают точность моделей. Значения, находящиеся в разных диапазонах, могут затруднять сходимость алгоритмов, поэтому масштабирование данных обычно требуется перед обучением моделей.
Позволяет сравнивать переменные с разными единицами измерения: нормированные данные дают возможность сравнить значения разных переменных, которые измеряются в разных шкалах

Это особенно важно, когда используется методы, которые основаны на измерении расстояний, такие как алгоритмы кластеризации или классификации по близости.
Улучшает интерпретируемость данных: нормирование данных делает значения более понятными и интерпретируемыми. Когда значения переменных находятся в одном диапазоне, их можно легче анализировать и делать выводы.
Снижает шум и улучшает стабильность: нормирование данных может снизить дисперсию и шум в данных, что улучшает стабильность моделей и предсказаний.
Предотвращает доминирование переменных: в некоторых моделях, если одна переменная имеет значительно больший диапазон значений, чем другие, она может доминировать над другими переменными и исказить результаты

Нормирование данных позволяет сбалансировать вклад каждой переменной и уменьшить их доминирование.

Параметры объекта стандартизации

Замечание 1

Под параметром объекта следует понимать его количественный признак, который представляет собой точную числовую оценку конкретного свойства, а под характеристикой – свойство, которое невозможно рассмотреть и оценить инструментальными методами.

Принято выделять основные параметры, из которых вытекают главные и второстепенные. К базисным коэффициентам относят те, которые определяют и устанавливают значимые преимущества объекта.

Для упорядоченного и корректного описания, а также последующего нормирования характеристик сложных объектов, необходимо на начальном этапе производства выделить существенные параметры. Это можно сделать посредством тщательного анализа назначения предмета и его сопоставления с одинаковыми или близкими объектами. К существенным относят те признаки, которыми обладают все однотипные объекты, а также особые качества, определяющие их принципиальные различия.

После установления данных факторов специалисты распределяют эти показатели в соответствии с уровнем общей значимости для потребителя (ранжируют).

Выделенные ключевые и второстепенные признаки нормируют, а затем по возможности ограничивают номенклатуру объектов, на которые устанавливают жесткие нормативы и требования.

Организационные мероприятия по определению технических норм в целях их многократного и всеобщего использования в отношении систематически повторяющихся задач, нацеленные на достижение оптимального уровня упорядочения в сфере производства, разработки, эксплуатации, перевозки, хранения, реализации и утилизации товара или оказания услуг называется стандартизацией. Существенным результатами этого механизма являются постепенное увеличение степени соответствия изделий, процессов и технических услуг их функциональному назначению, ликвидация барьеров в торговле и содействие экономическому и научно-техническому сотрудничеству.

Формализация и стандартизация данных

Определение 2

Формализация полученных данных — это приведение их к одной унифицированной форме.

Такой процесс обеспечивает полноценную сопоставимость итогов различных научных исследований, увеличивает уровень их доступности для любых заинтересованных экспертов

В основе сертификации важной информации в основном лежит технология стандартизации. Это позволяет быстро оптимизировать весь этап обработки, свести к минимуму вероятные недочеты при последующих мероприятиях

Все указанные процедуры были разработаны в целях обеспечения:

  • безопасности реализуемой продукции, услуг и работ для окружающей среды, здоровья, жизни и имущества;
  • информационной и технической совместимости, а также взаимозаменяемости товаров;
  • качества готовых товаров, в соответствие с уровнем научного и технического развития;
  • единства и точности измерений;
  • экономии всех форм природных ресурсов;
  • безопасности народных объектов с учетом возможности появления техногенных катастроф и иных чрезвычайных ситуаций;
  • мобилизационной готовности и обороноспособности государства.

Все изложенные в Законе РФ о стандартизации положения должны выполняться в обязательном порядке при работе в области информационных технологий в здравоохранении и медицине. На сегодняшний день общеупотребительной практикой является стандартизация основных параметрических данных на основе общепринятого во всех европейских странах стандарта СИ. Для обмена модернизированными цифровыми сведениями внутри каждого учреждения и за его пределами выступает международный норматив SCP-ECG.

Правила нормирования документов по стандартизации

Замечание 2

Научная база стандартизации включает системный метод, оптимизацию показателей и формализацию существующих параметрических рядов.

Установление требования с помощью нормирования документации по стандартизации и их использование подчиняется конкретным условиям и преследует задачи в первую очередь экономического характера. Упорядочение любых объектов нацелено на минимизацию средств, которые важны для получения высоких результатов. Математические способы оптимизации параметров предметов стандартизации применяют для достижения «всецелой оптимальной финансовой экономии» как в сфере реализации стандартных изделий, так и при их производстве. При этом нормативы на продукцию и процессы обязаны ограничивать уровень качества товаров снизу, защищая в первую очередь интересы потребителя.
Нормирование конкретных коэффициентов объектов, осуществляется в соответствии со следующими нормами:

  • беспрекословное соблюдение методов нормирования.
  • применение принципов нормирования.
  • грамотное оформление назначенных требований в соответствии с действующими законодательными правилами.

Принципы упорядочения стандартизации должны устанавливаться на все функционально важные показатели. Полнота охвата будет приемлемой если отсутствие каких-то требований не скажется отрицательно на качестве готового изделия. При нормировании коэффициентов необходимо учитывать, что ненормированные свойства объектов будут толковаться изготовителем произвольно; из-за неопределенности обозначения эти нормы не могут подаваться объективному контролю и приводят в итоге к снижению уровня качества. Задавать нормативы следует настолько определенно, чтобы их могли корректно проверить сам производитель, потребитель и контролер продукции.

Значения требований необходимо устанавливать на основе экономических критериев. Следует четко нормировать функционально важные признаки и более свободно – все остальные.

Использование этого правила позволяет добиться экономии совокупного общественно-полезного труда на проектирование и эксплуатацию товаров.

В случаях, когда работа продукции напрямую связана с обеспечением безопасности здоровья и жизни людей, или выход его из строя может привести к огромным экономическим потерям, авариям и сбоям, экономичность самого реализуемого объекта отодвигается на второй план, а ключевым критерием становится безотказность.

Объекты стандартизации (процессы, продукты производства, информационные сферы, услуги) весьма многогранны. Стандартизуют определенные изделия, технологические и организационные процессы, условные обозначения.

Стандартизованные шкалы

Стандартизация данных в настоящее время заключается в быстром создании тестовых шквал. При условии объективного распределения первичных сведений приведение различных технологий и методов сводится к единому показателю посредством грамотного построения шкалы стандартных коэффициентов или стандартизованной методики.

Указанная процедура отражает место любого значения признака общей совокупности и взаимозаменяемости данных, измеряя их вероятные отклонения от среднего арифметического параметра в единицах стандартных корректировок.

Сегодня выделяют такие типы основных шкал:

  1. Количественный — где среднее значение имеет смысл. Данная технология считается самой распространенной и эффективной в аспекте передачи информации.
  2. Категоризованный — предполагает сравнение всех показателей и применяется для обозначении различных групп объектов. В этом случае все существующие арифметические операции невозможно использовать, так как числа в ней всего лишь метки конкретных классов.
  3. Бинарный — отражают только одну категорию и не подходит для более комплексных систем в стандартизации данных.

Замечание 2

Недостатком стандартизованных шкал считается наличие в них отрицательных значений.

Этот минус возможно преодолеть с помощью перехода к более удобным в обращении шкалам, которые строятся посредством комплексного преобразования нормализованных сведений. Для интервальных систем допустимо преобразование, где все действительные показатели определяются только удобством работы. Такие сенситограммы называются в науке преобразованными сертифицированными элементами. Таблицы приблизительных норм в форме стандартной оценки, имеют значение только для конкретного испытания, примененного к определенной подборке системы стандартов данных.

Распределение полученных оценок многих стандартизированных тестов будет записано в качестве нормальной кривой, разработанной специалистами для упрощения дальнейшей интерпретации оценок с помощью частичного преобразования их в числа, которые указывают относительное расположение элементов стандартизации.

Инструменты обеспечения качества данных

Стандартные инструменты обеспечения качества автоматизируют исправление данных и контроль качества благодаря таким функциям, как профилирование, сопоставление, управление метаданными и мониторинг. На рынке представлен широкий выбор таких инструментов. Gartner в своём указывает 15 поставщиков, семь из которых являются лидерами. Давайте изучим различные решения, предлагаемые лучшими с точки зрения Gartner поставщиками.В свой Magic Quadrant Gartner включил 15 поставщиков инструментов обеспечения качества данных.

 — один из четырёх продуктов обеспечения качества данных, предлагаемых компанией IBM. Он обеспечивает автоматизированный мониторинг данных и настраиваемую пакетную очистку в реальном времени. Решение выявляет изъяны в качестве данных и создаёт план их устранения на основании метрик, согласованных с бизнес-целями пользователя. То есть компании могут определять собственные правила качества данных.Базовые функции инструмента включают в себя:

  • Профилирование данных
  • Преобразования для обеспечения качества данных: очистку, сопоставление, валидацию (например, гибкую конфигурацию таблицы на выходе для правил валидации данных, упорядочивание и анализ влияния)
  • Настраиваемую стандартизацию данных (например, обогащение и очистку данных)
  • Поддержку системы происхождения данных — пользователи могут видеть, какие изменения вносились в данные на протяжении их жизненного цикла
  • Классификацию данных (например, выявление типа хранимых в столбце данных при помощи трёх десятков заданных настраиваемых классов данных)
  • Оценку качества данных и очистку в рамках кластера Hadoop

Клиенты также могут воспользоваться лицензированием FlexPoint — получить гибкий доступ к IBM Unified Governance and Integration Platform.Решение может быть развёрнуто на мощностях компании или в облаке. Цены предоставляются по заявке. IBM предоставляет информацию (электронные книги с видео и интерактивными демо), помогающую пользователям знакомиться с возможностями решения.

 — это пакет инструментов корпоративного класса для мониторинга качества данных и управления им. Это одно из шести решений для обеспечения качества данных компании . Оно обеспечивает пакетную работу с качеством данных, но может и масштабироваться до применения в реальном времени, а также для работы с big data. Кроме того, Trillium DQ гибко работает с ролями пользователей, предоставляя функции самообслуживания для data steward, бизнес-аналитиков и других специалистов. Платформа поддерживает множество мероприятий, например, data governance, миграцию, управление основными данными, единое представление данных клиента, электронную коммерцию, распознавание мошенничества и так далее.Основные :

  • Профилирование данных
  • Готовые или настраиваемые преобразования для обеспечения качества данных: парсинг, стандартизация, валидация, сопоставление, обогащение данных
  • Связывание данных
  • Восстановление данных (для внутренних и внешних источников)
  • Интеграция со специализированными и сторонними приложениями при помощи API с открытыми стандартами
  • Интеграция с распределёнными архитектурами, например, с Hadoop и Spark, Microsoft Dynamics, SAP, сервисом Amazon EMR и любой гибридной средой для распределённых платформ
  • Готовые формы отчётности и оценочных таблиц

Пользователи могут использовать продукт на собственных мощностях или в облаке. Информация о ценах предоставляется по заявке.Также можно рассмотреть возможности других ведущих поставщиков наподобие Oracle, SAS, Talend, SAP и других, включённых в Magic Quadrant. Изучите данные на сайтах с отзывами пользователей, например, или .Спрос на подобные пакетные решения растёт, особенно с учётом огромного объёма данных, который ежедневно и должен быть гармонизирован. По данным Gartner, рынок программных инструментов для обеспечения качества данных в 2017 году , что на 11,6 процентов больше, чем в 2016 году.

В заключение

Специалисты в этой области часто говорят, что стратегия управления качеством данных — это сочетание людей, процессов и инструментов. Когда люди разбираются с тем, что представляют собой высококачественные данные в их конкретной отрасли и организации, какие меры нужно предпринять, чтобы обеспечить возможность монетизации данных и какие инструменты могут поддерживать и автоматизировать такие меры и действия, проект принесёт желаемые результаты для бизнеса. Размерности качества данных служат опорной точкой для создания правил обеспечения качества данных, метрик, моделей данных и стандартов, которые должны соблюдать все сотрудники с момента, когда они вводят запись в систему или извлекают массив данных из сторонних источников. 

Установление единого стандарта для данных

Процесс нормирования данных является важной частью предобработки данных и играет ключевую роль в обеспечении единого стандарта для данных. Установление единого стандарта позволяет гарантировать, что данные будут корректно интерпретированы и использованы

Существует несколько способов установления единого стандарта для данных:

1. Определение единиц измерения

При работе с данными, особенно когда речь идет о числах, очень важно определить единицы измерения и использовать их для всех значений. Например, если мы работаем с данными о температуре, все значения должны быть выражены в одних и тех же единицах – градусах Цельсия или Фаренгейта

2. Согласованность формата

Для установления единого стандарта необходимо также определить и применять согласованный формат данных. Например, если мы работаем с датами, то все даты должны быть представлены в одном и том же формате – например, ГГГГ-ММ-ДД или ДД/ММ/ГГГГ. Это поможет избежать путаницы и ошибок при обработке данных.

3. Использование кодовых значений

Еще одним способом установления единого стандарта является использование кодовых значений для категорий или значений, которые могут принимать ограниченный набор вариантов. Например, вместо записи полного наименования страны можно использовать ее код – ISO-3166, такой как RU (Россия) или US (США). Это поможет сделать данные более компактными и унифицированными.

4. Документирование

Не менее важным аспектом при установлении единого стандарта для данных является документирование стандарта. Создание документа, в котором будут описаны все используемые единицы измерения, форматы и коды значений, поможет удерживать данные в согласованном и структурированном виде. Этот документ будет полезен не только разработчикам, но и всем пользователям данных.

5. Внедрение аудита данных

Внедрение аудита данных позволит отслеживать и контролировать процесс нормирования данных и определения их единого стандарта. Аудит позволит выявлять и исправлять потенциальные ошибки или несоответствия стандарту данных, что поможет поддерживать данные в актуальном и консистентном состоянии.

Установление единого стандарта для данных является важным шагом в процессе обработки данных. Это позволяет обеспечить доступность, точность и консистентность данных, что в свою очередь помогает в дальнейшем анализе и использовании данных.

Цель и задачи нормирования данных

Задачи нормирования данных могут включать:

Устранение различий в единицах измерения: нормирование позволяет сравнивать и анализировать данные, которые были измерены в разных шкалах, например, между долларами и граммами.
Устранение выбросов: нормирование помогает уменьшить влияние выбросов и аномальных значений на результаты анализа данных.
Улучшение производительности алгоритмов: нормирование данных может существенно ускорить работу алгоритмов машинного обучения, особенно тех, которые основаны на численных методах, таких как градиентный спуск.
Улучшение сходимости алгоритмов: нормирование позволяет алгоритмам быстрее достигать оптимального решения, улучшая сходимость и ускоряя процесс обучения.
Снижение влияния множественных признаков: нормирование может помочь снизить различие в масштабах значений между различными признаками, что может быть полезным при анализе данных, где множество признаков имеет разную важность.
Улучшение интерпретируемости данных: нормирование может упростить интерпретацию результатов анализа данных, так как все значения будут находиться в одном и том же диапазоне или распределении.

Все эти задачи вместе помогают сделать данные более надежными, полезными и готовыми для использования в анализе и принятии решений.

Применение нормирования данных в финансовом анализе

Одним из основных методов нормирования данных в финансовом анализе является использование относительных показателей, таких как коэффициенты пропорции или относительные изменения. Коэффициенты пропорции позволяют сравнивать отношение двух финансовых показателей, например, отношение текущих активов к текущим обязательствам. Относительные изменения позволяют выявить динамику изменения показателя за определенный период времени.

Нормирование данных также может быть полезно при сравнении компаний или секторов на рынке. Например, при сравнении финансовых показателей двух компаний, которые работают в разных отраслях, нормирование позволяет учитывать различия в масштабе и структуре бизнеса. Таким образом, аналитики могут более точно оценить относительные позиции и эффективность компаний на рынке.

Нормирование данных также широко применяется в анализе рыночных индексов и инвестиционных портфелей. Путем нормирования данных инвесторы могут оценить производительность своего портфеля или индекса относительно базового значения. Это позволяет определить, какие инвестиции превышают или отстают от рынка, и принять соответствующие решения.

Таким образом, нормирование данных играет важную роль в финансовом анализе, позволяя приводить данные к общей шкале и упрощать их сравнение. Применение нормирования данных в финансовом анализе помогает выявлять тренды, сравнивать компании или секторы на рынке, а также оценивать производительность инвестиционных портфелей. Это позволяет принимать более обоснованные и информированные финансовые решения.

Что такое нормирование данных?

В области машинного обучения и анализа данных нормирование данных играет важную роль. При работе с данными различных типов и из разных источников, можно столкнуться с проблемой, когда переменные имеют различные масштабы или распределения значений. Это может приводить к неправильному обучению модели или доминированию некоторых переменных над другими.

Нормирование данных может быть выполнено различными методами, включая минимаксное нормирование, Z-нормализацию или нормализацию по длине вектора. Каждый метод имеет свои особенности и подходит для конкретных задач и типов данных.

Применение нормирования данных может улучшить производительность моделей машинного обучения, помочь в интерпретации и визуализации данных, а также облегчить сравнение различных переменных и выполнение статистического анализа.

Аналитик качества данных: многозадачный специалист

Обязанности аналитика качества данных могут быть разнообразными. Этот специалист может выполнять задачи data consumer (потребителя данных), например, определение и документирование стандартов данных, поддержание качества данных до их загрузки в хранилище данных (обычно этим занимается data custodian). Согласно , проведённому доцентом Университета Арканзаса в Литтл-Роке Элизабет Пирс, а также найденным нами описаниям должностей, в обязанности аналитика качества данных может входить следующее:

  • Мониторинг и ревизия качества (точности, целостности) данных, вводимых пользователями в системы компании, извлекаемых, преобразуемых и загружаемых в хранилище данных
  • Выявление первопричин проблем с данными и их устранение
  • Измерение и отчёты руководству об результатах оценки качества данных и о выполняемых мерах по повышению качества данных
  • Создание и контроль соглашений об уровне обслуживания, коммуникационных протоколов с поставщиками данных, политик и процедур по обеспечению качества данных
  • Документирование экономического эффекта мероприятий по обеспечению качества данных.

Компании могут потребовать, чтобы аналитик качества данных организовывал и проводил обучение сотрудников по качеству данных, рекомендовал действия по улучшению данных. Также специалист может отвечать за обеспечение соответствия требованиям политики конфиденциальности данных компании.Вы сами можете выбирать, как распределять обязанности в команде обеспечения качества данных. Однако в любой команде должен быть человек, управляющий всем процессом, выполняющий проверки качества, регулирующий правила обеспечения качества данных, разрабатывающий модели данных, а также технический специалист, поддерживающий поток и хранение данных во всей организации.

Использование методов нормирования

Применение на практике способов нормирования предполагает заимствование норм или апробированных решений подобных задач из ранее выполненных проектов, а также назначение требований по результатам специально проведенной исследовательской работы, которая может совмещать теоретическое прогнозирование итогов при выбранных требованиях или расчёт норм для достижения высоких результатов.

Иногда на предприятиях допускается «смешанное» использование этих двух методов. Внедрение в производство готового опыта решения однотипных задач, обеспечивает существенное сокращение времени процедуры нормирования. Назначение требований при решении тривиальных вопросов возможно осуществлять, применяя готовые, многократно апробированные алгоритмы, а также итога предыдущих аналогичных мероприятий.

Назначение норм по аналогии с известными решениями оправдывает себя только в тех случаях, когда решают не слишком сложную задачу. Подобные элементы берут из справочников, нормативной документации, готовых технологических и конструкторских разработок.

В случае заимствования этих приемов процедура нормирования проводится в один этап, так как установленные ранее пределы соответствуют стандартным. При определении предельных значений сам переход от функционально признанных норм к ближайшим стандартным составляет отдельную стадию упорядочения. Оформление назначенных приказов в соответствии с действующим законодательством является очевидно необходимым правилом.

Регистрация норм в документации на нормируемый объект должна обеспечить однозначное их истолкование производителе, пользователем и контролером. Собственно, грамотное оформление нормируемых требований выступает объектом стандартизации, поэтому при возможности желательно применять стандартные выражения норм. Для обеспечения единства стандартов удобно использовать условные обозначения и специально разработанные формулировки.

Стандартизация и нормализация данных

Стандартизация данных заключается в пропорциональном масштабировании данных для снятия ограничений между данными и преобразовании их в безразмерные данные для облегчения взвешивания и сравнения различных индексных данных. Нормализацию можно назвать своего рода стандартизацией (стандартизация и нормализация данных). Обычно используемые для непрерывных значений, дискретные значения обычно используют labelencoding и onehot для преобразования данных). Текущие методы стандартизации данных в основном делятся на следующие три типа:

Различные методы стандартизации по-разному влияют на результаты оценки системы, и вы можете попробовать несколько раз во время обучения машинному обучению.

Цель нормализации

  • Повышение скорости сходимости модели
  • Повысьте точность модели
  • Предотвратить взрыв градиента модели

Повышена скорость сходимости модели

В практических приложениях модели, решаемые методом градиентного спуска, обычно необходимо нормализовать, например линейная регрессия, логистическая регрессия, KNN, SVM, нейронная сеть и другие модели. Если разница в размерах между элементами большая, контур модели эллиптический, а при выполнении градиентного спуска направление градиента — это направление, перпендикулярное контуру, поэтому Модель будет следовать зигзагообразному маршруту, и если скорость обучения слишком велика или слишком мала, градиент будет расходиться или не сходиться. Если разница в размерах между элементами велика, контур модели является круглым, а скорость итерации будет увеличена. На данный момент вам нужно только настроить скорость обучения. Как показано ниже:

Повысьте точность модели

Когда дело доходит до модели расчета расстояния, если значение объекта сильно отличается, оно будет доминировать в процессе расчета, а объект с небольшим значением может привести к недостатку информации (изменение значения почти не влияет на окончательный результат расчета. влияний). Следовательно, чтобы модель могла полностью изучить информацию о каждой функции, мы должны стандартизировать данные во время анализа модели. Численная стандартизация в основном включает гомотактическую обработку данных и обработку размерностей данных.

Следовательно, нормализация предназначена для того, чтобы функции между различными измерениями имели определенную степень численного сравнения, что может значительно повысить точность классификатора.

Нормализация данных в глубоком обучении может предотвратить взрыв градиента

Часто используемые методы и характеристики нормализации данных

(1) Мин-макс нормализация

  1. Также известный как стандартизация дисперсии, результат отображается в

    x

    =

    x

    m

    i

    n

    (

    x

    )

    m

    a

    x

    (

    x

    )

    m

    i

    n

    (

    x

    )

    x^* = \frac{x-min(x)}{max(x)-min(x)}
    x∗=max(x)−min(x)x−min(x)​

  2. Использование: этот метод нормализации подходит для ситуаций, когда значения данных относительно сконцентрированы. Когда измерение расстояния, расчет ковариации и данные не соответствуют нормальному распределению, первый метод или другие методы нормализации (не включая Метод Z-оценки). Например, при обработке изображения изображение RGB преобразуется в изображение в градациях серого, и его значение ограничено диапазоном
  3. Дефекты: на этот метод легко влияют максимальные и минимальные значения, что делает нормализованный результат нестабильным и делает нестабильным последующий эффект использования. На практике вместо max и min можно использовать эмпирические константы.

(2) Метод стандартизации Z-баллов (нормализация с нулевым средним)

  1. Данные, обработанные методом стандартизации Z-оценки, будут подчиняться стандартному нормальному распределению, а интервал значений после обработки не , поэтому его нельзя назвать нормализацией. Его функция преобразования

    x

    =

    x

    μ

    σ

    x^* = \frac{x-\mu}{\sigma}
    x∗=σx−μ​

  2. Метод стандартизации Z-оценки подходит для ситуаций, когда максимальное и минимальное значения атрибутов неизвестны.Кроме того, метод Z-оценки может использоваться для фильтрации выбросов. В алгоритмах классификации и кластеризации, когда расстояние необходимо для измерения сходства или когда технология PCA используется для уменьшения размерности, стандартизация Z-показателя работает лучше.
  3. Дефект: необходимо, чтобы распределение исходных данных было приблизительно гауссовым, иначе эффект будет плохим.

(3)

l

o

g

log
logПреобразование функций

  1. Также может быть реализован метод преобразования функции журнала в базу 10. Конкретный метод выглядит следующим образом:

    x

    =

    l

    o

    g

    1

    (

    x

    )

    l

    o

    g

    1

    (

    m

    a

    x

    (

    x

    )

    )

    x^* = \frac{log_10(x)}{log_10(max(x))}
    x∗=log1​(max(x))log1​(x)​

Понравилась статья? Поделиться с друзьями:
Опытный компьютерщик
Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: