Вадим Николаевич Шмаль

Интеллектуальный анализ данных. Учебник


Скачать книгу

классифицировать данные либо как один набор, либо как другой, указывая на части набора данных, которые происходят из того или иного набора.

      Этот простой метод часто хорошо работает для данных, хранящихся в простых базах данных с небольшим объемом данных и низкой скоростью доступа к данным. Например, система базы данных может использовать древовидную структуру для хранения данных, при этом столбцы записи представляют поля в структуре. Эта структура не позволяла ранжировать данные, потому что данные находились бы в двух отдельных строках древовидной структуры. Это делает невозможным осмысление данных, если данные помещаются только в одну древовидную структуру. Если в базе данных есть два дерева данных, вам нужно будет сравнить каждое из двух деревьев. Если бы было большое количество деревьев, сравнение могло бы быть вычислительно затратным.

      Следовательно, полная корреляция является плохим методом классификации. Корреляция данных не различает соответствующие части данных, и данные относительно малы как в столбцах, так и в строках. Эти проблемы делают полную корреляцию непригодной для простых систем классификации данных и систем хранения данных. Однако, если данные относительно велики, может применяться полная корреляция. Этот пример полезен для систем хранения данных с относительно высокой вычислительной нагрузкой.

      Сочетание метода классификации данных с системой хранения данных повышает как производительность, так и удобство использования. В частности, размер результирующего алгоритма классификации в значительной степени не зависит от размера хранилища данных. Алгоритм подробной классификации вообще не требует много памяти для хранения данных. Часто он достаточно мал, чтобы хранить его в буфере, и многие организации хранят свои системы классификации таким образом. Также характеристики производительности системы хранения данных не зависят от классификатора. Система хранения данных может обрабатывать данные с высокой степенью изменчивости.

      Почему системы классификации не так хороши?

      Большинство систем хранения данных не имеют хорошего классификатора, а система классификации данных вряд ли со временем станет лучше. Если в вашей системе хранения данных нет хорошего классификатора, у вашей системы классификации возникнут проблемы.

      Большинство компаний так не думают о своих системах хранения данных. Вместо этого они предполагают, что систему можно исправить. Они видят в этом то, что со временем можно улучшить, основываясь на будущих усилиях по техническому обслуживанию. Это убеждение также позволяет легко исправить некоторые проблемы, возникающие из-за плохих систем хранения данных. Например, система хранения данных, которая не принимает слишком короткие или неупорядоченные данные, со временем может быть улучшена, если к ее исправлению будет привлечено больше людей.

      Суммирование

      Суммирование –