■ Data set E has no field for a middle initial.
■ Data set F stores transaction numbers but not customer IDs.
■ Data set G does not include in‐page actions, only clicks.
■ Data set H stores a smartphone's IMEI or MEID number rather than its phone number.
■ Data set I is missing a significant number of values.
■ Data set J uses a different scale of measurements.
■ Data set K, and so on.
It's easy to see how much work goes into data cleansing and normalization. This seems to be a natural challenge for a machine learning application.
Конец ознакомительного фрагмента.
Текст предоставлен ООО «ЛитРес».
Прочитайте эту книгу целиком, купив полную легальную версию на ЛитРес.
Безопасно оплатить книгу можно банковской картой Visa, MasterCard, Maestro, со счета мобильного телефона, с платежного терминала, в салоне МТС или Связной, через PayPal, WebMoney, Яндекс.Деньги, QIWI Кошелек, бонусными картами или другим удобным Вам способом.