анализ документа предполагает формальную характеристику его текста по нескольким параметрам: физическому объему (габаритам), информационному объему, информационной емкости, информативности и т. д.
Физический объем документов на бумажных носителях измеряют в печатных листах. Печатный лист – единица печатного объема (площади) произведения печати, равная одной стороне бумажного листа стандартного формата и содержащая различное число печатных знаков в зависимости от формата наборной полосы, особенностей набора, шрифта. Различают физический печатный лист (его определение совпадает с определением печатного листа) и условный печатный лист, за него принят печатный лист формата 60 х 90 см; он служит для сопоставления печатных объемов изданий, отпечатанных на бумаге разного формата.
Кинофильмы, видео- и звукозаписи измеряются временем демонстрации (звучания).
Информационный объем документа измеряется длиной или площадью непрерывного текста (исключая пробелы, поля, паузы). В издательской практике используется понятие учетно-издательский лист. Эта единица объема издания, равная 40 тыс. печатных знаков, или 700 строкам стихотворного текста, или 3000 кв. см иллюстративного материала. Но нередко информационный объем измеряется количеством знаков. В частности, количеством знаков (байтов) измеряется информационный объем машиночитаемых носителей.
Отношение информационного объема документа к его физическому объему называется компактностью. Наиболее компактен документ, несущий большой информационный объем в небольшом физическом, это более экономно, но в то же время влечет за собой трудности восприятия текста. В печатных текстах компактность достигается уменьшением свободных полей, применением более мелкого шрифта. Современные технические средства позволяют использовать документы с небольшими габаритами (микропленка, CD-ROM и т. д.), включающие чрезвычайно масштабный информационный объем.
Информационная емкость текста измеряется подсчетом слов и словосочетаний, несущих в тексте основную смысловую нагрузку – дескрипторов. Дескрипторы различаются по значимости. Чем более значим дескриптор, тем чаще он встречается в тексте. Формула информационной емкости текста – это произведение общего числа элементов текста на среднюю их повторяемость. Полный список проранжированных по значимости дескрипторов есть тезаурус.
Если в числителе записать величину информационной емкости, а в знаменателе – информационного объема, то в результате получится новая характеристика текста – информационная плотность. Наиболее плотен тот текст, в котором содержится наибольшее число дескрипторов на единицу объема.
И наоборот, менее плотен тот текст, в котором большую его часть составляют не дескрипторы – служебные, вспомогательные элементы текста. Они не несут особой смысловой нагрузки, поэтому в процессе чтения внимание на них не задерживается.
Документ