Способы визуального представления данных. Методы визуализации

2.1. Преимущества визуальной формы представления информации

Вербальный язык и вербальные категории содержат крайне примитивные средства для того, чтобы строить пространство, интерпретировать его или производить с ним какие-то действия. Этой цели служат язык образов и система перцептивных действий, с помощью которых человек строит образ окружающей действительности и ориентируется в ней. Эта система называется восприятием. Восприятие определяется как целостный образ, отражающий единство структуры и свойств объекта. Объектами зрительного восприятия служат предметы, процессы и явления окружающего мира, которые можно расчленить и описать в категориях пространства, движения, формы, текс­туры, цвета, яркости и т. п. При восприятии предметов образ более или менее полно отражает объект или ситуацию, в которой находится человек.

Образы, созданные на основе визуального восприятия, обладают большей, чем слова, ассоциативной силой. Возможно, поэтому они прекрасно хранятся в памяти. Даже после однократного просмотра нескольких тысяч картин наблюдатели способны правильно опознать из них около 90 %. Зрительный образ весьма пластичен. Это свойство проявляется в том, что в плане образа возможен быстрый переход от обобщенной оценки ситуации к подробному анализу ее элементов. Возможны различного рода перемещения отраженных в образе объектов, их сдвиги, повороты, а также увеличение, уменьшение, перспективные искажения и нормализация. Эта своеобразная манипулятивная способность зрительной системы позволяет представить ситуацию как в прямой, так и в обратной перспективе. Манипуляции образами, их достраивание – важнейшие средства продуктивного восприятия и визуального мышления.

Многие исследования свидетельствуют о том, что в зрительной системе имеются механизмы, обеспечивающие рождение нового образа. Благодаря им человек способен видеть мир не только таким, каким он существует в действительности, но и таким, каким он может (или должен) быть. Это означает, что зрительные образы являются необходимым условием, даже более того – орудием мыслительной деятельности. Они связаны более непосредственно по сравнению с символами и речью, с окружающей человека предметной действительностью. Образ – это не только и не столько созерцание, сколько воссоздание действительности. Она, эта действительность, может воссоздаваться в той форме (или близкой к ней), в которой объект реально существует. Но возможны также и деструкция объекта, ситуации и воссоздание ее нового варианта или вариантов. На основе этого измененного по сравнению с реальностью образа человек вновь обращается к предметной действительности и перестраивает ее в своей практической деятельности. невозможно подготовить творчески мыслящего специалиста без развития у него образного представления, воображения и мышления. Ощутимую пользу в этом деле оказывает универсальный аппарат проекционного схематизма. Один из важнейших инструментов проекционного моделирования, служащих для формирования пространственных представлений, – это геометрическая интерпретация. Объектами интерпретации являются графические модели в виде комбинации чертежей, схем, текста, диаграмм и т. п. Графические модели предполагают отображение информации в виде набора средств графического представления информации: линий, символов, мнемонических знаков, используемых в соответствии с правилами построения графических моделей. При восприятии информации в таком виде необходим выход в более высокое по размерности операционное пространство, чем при восприятии текста. Степень точности при сопоставлении информационного объекта с его моделью зависит от полноты сведений о проекционном аппарате, который имел место при моделировании. На рисунке 2.1 представлена одна из возможных классификаций графических моделей. Пиктографическая модель – графическая модель, составленная с использованием условных графических изображений (пиктограмм), обозначающих предметы, действия или события. Идеографическая модель – графическая модель, составленная с использованием идеограмм – условных письменных знаков, обозначающих понятия.

Вопрос эффективности передачи и усвоения информации является одним из главных на протяжении последних десятилетий. Основным средством коммуникации в мире в начале ХХI века служит визуализация (визуальная форма передачи) информации. Наибольшее количество информации (примерно 80–90 %) человек воспринимает визуально. «Доминирующее значение зрительной системы для человека объясняется тем, что она является самым мощным источником информации о внешнем мире, обладает наибольшей дальномерностью и стереоскопичностью сенсорных функций» .

Эффективность, преимущество графического способа передачи информации, по сравнению с двигательным или звуковым (рисунок 2.2), состоит в том, что зрительное восприятие человеком передаваемой информации и создание им мысленного образа происходят настолько быстро, что человек этот процесс воспринимает как «мгновенный». Этим объясняется эффект одновременности, или симультанности, основанный на свойстве человечес кого восприятия информации: создаваемые мысленные образы при восприятии информации и передаваемые графические модели очень близки по форме.

Отправить свою хорошую работу в базу знаний просто. Используйте форму, расположенную ниже

хорошую работу на сайт">

Студенты, аспиранты, молодые ученые, использующие базу знаний в своей учебе и работе, будут вам очень благодарны.

Размещено на http://www.allbest.ru/

ОСОБЕННОСТИ ВИЗУАЛЬНОГО СПОСОБА ПРЕДСТАВЛЕНИЯ ИНФОРМАЦИИ

Вашунина И.В.

Сделанные в статье выводы об особенностях визуального способа представления информации базируются на результатах экспериментального исследования восприятия креолизованных текстов (текстов с иллюстрациями) . В ходе исследования было установлено, что существует возможность визуального представления вербально номинированных качеств и определения статической вероятности визуализации конкретного качества посредством использования определенных параметров изображения (цветовой гаммы, геометрических форм, расположения элементов изображения). Идея о возможности визуального представления понятий не является новой. Наличие возможности визуализации абстрактных понятий было предположено А. Пайвио. На материале русского языка эта идея получила свое развитие в работах В.Ф. Петренко. Признание существования семантики цвета и геометрической формы невозможно без признания визуализируемости самых разных понятий. Базируясь на результатах нашего исследования, мы хотим отметить некоторые особенности визуального способа представления информации и его отличия от вербального способа.

Анализ экспериментальных данных, позволил сделать наиболее общий вывод о невозможности передачи одного и того же содержания абсолютно идентично разными способами вербальным и визуальным. Информация, представленная вербально, в принципе не может быть идентичной информации, представленной визуально (исключение, вероятно, составит описание графиков и схем). И это объясняется не только ограничениями, накладываемыми возможностями формы. Гораздо более важными являются отличия в содержании. При восприятии, как пишет Е.С. Кубрякова, “первоначально складывается ментальная структура воспринятого (обычно, как кажется, она богаче концепта, так как связана с воспринятой извне богатой сеткой тактильных ощущений, с репрезентацией визуального облика объекта, его физических характеристик размера, расположения, формы, запаха и так далее)”. По ходу “ословливания” наблюдается “известная редукция сложившегося образа вещи, выбор той его черты или черт, которые могут представлять объект в целом” . То есть процесс символизации образа является процессом его редукции . Оставляя в стороне вопрос о том, как именно определяются характеристики, релевантные для данной категории объектов и входящие в состав образа, отметим лишь, что во многих случаях ни цвет, ни пространственное расположение (а иногда и геометрическая форма) в состав образа не входят. То есть эти признаки подвергаются редукции. Вместе с ними, естественно, исчезает и то содержание, которое они могут нести.

Обратимся к примерам. Как было установлено в процессе исследования, изображение округлой формы актуализирует не только понятие “округлый”, но и отчасти (с разной вероятностью) понятия “тяжелый”, “мягкий”, “вялый”. Возникающий при этом понятийный комплекс “округлый несколько тяжелый несколько мягкий несколько вялый” сложно вербализуем (о чем свидетельствует выражение “несколько...”, очень условно и приблизительно передающее содержание изображения). И очевидно, что содержание этого изображения будет отличаться от содержания слова “округлый”. Рассмотрим образ, вызываемый в сознании оранжевым цветом. Этот цвет ассоциируется с огнем, зноем, закатом, югом, апельсинами и ощущается как теплый, веселый, сухой, живой, беспокойный, активный, радостный, излучающий, крикливый, свежий, красивый, чистый, юный. Вербальное выражение этого понятийного комплекса довольно условно. Ощущение от цвета является синтетическим, то есть сплавом перечисленных вербальных характеристик, что легко проверить с помощью простого эксперимента. Достаточно посмотреть на любое окрашенное пространство, и цвет вызовет целостное ощущение, которое затем может быть разложено на компоненты и вербализовано только сознательно. Такую вербальную характеристику мы и считаем содержанием цветового стимула, хотя на самом деле его содержанием является то самое первичное целостное ощущение. «“Ословливание” мира ведет к более строгой фиксации определенных идей в сознании человека» , однако при вербализации первичный образ будет повергнут редукции.

В процессе эксперимента были установлены возможности визуализации 50 качеств, и ни в одном случае не выявлено однозначного соответствия “качество визуальный параметр изображения”. Даже если вербально обозначаемое качество имеет единственный вариант визуального представления в 100% случаев, то содержание соответствующего параметра изображения оказывается более широким. Например, определение “бледный” стопроцентно визуализируется с помощью использования бледных тонов изображения. Однако визуальный параметр “бледный” имеет еще и содержательный компонент “легкий”, который отсутствует в слове “бледный”. То есть вербализация этого визуального признака как “бледный” будет кодировать только часть его значения. Поскольку нами исследовались возможности визуального представления совершенно разных с точки зрения содержания характеристик, вряд ли можно предположить, что другие понятия будут иметь принципиально отличные возможности визуализации.

Кроме того, единицы языка разделяются на определенные части речи (существительные, прилагательные, глаголы), “которые активизируют при их использовании разные структуры сознания и вызывают у нас разные ассоциации, впечатления, образы, картины, сцены и т.п.: разные представления и разные типы репрезентаций” . Деление вербализованных компонентов значения на части речи, то есть на предметы, действия и признаки обусловлено неизбежностью появления морфологических категорий в вербальной речи. Для характеристики, например, оранжевого цвета совсем неважно различение “огонь гореть горящий”. Как отмечает Е.С. Кубрякова, одни и те же сущности могут кодироваться разными частями речи. Однако за ними будут стоять несколько отличные представления: например, с употреблением глагольных предикатов связано представление о динамичности, а с употреблением неглагольных предикатов представление о статичности . Это содержание дополняет содержание цветового стимула, который сам может создавать ощущение динамичности или статичности в зависимости от своих характеристик (тона, насыщенности, светлоты). Таким образом, при вербализации происходит, с одной стороны, редукция визуальной информации (неизбежная в ходе процесса символизации), а с другой стороны, ее дополнение за счет специфических характеристик вербальных единиц (также неизбежное в силу деления слов на части речи).

Отсутствие однозначного соответствия между вербальной и визуальной единицами подтверждает предположение о различном членении действительности в процессе обработки вербальной и визуальной информации. Это значит, с одной стороны, что результатом обработки будут единицы и структуры, отличающиеся по содержанию, а с другой стороны, что невозможно существование вербальных и визуальных единиц идентичного содержания.

При обработке визуальной информации в качестве единицы выделяется объект или, в случае его отсутствия, отдельный параметр, например, цвет или форма. При выделении на изображении объектов в качестве содержания мы воспринимаем синтез содержания самого реального объекта действительности, изображенного на рисунке, ощущения от цвета и ощущения от формы. Именно синтез этих содержаний, для создания которого важно соотношение составляющих, а не отдельные значения объекта, цвета и формы. Рассматривая изображение, мы воспринимаем всю картину целиком, что приводит к созданию сложных синтетических единиц. Точное содержание этих единиц сложно вербализуемо. Всем знакома ситуация, когда при попытке описания изображений человек сталкивается с ощущением недостаточности и неточности вербального языка, что что-то упущено, сформулировано не так. Мы считаем, что причиной этого является различное членение действительности при действии механизмов обработки вербальной и визуальной информации, не позволяющее абсолютно идентично “перевести” визуальный “язык” на вербальный.

Все вышесказанное открывает новый подход к проблеме иллюстрирования вербальных текстов. В нем выделяются четыре аспекта.

Во-первых, иллюстрирование вербального текста может рассматриваться как попытка восстановления компонентов образа ситуации, подвергшегося неизбежной редукции в процессе вербализации, и удаления из этого образа содержания, привнесенного при употреблении языковых единиц. Мы употребляем слово “попытка”, поскольку автор иллюстрации не может точно представить, какой образ ситуации существовал в сознании автора вербального текста (предполагается, что это разные люди). Образ ситуации обогащается за счет восстановления формальных характеристик (цвета, формы, пространственного расположения элементов) со всем сопутствующим им воздействием на реципиентов. Очевидно, что, прочитав о человеке в красной рубашке, невозможно с уверенностью сказать, входила ли в авторский образ семантика цвета (торжественного красного, веселого красного, кровавого красного, пылающего красного), которая затем пропала при вербализации, или же автор оперировал с самого начала вербальными единицами. Иллюстратор решает этот вопрос сам с опорой на содержательно-концептуальную информацию вербального текста. Е.С. Кубрякова замечает: “Различие языковых форм в передаче близкого содержания свидетельствует о том, что само это содержание репрезентируется с разными нюансами, а в конечном итоге возбуждает разные образы обозначаемого при назывании. Каждый языковой знак и/или выражение накладывают свой отпечаток на возбуждаемые ими представления” . Поэтому “язык не только отражает или отображает действительность, как мы это привыкли считать: в значительной мере он сам ее структурирует, ибо проводит дискретизацию всего сущего, он ее сам творит” . Изображение “стирает” с образа ситуации отпечаток употребления языковых средств, несколько “размывает” созданную языком структуру, “оживляя” лежащее в основе словоупотребления образное начало, удовлетворяя таким образом стремление индивидов возвратить в своем сознании значения “к чувственной предметности мира”. При этом в сознании реципиентов могут появляться и новые образы, поскольку “в сознании человека многие фрагменты действительности представлены образами, и многое может попасть в поле зрения и быть увиденным (и понятым) без наличия для него специального обозначения” . Концепты и идеи независимы от языка , некоторые образы не имеют вербальных обозначений (или же эти обозначения неточны , чувство характеризуется смутностью и неясностью (что может соответствовать скорее, например, семантике цвета, а не слова) эти особенности функционирования сознания приводят к тому, что часть образов наиболее полно может быть представлена визуально, а не вербально. Если же иллюстратор искажает замысел автора (намеренно или нет), то иллюстрация “уводит” реципиентов от понимания смысла вербального текста, заложенного в него автором, и способствует созданию нового смысла, в определенной степени отличного от исходного. В подавляющем большинстве случаев именно так и происходит, поскольку иллюстратор практически не может избавиться от субъективности своего восприятия.

Во-вторых, иллюстрация унифицирует визуальные образы, возникающие в сознании реципиентов при восприятии вербального текста. Е.С Кубрякова отмечает: “Образные репрезентации субъективны, не носят конвенционального характера, и даже когда для них существует реальный референт, в сознании разных людей они могут иметь разные репрезентации” . Справедливость этого заявления подтверждается реакцией зрителей на иллюстрации к известным литературным произведениям и на экранизации: часто появляется эффект обманутого ожидания, когда визуальное воплощение не соответствует представлениям реципиентов. Иллюстрирование незнакомого реципиентам текста должно привести к формированию зрительных образов, предлагаемых художником.

В-третьих (и это особенно важно), иллюстрирование является по сути попыткой переструктурирования образа содержания вербального текста. Использование параметров изображения, обладающих объемным содержанием (например, мажорной или минорной цветовой гаммы) и, следовательно, большим воздейственным потенциалом, существенно усиливает эффект от восприятия вербального текста. Поэтому вопрос иллюстрирования вербальных текстов должен рассматриваться с точки зрения целесообразности изменения их содержания.

В-четвертых, нужно учитывать тот факт, что создание текстов для массовой коммуникации имеет прагматические цели. В социальной психологии различают два пути изменения установок людей: центральный и периферийный. Центральный путь это убеждение, а периферийный ассоциирование вопроса или объекта установки с позитивными или негативными признаками. И если целью создания вербального текста является изменениеустановок реципиентов по центральному пути, то иллюстрирование это один из вариантов периферийного пути, осуществляющийся в условиях некритичности со стороны реципиентов . В случае, когда информация, получаемая из иллюстрации (и оказывающая воздействие, не осознаваемое реципиентами), значительно расходится (или противоречит) с содержанием вербального текста есть все основания предполагать попытку манипулирования восприятием информации со стороны создателей КТ.

Литературе

креолизованный текст информация визуализация

1. Вашунина И.В. Взаимодействие визуальных и вербальных составляющих при восприятии креолизованного текста. Нижний Новгород, 2007.

2. Выготский Л.С. Психология искусства. М., 1987.

3. Кубрякова Е.С. и др. Краткий словарь когнитивных терминов. М., 1996.

4. Кубрякова Е.С. Язык и знание. На пути получения знаний о языке: части речи с когнитивной точки зрения. Роль языка в познании мира. М., 2004.

5. Леонтьев А.Н. Деятельность. Сознание. Личность. М., 1975.

6. Тарасов Е.Ф. Роль эмоционально-эстетической организации речевого сообщения в массовой коммуникации // Эмоциональное воздействие массовой коммуникации. М., 1978..

Размещено на Allbest.ru

Подобные документы

    Сущность, виды, свойства, эффекты восприятия. Функции и особенности зрительного восприятия. Проведение исследования среди студентов для выявления особенностей восприятия агрессивных стимулов в зависимости от предоставленной информации, анализ результатов.

    курсовая работа , добавлен 18.03.2015

    Общее представление о восприятии. Развитие восприятия в дошкольном возрасте (5-6 лет). Выявление способностей ребенка к целостному восприятию формы предметов, состояния его графических навыков, способности осуществлять асимметричные изображения.

    курсовая работа , добавлен 19.02.2011

    Психологический анализ когнитивных процессов чтения текста: проблема взаимосвязи восприятия и понимания учениками иноязычного текста. Исследования движений глаз при чтении сложных текстов. Влияние билингвизма на развитие ВПФ: нейропсихологический анализ.

    реферат , добавлен 18.03.2010

    Основные психические процессы. Отражение свойств предметов и явлений материального мира. Теории, объясняющие природу ощущений человека. Основные свойства представления. Общая характеристика восприятия. Соотношение ощущений, восприятия и представлений.

    реферат , добавлен 30.11.2015

    Качество жизни как компонент современной науки. Психологические аспекты восприятия компонентов качества жизни. Целостные субъективно-оценочные составляющие качества жизни. Анализ исследования восприятия качества жизни населением Астраханской области.

    дипломная работа , добавлен 08.11.2011

    Анализ оперативно-служебной деятельности пограничной службы Российской Федерации. Особенности развития константности восприятия у пограничников. Наблюдение как наиболее развитая форма преднамеренного восприятия. Основные упражнения по развитию восприятия.

    курсовая работа , добавлен 02.08.2012

    Подходы отечественных и зарубежных учёных-психологов к изучению зрительного восприятия и пространственного мышления у детей. Результаты экспериментального исследования развития зрительного восприятия и пространственного мышления у младших школьников.

    реферат , добавлен 13.10.2015

    Представление о времени в разных научных концепциях. Психологическая характеристика детей младшего школьного возраста. Методики экспериментального исследования звисимости представления о времени у младших школьников от преобладающего типа мышления.

    дипломная работа , добавлен 01.10.2011

    Проблема позитивного развития личности и формирования позитивного восприятия мира у современных школьников. Позитивные личностные качества и их взаимосвязи с ценностными ориентациями личности подростка. Гендерные особенности развития их качеств.

    дипломная работа , добавлен 16.06.2017

    Изучение ощущения и восприятия как отражения в сознании свойств и качеств предметов или явлений. Внимание как сосредоточенность сознания человека на определенных видах деятельности. Процесс воображения и мышления. Значение памяти и речи для человека.

С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений DM - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.

Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Традиционные методы визуализации могут находить следующее применение:

представлять пользователю информацию в наглядном виде;

компактно описывать закономерности, присущие исходному набору данных;

снижать размерность или сжимать информацию;

восстанавливать пробелы в наборе данных;

находить шумы и выбросы в наборе данных.

Методы визуализации

Методы визуализации, в зависимости от количества используемых измерений, принято

классифицировать на две группы :

представление данных в одном, двух и трех измерениях;

представление данных в четырех и более измерениях.

Представление данных в 4 + измерениях

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.

Наиболее известные способы многомерного представления информации:

параллельные координаты;

"лица Чернова";

лепестковые диаграммы.

Представление пространственных характеристик

Отдельным направлением визуализации является наглядное представление

пространственных характеристик объектов. В большинстве случаев такие средства выделяют на карте отдельные регионы и обозначают их различными цветами в зависимости от значения анализируемого показателя.



Карта представлена в видеграфического интерфейса, отображающего данные в виде трехмерного ландшафтапроизвольно определенных и позиционированных форм (столбчатых диаграмм, каждая синдивидуальными высотой и цветом). Такой способ позволяет наглядно показыватьколичественные и реляционные характеристики пространственно-ориентированных

данных и быстро идентифицировать в них тренды.

Процесс Data Mining. Анализ предметной области. Постановка задачи. Подготовка данных.

Процесс Data Mining. Начальные этапы

Процесс DM является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.

Процесс DM неразрывно связан с процессом принятия решений.

Процесс DM строит модель, а в процессе принятия решений эта модель эксплуатируется.

Рассмотрим традиционный процесс DM. Он включает следующие этапы:

анализ предметной области;

постановка задачи;

подготовка данных;

построение моделей;

проверка и оценка моделей;

выбор модели;

применение модели;

коррекция и обновление модели.

В этой лекции мы подробно рассмотрим первые три этапа процесса Data Mining,

остальные этапы будут рассмотрены в следующей лекции.

Этап 1. Анализ предметной области

Исследование - это процесс познания определенной предметной области, объекта или явления с определенной целью.

Процесс исследования заключается в наблюдении свойств объектов с целью выявления и оценки важных, с точки зрения субъекта-исследователя, закономерных отношений между показателями данных свойств.

Решение любой задачи в сфере разработки программного обеспечения должно начинаться с изучения предметной области.

Предметная область - это мысленно ограниченная область реальной действительности, подлежащая описанию или моделированию и исследованию.

Предметная область состоит из объектов, различаемых по свойствам и находящихся в определенных отношениях между собой или взаимодействующих каким-либо образом.

Предметная область - это часть реального мира, она бесконечна и содержит как

существенные, так и не значащие данные, с точки зрения проводимого исследования.

Исследователю необходимо уметь выделить существенную их часть. Например, при решении задачи "Выдавать ли кредит?" важными являются все данные про частную жизнь клиента, вплоть до того, имеет ли работу супруг, есть ли у клиента несовершеннолетние дети, каков уровень его образования и т.д. Для решения другой задачи банковской деятельности эти данные будут абсолютно неважны. Существенность данных, таким образом, зависит от выбора предметной области.

"Говорят, один рисунок стоит тысячи слов, и это действительно так, но при условии, что рисунок хороший." Боумена

С возрастанием количества накапливаемых данных, даже при использовании сколь угодно мощных и разносторонних алгоритмов Data Mining, становится все сложнее "переваривать" и интерпретировать полученные результаты. А, как известно, одно из положений Data Mining - поиск практически полезных закономерностей. Закономерность может стать практически полезной, только если ее можно осмыслить и понять.

В 1987 году по инициативе ACM SIGGRAPH IEEE Computer Society Technical Committee of Computer Graphics, в связи с необходимостью использования новых методов, средств и технологий данных, были сформулированы соответствующие задачи направления визуализации.

К способам визуального или графического представления данных относят графики, диаграммы, таблицы, отчеты, списки, структурные схемы, карты и т.д.

Визуализация традиционно рассматривалась как вспомогательное средство при анализе данных, однако сейчас все больше исследований говорит о ее самостоятельной роли.

Традиционные методы визуализации могут находить следующее применение:

представлять пользователю информацию в наглядном виде;

компактно описывать закономерности, присущие исходному набору данных;

снижать размерность или сжимать информацию;

восстанавливать пробелы в наборе данных;

находить шумы и выбросы в наборе данных.

Визуализация инструментов Data Mining

Каждый из алгоритмов Data Mining использует определенный подход к визуализации. В предыдущих лекциях мы рассмотрели ряд методов Data Mining. В ходе использования каждого из методов, а точнее, его программной реализации, мы получали некие визуализаторы, при помощи которых нам удавалось интерпретировать результаты, полученные в результате работы соответствующих методов и алгоритмов.

Для деревьев решений это визуализатор дерева решений, список правил, таблица сопряженности.

Для нейронных сетей в зависимости от инструмента это может быть топология сети, график изменения величины ошибки, демонстрирующий процесс обучения.

Для карт Кохонена: карты входов, выходов, другие специфические карты.

Для линейной регрессии в качестве визуализатора выступает линия регрессии.

Для кластеризации: дендрограммы, диаграммы рассеивания.

Диаграммы и графики рассеивания часто используются для оценки качества работы того или иного метода.

Все эти способы визуального представления или отображения данных могут выполнять одну из функций:

являются иллюстрацией построения модели (например, представление структуры (графа) нейронной сети);

помогают интерпретировать полученный результат;

являются средством оценки качества построенной модели;

сочетают перечисленные выше функции (дерево решений, дендрограмма).

Визуализация Data Mining моделей

Первая функция (иллюстрация построения модели), по сути, является визуализацией Data Mining модели. Существует много различных способов представления моделей, но графическое ее представление дает пользователю максимальную "ценность". Пользователь, в большинстве случаев, не является специалистом в моделировании, чаще всего он эксперт в своей предметной области. Поэтому модель Data Mining должна быть представлена на наиболее естественном для него языке или, хотя бы, содержать минимальное количество различных математических и технических элементов.

Таким образом, доступность является одной из основных характеристик модели Data Mining. Несмотря на это, существует и такой распространенный и наиболее простой способ представления модели, как "черный ящик". В этом случае пользователь не понимает поведения той модели, которой пользуется. Однако, несмотря на непонимание, он получает результат - выявленные закономерности. Классическим примером такой модели является модель нейронной сети.

Другой способ представления модели - представление ее в интуитивном, понятном виде. В этом случае пользователь действительно может понимать то, что происходит "внутри" модели. Таким образом, можно обеспечить его непосредственное участие в процессе.

Такие модели обеспечивают пользователю возможность обсуждать ее логику с коллегами, клиентами и другими пользователями, или объяснять ее.

Понимание модели ведет к пониманию ее содержания. В результате понимания возрастает доверие к модели. Классическим примером является дерево решений. Построенное дерево решений действительно улучшает понимание модели, т.е. используемого инструмента Data Mining.

Кроме понимания, такие модели обеспечивают пользователя возможностью взаимодействовать с моделью, задавать ей вопросы и получать ответы. Примером такого взаимодействия является средство "что, если". При помощи диалога "системапользователь" пользователь может получить понимание модели.

Теперь перейдем к функциям, которые помогают интерпретировать и оценить результаты построения Data Mining моделей. Это всевозможные графики, диаграммы, таблицы, списки и т.д.

Примерами средств визуализации, при помощи которых можно оценить качество модели, являются диаграмма рассеивания, таблица сопряженности, график изменения величины ошибки.

Диаграмма рассеивания представляет собой график отклонения значений, прогнозируемых при помощи модели, от реальных. Эти диаграммы используют для непрерывных величин. Визуальная оценка качества построенной модели возможна только по окончанию процесса построения модели.

Таблица сопряженности используется для оценки результатов классификации. Такие таблицы применяются для различных методов классификации. Они уже использовались нами в предыдущих лекциях. Оценка качества построенной модели возможно только по окончанию процесса построения модели.

График изменения величины ошибки . График демонстрирует изменение величины ошибки в процессе работы модели. Например, в процессе работы нейронных сетей пользователь может наблюдать за изменением ошибки на обучающем и тестовом множествах и остановить обучение для недопущения "переобучения" сети. Здесь оценка качества модели и его изменения может оцениваться непосредственно в процессе построения модели.

Примерами средств визуализации, которые помогают интерпретировать результат, являются: линия тренда в линейной регрессии, карты Кохонена, диаграмма рассеивания в кластерном анализе.

Методы визуализации

Методы визуализации, в зависимости от количества используемых измерений, принято классифицировать на две группы :

представление данных в одном, двух и трех измерениях;

представление данных в четырех и более измерениях.

Представление данных в одном, двух и трех измерениях

К этой группе методов относятся хорошо известные способы отображения информации, которые доступны для восприятия человеческим воображением. Практически любой современный инструмент Data Mining включает способы визуального представления из этой группы.

В соответствии с количеством измерений представления это могут быть следующие способы:

одномерное (univariate) измерение, или 1-D;

двумерное (bivariate) измерение, или 2-D;

трехмерное или проекционное (projection) измерение, или 3-D.

Следует заметить, что наиболее естественно человеческий глаз воспринимает двухмерные представления информации.

При использовании двух- и трехмерного представления информации пользователь имеет возможность увидеть закономерности набора данных:

его кластерную структуру и распределение объектов на классы (например, на диаграмме рассеивания);

топологические особенности;

наличие трендов;

информацию о взаимном расположении данных;

существование других зависимостей, присущих исследуемому набору данных.

Если набор данных имеет более трех измерений, то возможны такие варианты:

использование многомерных методов представления информации (они рассмотрены ниже);

снижение размерности до одно-, двухили трехмерного представления. Существуют различные способы снижения размерности, один из них - факторный анализ - был рассмотрен в одной из предыдущих лекций. Для снижения размерности и одновременного визуального представления информации на двумерной карте используются самоорганизующиеся карты Кохонена.

Представление данных в 4 + измерениях

Представления информации в четырехмерном и более измерениях недоступны для человеческого восприятия. Однако разработаны специальные методы для возможности отображения и восприятия человеком такой информации.

Наиболее известные способы многомерного представления информации:

параллельные координаты;

∙ "лица Чернова";

лепестковые диаграммы.

Параллельные координаты

В параллельных координатах переменные кодируются по горизонтали, вертикальная линия определяет значение переменной. Пример набора данных, представленного в декартовых координатах и параллельных координатах, дан на рис. 16.1 . Этот метод представления многомерных данных был изобретен Альфредом Инселбергом (Alfred Inselberg) в 1985 году.

Данная статья написана представителем компании DevExpress и опубликована в блоге на ХабраХабре.

Медицинские исследователи установили, что если в инструкции к лекарству находится только текст, человек усваивает из нее лишь 70% информации. Если же в инструкцию добавить картинки, человек усвоит уже 95%.

Очевидно, что человек предрасположен обрабатывать именно визуальную информацию. Помимо прекрасной обработки нашим мозгом, визуализация данных имеет несколько преимуществ:

  • Акцентирование внимания на разных аспектах данных


С помощью графиков можно легко обратить внимание читателя на красные показатели.

  • Анализ большого набора данных со сложной структурой
  • Уменьшение информационной перегрузки человека и удерживание его внимания
  • Однозначность и ясность выводимых данных
  • Выделение взаимосвязей и отношений, содержащихся в информации


На графике легко можно заметить важные данные.

Эстетическая привлекательность


Эстетически привлекательные графики делают подачу данных эффектной и запоминающейся.

Эдвард Тафти, автор одних из лучших книг по визуализации, описывает ее как инструмент для показа данных; побуждения зрителя задуматься о сути, а не методологии; избежания искажения того, что должны сказать данные; отображения многих чисел на небольшом пространстве; показа большого набора данных связным и единым целым; побуждения зрителя сравнивать фрагменты данных; служения достаточно четким целям: описанию, исследованию, упорядочиванию или украшению ().

Как правильно использовать визуализацию данных?

Успех визуализации напрямую зависит от правильности ее применения, а именно от выбора типа графика, его верного использования и оформления.


60% успеха визуализации зависит от выбора типа графика, 30% - от его правильного использования и 10% - от его верного оформления.

Правильный тип графика

График позволяет выразить идею, которую несут данные, наиболее полно и точно, поэтому очень важно выбрать подходящий тип диаграммы. Выбор можно осуществить по алгоритму:

Цели визуализации - это реализация основной идеи информации, это то, ради чего нужно показать выбранные данные, какого эффекта нужно добиться - выявления отношений в информации, показа распределения данных, композиции или сравнения данных.


В первом ряду показаны графики с целями показа отношений на данных и распределения данных, а во втором ряду целями являются показ композиции и сравнения данных.

Отношения в данных - это то, как они зависят друг от друга, связь между ними. С помощью отношений можно выявить наличие или отсутствие зависимостей между переменными. Если основная идея информации содержит фразы «относится к», «снижается/повышается при», то нужно стремиться показать именно отношения в данных.
Распределение данных - то, как они располагаются относительно чего-либо, сколько объектов попадает в определенные последовательные области числовых значений. Основная идея при этом будет содержать фразы «в диапазоне от x до y», «концентрация», «частотность», «распределение».

Композиция данных - объединение данных с целью анализа общей картины в целом, сравнения компонентов, составляющих процент от некоего целого. Ключевыми фразами для композиции являются «составило x%», «доля», «процент от целого».

Сравнение данных - объединение данных, с целью сравнения некоторых показателей, выявление того, как объекты соотносятся друг с другом. Также это сравнение компонентов, изменяющихся с течением времени. Ключевые фразы для идеи при сравнении - «больше/меньше чем», «равно», «изменяется», «повышается/понижается».

После определения цели визуализации требуется определить тип данных. Они могут по своему типу и структуре быть очень разнородными, но в самом простом случае выделяют непрерывные числовые и временные данные, дискретные данные, географические и логические данные. Непрерывные числовые данные содержат в себе информацию зависимости одной числовой величины от другой, например графики функций, такой как y=2x. Непрерывные временные содержат в себе данные о событиях, происходящих на каком-либо промежутке времени, как график температуры, измеряемой каждый день. Дискретные данные могут содержать в себе зависимости категорийных величин, например график количества продаж товаров в разных магазинах. Географические данные содержат в себе различную информацию, связанную с местоположением, геологией и другими географическими показателями, яркий пример - это обычная географическая карта. Логические данные показывают логическое расположение компонентов относительно друг друга, например генеалогическое древо семьи.


Графики непрерывных числовых и временных данных, дискретных данных, географических и логических данных.

В зависимости от цели и данных можно выбрать наиболее подходящий им график. Лучше всего избегать разнообразия ради разнообразия и выбирать по принципу «чем проще, тем лучше». Только для специфичных данных использовать специфичные типы диаграмм, в остальных же случаях хорошо подойдут самые распространенные графики:

  • линейный (line)
  • с областями (area)
  • колонки и гистограммы (bar)
  • круговая диаграмма (pie, doughnut)
  • полярный график (radar)
  • точечный график (scatter, bubble)
  • карты (map)
  • деревья (tree, mental map, tree map)
  • временные диаграммы (time line, gantt, waterfall).

Линейные диаграммы, графики с областями и гистограммы могут содержать в одном аргументе для одной категории несколько значений, которые могут быть как абсолютными (тогда к таким видам графикам прибавляется приставка stacked), так и относительными (full stacked).


График со stacked значениями и с full stacked

При выборе подходящего графика можно руководствоваться следующей таблицей, составленной на основе этой диаграммы и :


Правильное использование графика

Важно не только верно выбрать тип графика, но и правильно его использовать:

  • Не нужно нагружать график большим количеством информации. Оптимальное количество разных типов данных, категорий - это не более 4-5, иначе же целесообразнее разделить такую диаграмму на несколько штук.


Такой график можно сравнить со спагетти и лучше разделить на несколько диаграмм.

Верно выбрать шкалу и ее масштаб для графика. Для гистограмм и графиков с областями предпочтительнее начинать шкалу значений с нуля. Постараться не использовать инвертированные шкалы - это очень часто вводит зрителя в заблуждение относительно данных.


Неверная шкала отрицательно влияет на восприятие данных. В первом случае некорректно выбран масштаб, во втором шкала инвертирована.

  • Для круговых диаграмм и графиков, где показан процент от общей доли, сумма значений всегда должна составлять 100%.
  • Для лучшего восприятия данных информацию на оси лучше упорядочить - либо по значениям, либо по алфавиту, либо по логическому смыслу.

Правильное оформление графика

Ничто так не радует глаз, как правильно оформленные графики, и ничто так не портит диаграммы, как наличие графического «мусора». Основные принципы оформления:

  • использовать палитры похожих, не ярких цветов, и постараться ограничиться набором из шести штук
  • вспомогательные и второстепенные линии должны быть простыми и не бросающимися в глаза


Вспомогательные линии на графике не должны отвлекать внимание от основной идеи данных.

  • там, где возможно, использовать только горизонтальные надписи на осях;
  • для графиков с областями предпочтительнее использовать цвет с прозрачностью;
  • для каждой категории на графике использовать свой цвет.

Выводы

Визуализация - мощный инструмент донесения мыслей и идей до конечного потребителя, помощник для восприятия и анализа данных. Но как и все инструменты, ее нужно применять в свое время и в своем месте. В противном случае информация может восприниматься медленно, а то и некорректно.


На графиках изображены одни и те же данные, слева показаны основные ошибки визуализации, а справа они исправлены.

При умелом применении визуализация данных позволяет сделать материал впечатляющим, нескучным и запоминающимся.