НОВАЯ БУКВА |
« Назад | Модели |
Вперёд » |
УДК 81.352
УДК 612.08 ?
Цель работы:
Предложить способ численной оценки визуальной схожести/различия пары символов.
Численно оценить сходство и удобство использования нового символа Ё/ё с актуальным символом буквы Ё/ё и буквой Е/е.
Предлагаемый подход:
Сегодня мы не умеем детально отслеживать и описывать процессы анализа и распознания графических образов нашим мозгом. Однако, сам исследователь естественным образом может понять, как его глаз воспринимает, а мозг оценивает символ, который он видит. Таким образом можно утверждать, что человеческий мозг — это классический чёрный ящик. А значит, достаточно полное описание входов и выходов этого чёрного ящика решит проблему.
Признаковая модель символа
Признаковое описание объекта (англ. feature vector) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.
(материалы Wikibedia. Признаковое описание.)
Признаковое описание, это понятие из сферы машинного зрения. Однако, практика использования искусственных нейронных сетей и доказанное их подобие естественным нейронным сетям нашего головного мозга позволяет распространить это понятие и на работу человеческого зрения. "Исследование и классификация методов распознавания изображений в системах компьютерного зрения." - Гриценко Ар.В., Дорошенко Н.С. [4]
Отчасти эффективность использования признакового описания при восприятии моделируемых символов человеком подтверждает успешное применение сегментированных цифровых индикаторов на протяжении десятков лет в разных сферах.
Определения:
Введём понятие графический признак — это некоторая графическая форма или заметное изменение формы в символе, фиксируемое глазом наблюдателя при наблюдении символа.
Графическое представление состоит из графических признаков.
Графические признаки делятся на значимые и незначимые.
Графический признак называется значимым (далее признак), если его наличие либо отсутствие может существенно повлиять на общее восприятие символа наблюдателем.
Графический признак, который не является значимым — называется незначимым.
Признаковая модель (далее модель) — это совокупность значимых признаков, достаточная для надёжного узнавания символа, даже если в графическом представлении символа были опущены все остальные элементы.
1. Рамка символа
Рамка символа — это условная граница, ограничивающая область расположения всех значимых признаков символа. Рамка так-же определяет разделение этой области на под-области.
Место положения признака определяется его расположением относительно рамки символа. Автор выделяет четыре возможные рамки символов в зависимости от их размеров и положения относительно базовой линии строки текста. Вот возможные рамки символов для букв русского языка:
Здесь а, б, в, г, д — под-области в передлах рамки символа.
Гипотеза: для узнавания буквы достаточно, чтобы её символ имел все входящие в его признаковую модель признаки и чтобы каждый признак был расположен на правильном месте относительно рамки символа.
Рассмотрим эти рамки подробнее:
1. В русском алфавите есть обособленное написание заглавных и строчных букв. Для заглавных букв характерна «двухэтажная» компоновка их значимых признаков, когда часть буквы располагается на одном уровне со строчными буквами, а часть вынесена выше. Часто разделение на верхнюю и нижнюю часть отражена в графике буквы. Например:
Замена одной из половин приводит к полному изменению восприятия символа. Например — сравните буквы:
2. Так же среди заглавных букв выделяются «широкие» буквы, графически разделяющиеся на левую и правую часть. Например:
3. Строчные буквы делятся на три группы. Часть из них имеют начертание, не похожее на заглавную букву. При этом все значимые признаки символа буквы располагаются в пределах высоты строки. Например:
4. Другая группа строчных букв отличается выносом части признаков выше или ниже основной области расположения буквы. Например:
5. Остальные строчные буквы выглядят как уменьшенные версии заглавных букв и могут рассматриваться совместно с заглавными. Например:
Далее такие буквы будут рассматриваться только в заглавной версии начертания.
Для обобщения метода, в дальнейшем предлагается использовать следующую обобщённую рамку:
2. Признаки
Теперь разберёмся с значимыми признаками и их имитацией при моделировании букв русского языка.
Символика должна быть хорошо различима и по визуальным свойствам подобна символизируемым ею признакам.
2.1 Контурные признаки
Отрезки
Самыми распространёнными значимыми признаками являются горизонтальные, вертикальные отрезки и диагонали.
На модели они будут показаны как определённым образом расположенные и ориентированные отрезки.
Отдельно можно выделить короткие (в половину высоты заглавной буквы или ширины широкой буквы) и длинные (во всю высоту заглавной буквы или ширину широкой буквы). Например буква «Н» состоит из двух длинных вертикальных и одного короткого горизонтального отрезка.
1. короткие горизонтальные отрезки
2. короткие вертикальные отрезки
3. короткие диагональные отрезки
4. длинные горизонтальные отрезки
5. длинные вертикальные отрезки
6. длинные диагональные отрезки
Дуги
Так же в ряде букв присутствуют значимые признаки — дуги. Например в буквах:
На модели они будут показаны как определённым образом расположенные и ориентированные фрагменты дуг небольшой кривизны.
Так же будем различать короткие и длинные дуги.
7. короткие дуги
8. длинные дуги
9. наклонные дуги
2.2 Угловые признаки
Экспериментально установлено, что все эти признаки можно расположить по углам предложеной рамки символа.
Признаки-зацепки
Заметную роль при восприятии буквы играют «признаки-зацепки». Конкретная графическая форма подобных признаков не важна — это та или иная неоднородность при начертании буквы, которая помогает глазу её опознать. Роль таких признаков могут играть например засечки в шрифтах с засечками, а так же концы выступающих отрезков, и прямые углы в шрифтах без засечек. Например засечки у букв:
Или выступающие концы вертикального отрезка сверху и снизу у строчной буквы «ф»:
У прописной буквы «Ф» сверху выступающий конец может быть с засечкой, без засечки или отсутствовать вообще. Это не мешает восприятию буквы:
Однако полное отсутствие выступов и засечек и сверху и снизу существенно затруднит узнавание символа, что подтверждает существенную роль признаков этого типа при восприятии символа:
Конкретная форма признаков-зацепок значения не имеет, поэтому обозначим их хорошо заметными на белом фоне чёрными квадратиками. Место расположения этих признаков может меняться в зависимости от особенностей начертания символа. Тем не менее, примерное место их расположения так же можно привязать к рамке.
10. примерное место расположения признаков-зацепок
Признаки-пустышки
В чём разница между буквами «П» и «О»?
Казалось бы — глупый вопрос. Но нет. И та и другая буква рисуется как рамка. И та и другая буква очерчивает область по периметру. Разница между ними в том что у буквы «П» есть заметные прямые углы и концы отрезков снизу. Более того, в шрифтах с засечками именно эти места подчёркиваются с помощью засечек. А у буквы «О» нет никаких зацепок для глаза — просто ровный и гладкий кружок.
Но воспринимаем ли мы букву «О» как кружок? Ответ на этот вопрос может дать изображение этой буквы в современных шрифтах. В ней всегда, толщиной ли, изменением кривизны ли, дополнительными художественными эффектами ли, но подчёркиваются по отдельности вертикальные и горизонтальные составляющие контура буквы. Конечно же есть шрифты, где буква «О» изображается как ровный кружок. Но… они не популярны. Возможно их просто неудобно читать?
Скорее всего дело не в графике буквы, а в особенности работы нашего зрения. Так или иначе, но глазу удобно воспринимать букву «О» не как идеальный кружок, а как овал с выделенным направлением вертикали. Или как прямоугольник со скруглёнными углами. И именно этот факт был отражён в не совсем круглой форме буквы «О» в современных шрифтах.
Горизонтальный, вертикальные и диагональные направления мы уже можем представлять в виде отрезков и дуг. А как быть с переходами от одного элемента к другому?
Для представления прямых углов и концов отрезков у нас уже есть «признак-зацепка».
В противовес им, для представления гладких, плавных, скруглённых переходов будем использовать «признак-пустышку» — незаполненный промежуток между дугами или отрезками, по ширине близкий к размерам признака-зацепки, но пустой.
Вот пример использования признака-пустышки для буквы «О» и признака-зацепки для буквы «П»:
Для буквы «О» показаны сразу два варианта признакового описания. Первый в большей степени соответствует прямоугольной форме буквы со скруглёнными углами. Второй — это буква, нарисованная как гладкий овал.
2.3 Площадные признаки
Составные значимые признаки — круги
Так же в графике русских букв отчётливо выделяются составные значимые признаки — круги. Эти признаки составляются из нескольких простых признаков — отрезков и дуг, визуально связанных между собой признаками-зацепками или признаками-пустышками. Например в этих буквах:
Эти контурные признаки, будучи независимыми, совместно воспринимаются как замкнутая окружность, даже если часть из них являются не дугами, а прямыми отрезками и в составе контура есть прямые углы. Например в буквах:
Более того, даже значительное изменение формы и пропорций контуров не мешает воспринимать их как эквивалентные по значению признаки-круги. Например в букве «Ф» — значительное изменение пропорций кругов не мешает воспринимать эти символы, как разные способы начертания одной и той же буквы:
Таким образом, автор выделяет ещё одну категорию значимых признаков — круги.
11. маленькие круги, в том числе круг для нижних петелек
12. большие круги
2.4 Локальные признаки
Такие признаки жёстко локализованы в пределах небольшой области. Часто они могут иметь собственное значение, играя роль под-символа в составе буквы.
Признаки «штрихи»
Особое место занимают признаки «штрихи». Графически они подобны засечкам в шрифтах с засечками, но при этом наличие этих признаков является обязательным.
Это короткие вертикальные штрихи снизу по бокам у заглавной буквы «Д» и такие же штрихи снизу справа у букв «Щ» и «Ц»:
13. признаки «штрихи»
Диакритические знаки
Так же роль важных значимых признаков играют диакритические знаки «бреве» у буквы «Й» и «две точки» у буквы «Ё»:
Редкость использования и особая, заметная графическая форма и положение диакритических знаков приводит к тому, что для русскоязычного читателя их наличие может полностью изменить восприятие буквы.
Даже не зная язык и истинное звучание символа, опробуйте вслух прочитать следующие пары букв:
Теперь повторите эксперимент с этими парами букв:
В первом случае, наличие диакритического знака бреве заставляет нас в соответствии с выработанной привычкой сокращать звучание. Во втором, наличие пары точек заставляет любого русскоязычного читателя произносить соответствующий основной букве звук, вытягивая его и смешивая с другим гласным звуком: <и>, <е> или <о>.
Для этих признаков будет использована дополнительная символика.
14. знак бреве
15. две точки
2.5 Полный набор значимых признаков
Так выглядит полный набор перечисленных значимых признаков, размещённых на рамке:
3. Проверка эффективности предложенных признаков
Предположим, что предложенных значимых признаков достаточно для моделирования букв русского алфавита. При этом глаз зрителя будет сам ориентироваться прежде всего на факт наличия значимого признака в положенном месте. В частности, на восприятие не должен влиять цвет обозначения признака, а только его форма, положение и заметность на белом фоне.
Попробуем применить предложенные значимые признаки для моделирования букв русского алфавита.
Буква А, а
Буква Б, б
Буква Е, е
Буква Щ, щ
Буква Ю, ю
Полные данные моделирования см. в приложении:
открыть в новой вкладке
Как можно видеть, модели букв легко воспринимаются на глаз и опознаются как соответствующие символы русского алфавита.
Значит, предложенная признаковая модель позволяет графически смоделировать любую букву русского алфавита.
4. Дистанция между моделями букв
Введём понятие дистанции между моделями букв.
Дистанция между моделями пары букв равна сумме весов изменений признаков, расположенных на одинаковых местах в рамке модели двух букв. Если для букв есть больше чем по одному варианту моделей — надо брать минимальное значение дистанции для пары моделей букв.
Дистанции между признаками
Контурные признаки:
Дистанция между признаком «отрезок» и признаком «дуга» равна 0.5, поскольку оба признака говорят о заполнении участка контура буквы, но воспринимаются по-разному.
Третья строка/столбец таблицы соответствует случаю, когда горизонтальному отрезку на одной модели соответствует диагональный отрезок на другой, если по общему восприятию буквы понятно, что они представляют эквивалентные участки двух букв.
Угловые признаки:
Площадные признаки:
Локальные признаки:
В русском алфавите нет букв, отличающихся только диакритическими знаками, поэтому вариант с разными признаками в сравниваемых буквах не рассматривается.
Признаки-штрихи все выглядят одинаково. По ним подобное сравнение так-же не имеет смысла.
Вес 1.5 для разницы по диакритическим знаками отражает их повышенное влияние на восприятие буквы.
Признаки-штрихи так-же хорошо заметны засчёт того что выступают за базовую линию строки. Поэтому, распространим повышенный вес и на них.
Сравнение признаковых моделей актуальной буквы «Ё», новой буквы «Ё» и буквы «Е»
Рассмотрим признаковую модель буквы «Е»:
Такое разнообразие начертаний буквы «Е» связано с пренебрежительным отношением к одной из её особеностей — петельке в верхней части буквы. Это обусловлено историей формирования символа.
В изначальной версии буквы петельки не было. Классическая версия буквы (вариант 1) — это три горизонтальных отрезка и объединяющая их вертикальная черта.
Второй вариант заглавной буквы — это её естественная модификация при быстром рукописном начертании.
В уменьшенном, строчном варианте буквы, для экономии места по высоте, горизонтальные штрихи рисуются в другом порядке — сначала средний, а потом верхний и нижний, причём движения по горизонтали делаются попеременно вправо-влево-вправо. В результате получается петелька.
Поскольку петелька стала, по сути, побочным эффектом уплотнённого рисования строчной буквы, её форма, наклон и размеры могут варьироваться в большом диапазоне. Чаще всего петелька рисуется суженной, заострённой и в той или иной степени наклонной по отношению к горизонтали.
Теперь рассмотрим букву «Ё»:
Буква «Ё» отличается от буквы «Е» только двумя точками сверху. Все приведённые модели начертания легко опознаются на глаз, а значит моделирование этой буквы так-же можно считать корректным.
Для любой пары моделей букв «Ё» и «Е» дистанция равна 1.5, потому что единственным отличием между ними будет диакритический знак «две точки».
Рассмотрим новую букву «Ё» и сравним её с актуальной версией буквы «Ё»
Дистанции между разными вариантами моделей букв:
Вторая версия модели новой буквы отличается от третей модели актуальной буквы на 1.5:
• 1 — слева, сверху добавлен признак-зацепка;
• 0.5 — в нижней части петельки прямой горизонтальный отрезок изменился на дугу.
Теперь сравним новую букву «Ё» с буквой «Е»
Дистанции между разными вариантами моделей букв:
Минимальное расстояние, между третей моделью буквы «Е» и второй моделью буквы «Ё», равно 3. Это значение в два раза больше чем расстояние между буквой «Е» и актуальной версией буквы «Ё».
Выводы
Таким образом мы доказали, что:
• Во-первых, новое начертание буквы «Ё» визуально незначительно отличается от актуального начертания «Ё». Это позволит любому русскоязычному читателю без предварительной подготовки распознать их сходство и быстро освоить применение нового символа.
• Во-вторых, новое начертание буквы «Ё» существенно отличается от буквы «Е», что приведёт к уменьшению риска подмены букв — подобное поведение будет выглядеть безграмотным и потому неприемлемым.
Заключение
В заключение хочу отметить, что исследование направлено на индивидуальное восприятие графики букв человеком.
Зрение и восприятие образов — это индивидуальная способность и может варьироваться у разных людей. Однако, существование устоявшихся практик записи слов с помощью знаков/букв, свидетельствует о возможности не только обобщать статистически проверенные наблюдения, но и в какой-то степени распространять единичные наблюдения на всех людей.
Тем не менее, все материалы исследования представлены в тексте статьи. Каждый читатель может самостоятельно пройти весь путь анализа по этой статье и сделать выводы для себя.
« Назад | Модели |
Вперёд » |