2009 15 июня

ЕГЭ изнутри (глазами админа)

Злободневная тема, много топиков и на хабре (вот и вот)

Совершенно не собираюсь останавливаться на законности эксперимента, содержании КИМ (контрольно измерительных материалов) и прочем. Постараюсь сконцентрироваться непосредственно на технологическом аспекте подготовки и проведения экзамена. Почему мне можно верить – опыт работы 2004-2007 в РЦОИ Московской области (системное администрирование, сбор данных, координация с разработчиками и регионами, проведение обучений, консультации и прочее). Все это время мы работали по технологии КРОК (см. ниже), в 2009 года технология изменилась в приказном порядке на ЦТ. Итак, по порядку

Ссылка на кросспост хабра

Технологии

До недавнего времени были две технологии организации и проведения ЕГЭ: Федеральный Центр Тестирования (далее ЦТ, www.rustest.ru) и КРОК (ЗАО КРОК www.croc.ru, далее просто КРОК).
Технологии различаются принципиально. Я максимально подробно остановлюсь на технологии КРОК и в конце укажу моменты, почему это было лучше, нежели ЦТ (личное профессиональное мнение мое, коллег и руководства).
КРОК – MS SQL 2000 в качестве сервера баз данных и WIN 2000 (2003) в качестве сервера приложений. Сервера разнесены по разным машинам, на WIN 2000 стоял дополнительно AD для внутренней локальной сети.
На сервере приложений стоит серверная часть программного комплекса (далее АИС), на клиентских машинах соответственно клиентская часть, пользователь логинится через AD в домен, работа через интерфейс браузера (обязательно IE6). По правилам безопасности никакое другое ПО на клиента ставить нельзя (я ставил еще офис, rar и radmin – запароленные и только для группы администраторов). Весь софт 100% лицензионный (винды, офисы, серверные программы и подобное).
В качестве дополнения по комментариям по объемам на дисках: 7 гигов несжатый дамп базы (полный) и 90 гигов архив картинок всех экзаменов. Общее количество человеко\экзаменов около 120 000

Вся локальная сеть с базой данных и любыми данными экзамена ФИЗИЧЕСКИ отсоединены от сети интернет (во избежание утечки данных).

На уровне АИС существует распределение прав пользователей по доступу к системе (настраивается очень гибко, чекбоксами отмечаются нужные привилегии для группы пользователей). Соответственно на любую клиентскую станцию можно авторизоваться через AD с нужными правами и работать как требуется.

Структура сети для проведения экзамена на 50 000 человек (у нас это была максимальная нагрузка, данные необходимо обработать и передать на проверку максимум на 4-й день после экзамена) в итоге состояла из:

1 – 3 сервера (баз данных, сервер АИС, файловый архив отсканированных картинок)
2 - 12-17 станций сканирования
3 – 20-25 станций верификации
2 – 1-2 станции администратора для постоянного мониторинга узких мест.

Все остальное время года клиенские станции сканирования\верификации работают в штатном режиме у других пользователей. На время экзаменов накатывался образ с готовой системой и изымаются в наше пользование. Станции сканирования - высокоскоростные сканеры ДС-300 производства ЛОМО, PANASONIC типа KV-S3105C и маломощные Fujitsu. ДС работали через сеть, KV и Fujitsu через скайзи. Скорость работы первых двух машин впечатляет (по первости) – 90-120 листов в минуту в черно-белом формате порядка 200 dpi. При сканировании бланк режется на кусочки (по реперным меткам), моментально проходит распознавание и файлы перемещаются на файловый сервер. Весь софт – разработка КРОК (в их субподряды не вмешивался).

Сбор данных.

Подготовка к экзаменам начинается с октября (примерно) и продолжается весь год. Включает в себя следующие этапы: 1 – выверка сведений по образовательным учреждением, административных справочников, уточнение ответственных за проведение экзаменов (обычно один человек от района Московской области, но если район большой и\или человек мало подкован к компьютерах – двое, один технарь, один управленец). Муниципальные координаторы – вообще отдельная тема, им бы памятник поставить. Обычно это женщины из органов управления образованиям.

2 – сбор данных по выпускникам ОУ (максимально полная карта, ФИО, паспорт, планируемые для сдачи экзамены). Сбор осуществляется специализированным клиентским ПО (программа без инсталляции) с весьма наглядным интерфейсом. Возможности ПО значительно шире – помимо базового сбора данных это и сбор аналитических данных для стат. Анализа. К примеру – данные по учителю (стаж, специализация, дата курсов), годовые оценки по предмету, учебник и много другого. Эти данные заполняются в течении всего года (ибо очень большой объем информации необходимо собрать и внести).

3 – выверка паспортных данных выпускников (на бумажных носителях за подписью руководителя ОУ)

4 – с публикации точных дат экзаменов окончательный сбор данных по регистрации на экзамены и последующая выверка (на бумажных носителях за подписью руководителя ОУ и подписью ученика рядом с собственными паспортными данными и выбранными экзаменами). Срок этого этапа очень сжат, потому что от приказа с датами экзаменов и крайним сроком подачи данных в вышестоящие органы крайне мало времени. Зачем так строго – для печати необходимого количества КИМ

С выверками вообще очень интересные вещи творились. Ученики на протяжении всего года должны были минимум 2-3 раза видеть списки с своими данными и по необходимости исправлять (фио, паспорта). Мало того, что каждая выверка приносила порядка 5-10% изменений в БД (это все вносится руками операторами центра), так и на экзаменах выходило множество форм с коррекцией. Дети совершенно невнимательно относятся к своим данным, а ведь из-за этого и у них могут быть проблемы с получением результатов (коррекция данных проходит через ФЦТ и это очень долго и сложно для нас).

Итак, все данные собраны, выверены, переходим к экзамену.

Проведение экзамена

За несколько дней до экзамена из ФЦТ получаем заказанное количество КИМ (с некоторым лимитом на случай брака либо недокомплекта аудитории). Все очень серьезно – запечатано, принимается по описи руководителем центра.

В центре печатаются комплекты для каждой аудитории и ППЭ (пункта проведения экзамена). Печатали на HP в диком потоковом режиме, с второго года наловчились одновременно печатать с двух клиентов на два принтера сразу. Распечатанный комплект вынимается из принтера, подписывается ведомость и запечатывается в так называемый секьюрпак. После пачки комплектуются для каждого района\ППЭ и складируются в специальном помещении (с кодовым замком). Картриджи меняются каждые 3-4 часа, пыль столбом, легкие медленно умирают от 3-4х одновременно работающих HP-шников.

За сутки до экзамена приезжают муниципальные координаторы – по описи происходит выдача пакетов, сверка количества и общих данных. Часов в 18-19 последний пакет выдан, по коньячку и спать, ибо следующие 3-4 дня как страшный сон.

День экзамена

С 8 утра (время вскрытия пакетов на местах) в центре находились мы с начальником – ответы на все возможные вопросы в течении экзамена и нервное ожидание брака в КИМ (было и такое, на стадии печати брак, приходится ребенку оформлять смену варианта), ошибок при регистрации детей на экзамен (несколько раз муниципальные координаторы забывали внести ученика на экзамен, а он спокойно не расписывался на ведомостях выверки). Некоторое затишье после 10 утра (экзамен пошел).

Примерно с 14 дня начинается привоз материалов из ППЭ. Приемка происходит следующим образом:

1 – сверка пакетов начальником центра

2 – муниципальный координатор и оператор станции сканирования «уединяются» в зале и попакетно сканируют, после обработки каждого пакета аудитории сверяются данные (машинной обработки) с ведомостями, ни один бланк не должен быть утерян. На этом этапе несколько раз встречались случаи, что в ППЭ забыли бланк. В таком случае прием данного района приостанавливается до выяснения. На уровне клиентской машины ведется строгий подсчет количества бланков выданных и отсканированных по каждой аудитории. Подмена невозможна. Бланки именные и с уникальным кодом, при сканировании идет сверка всех полей.

Был курьезный случай, когда в ППЭ ученик вышел в туалет с нерешенной частью С и смыл бланк в унитаз (хорошо не спустил воду). При приемке обнаружили, отправили гонца в пункт, тот в туалете выловил бланк и зажав нос привез нам, пришлось так и обрабатывать.

3 – я как администратор, в промежутках между решением текущих вопросов, проверяю обработанные аудитории, если количество выданных\принятых бланков сошлось – перевожу аудиторию на проверку.

4 - после этого бланки с работами проходят верификацию. Верификация дело тонкое – каждая клиентская машина с базой верификации самообучаема. Если оператор 2 раза подтвердит значение одного поля – оно попадает в словарик и с вероятностью 99% будет автоматически отработано. Занятие весьма нудное, потому заканчивается обычно много позже сканирования (2-6 часов ночи). Вот на этом этапе и происходит обработка «случайных» ошибок. Если ребенок поставил в части А ответ в 5-ю клетку (она зарезерервирована), заполнены лишние\служебные поля – все это попадает верификатору.

5 – администратор – ведет общий мониторинг работы системы, исправляет любые ошибки по ведомостям и прочее. Отслеживаются случаи простановки метки «ученик не явился» и заполнненного бланка (система показывает подобные случаи), иначе работа не будет засчитана. Потерянные бланки – система не смогла распознать отсканированный номер и не прикрепила бланк к аудитории.

6 – после окончания верификации можно распечатывать пакеты для работы экспертов. Они приступают с 10 утра следующего дня экзамена. Потому часов с 8-9 вечера запускаются минимум 2 станции печати работ С. Выдача строго случайна – бланки неименные, эксперт не знает кого он проверяет, каждая работа отдается двум экспертам, если расхождении в их оценках выше заданной отметки – работа показывается как требующая дополнительной проверки и распечатывается для «третьего эксперта». Третий эксперт не может быть из числа двух уже проверявших, назначается вручную с указания председателя комиссии проверки.

Проверка части С длится 3-4 дня. Как только все данные обработаны и ни один бланк не потерян – формируется CSV с результатами. Данный файл шифруется на сервере (Crypto Pro, ключи хранятся на отдельном носителе в сейфе и выдаются под роспись) и по зашифрованному каналу через специальную программу отправляются в ФЦТ на оценку.

Про шкалирование рассказывать не буду, кому интересно найдут выкладки. Достаточно сложная математическая модель, строится в ФЦТ при получении результатов с всей России.

Через 3-5 дней обработанные результаты с оценками приходят из ФЦТ в CSV, загружаются в БД и распечатываются протоколы (каждый за подписью печатью министра образования области) и выдаются в каждый район. Последние годы стали разрешать публикацию данных через сайты, в этом году мы на нашем сайте Мособласти сделали такой же функционал (чем вызвали рост посещаемости и положили сервер хостера )).

В принципе в общих чертах все. В режиме реального времени, когда экзамены проходят с промежутком 3-5 дней и\или 2-3 экзамена в один день, это выливается в 2-3 недели 100% присутствия на работе без выходных по 25 часов в сутки. Но когда знаешь, что за нашими спинами 50000 нормально сдавших экзамен детей и довольные родители - того стоит.

Апелляции

Апелляций по проведению экзамена я не припомню (хотя иногда и стоило бы, но дети уставшие и не сразу понимают ситуацию). По результатам – порядка 500 штук на 50 000.

Для апелляции собирается специальная комиссия, распечатываются распознанные бланки, копии оригиналов, происходит сверка на предмет машинной ошибки распознавания и эксперты по предметы с ребенком и родителем пошагово проходят по всем заданиям. Апелляции делятся на категории: отклоненные и рассмотренные. 99% рассмотренных апелляций проходит с повышением балла (редко когда оправданно, обычно цветы, конфеты, слезы). Пару раз особо «наглым» понижали балл. Порядка 40% остаются при том же результате, то есть апелляция отклоняется. Отдельно хочется сказать отличникам – если вам в вуз не хватает 1-2 балла – обязательно подавайте апелляцию, такие случаи (их немного) всегда положительно рассматриваются.

Узкие места всей процедуры:

1 – банальная невнимательность на уровне районов и школ. Координаторы теряют\забывают детей, дети не обращают внимание на свои паспортные данные и выбранные даты экзаменов. Создает множество проблем нам при выверке данных и детям в случае осложнений.

2 – низкая компьютерная грамотность координаторов. Ни в коем случае не хочу их винить, но факт остается фактом. Не в каждом районе могут найти специалиста для решения технических вопросов (обычно заключаются в работе с электронной почтой, excel, word, ПО для сбора информации). Оттуда и мой анекдот про «красненький и синенький интернет».

3 – отсутствие интернета в органах управления образованием. Многие работают через модем, с домашних компьютеров отправляют нам данные. Про школы просто молчу – редко редко есть сеть, обмен данных через дискеты обычно (!!!!)

4 – полный хаос в взаимоотношениях с ФЦТ. Пара примеров. Они пишут и утверждают с представителями КРОК и министерства формат базы данных. По факту мы обнаруживаем расхождение – утвердили одно, выгрузили данные в CSV, а в базу ФЦТ они не загружаются – очередность полей изменилась, формат данных и прочее. Идет ругань, крок судорожно пишет хак для своей базы, чтобы подогнать якобы утвержденный формат по новые требования (никем нигде не высказанные). Далее – выдача результатов, по како-либо причине наш файл ими не принимается (формат ошибочный либо другое) – тишина полная с их стороны, только по звонку (а дозвониться к ним ох как сложно) оказывается что имеет место косяк. Опять же это время, нервы нас и детей\родителей. При общении создается впечатление классического "совкового" магазина из анекдотов. Очень, очень напрягает такие факты, вроде бы общее дело делаем, а тут такие подлянки.

5 – еще больший хаос на более высоком уровне. Несоответствие приказов действительности, одно постановление противоречит другому и подобное. Вечная слава нашему шефу, что не жалея седин утрясал такие вопросы максимально оперативно (хоть совершенно не наш уровень)

6 – и, пожалуй, самое главное – НЕВНИМАТЕЛЬНОСТЬ и НЕЗНАНИЕ правил при проведении экзамена в пункте. Мы круглый год проводим обучение специалистов каждого ППЭ, готовы постоянно ответить на любой вопрос. После оказывается, что они не знаю с какой стороны открыть пакет и оформить ведомость.

Положительные аспекты технологии

1 – очень и очень доброжелательный софт (не без грехов, но по сравнению с софтом ФЦТ – рай на земле). Спецы по внедрению отвечали почти на любой вопрос. Много собственных наработок (грешен, писал на php пару приблуд для быстроты однотипных процедур). Единый комплекс, гибкий и расширяемый, разработан одной конторой. Софт же ЦТ был собран из разных кусочков разных разработчиков, на базе ABBYY. В работе неинтуитивен, неудобен и на мой взгляд просто крив.

2 – удобство конечной конфигурации системы в центре, отлаженность технологии буквально до нитки. Когда центр перевели на ФЦТ – трудозатраты при проведении выросли в разы (как и уровень рисков)

3 – высокая безопасность данных. Из центра и из ППЭ в дни проведения ни единой капли информации потеряно не было. Кроме администратора никто физически не может внести изменения в БД, на уровне клиента все мониторится и сохраняется. Возможность сделать "бяку" есть только у админа. Пару раз правда приходили лично к мне с тихим предложением денег :) но безуспешно. Насколько мне известно - на уровне районов подобные случаи тоже не проходили.

4 – почти 100% удобство для конечного пользователя – ученика. Бланк именной, с указанием школы, ППЭ, только подпись ставить и решай задачи (у ЦФТ нужно еще и ФИО вписывать – лишний повод для ошибки)

5 – огромные возможности для проведение статистического анализа не только ЕГЭ но и всей образовательной системы. Массив данных это позволял (при условии 100% заполнения на местах). Нами использовался SQL Analyze Server с веб-компонентами (модуль аналитики - разработка того же КРОК). Ну и напрямую из базы запросами тягались особо интересные показатели. Сравнивать можно почти все что угодно – оценка от продолжительности изучения предмета в совокупности с учебником, соответствие оценки ЕГЭ и готовых показателей на кривой роста итогового балла с 5-го класс. Множество чудесных вещей, подобных данных не было нигде ранее. На практике же накрывалось медным тазом, хоть и для статистической работы был отдельный центр при министерстве.

Итоги (по опыту работы) – процент ошибок машинной обработки – 0,1 %, процент ошибок верификатора – 2 случая на 50 000 человеко\экзаменов. То есть с нашей стороны все чисто.

Повторюсь – все написанное – мое личное мнение по опыту работы на данной технологии и опыт солидарных коллег нашего центра в период работы до 2007 года. И простите за язык изложения - чукча не писатель, чукча читатель.

Если заинтересуют отдельные, нераскрытые, аспекты технологии – пишите, постараюсь дополнить

Ссылка на кросспост хабра

Комментарии

0 Глеб пишет нам 16.06.2009 02:33
Не могу запостить на хабре — нет аккаунта. Вопрос: На чем написана система КРОК? С++? С#? Delphi? Интересно, что выбирают профессионалы для разработки таких масштабных систем.
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 02:45
Если не изменяет память, то основные модули системы были на С++, основной интерфейс доступа к данным на ASP+XML (там операции по сути простейшие - выборка данных, запись в БД, нагрузка с этих интерфейсов минимальна)
Цитировать Сообщить модератору
0 Глеб отвечает 16.06.2009 02:47
Спасибо :)
Цитировать Сообщить модератору
0 Progr пишет нам 16.06.2009 14:59
Как хорошо, что вы на хабре оставили у себя в резюме сайт - так бы мне не связаться с вами было. Пишу вот по какому вопросу: сам я выпускник, сдавал экзамены (вчера последний - физику), и меня интересует как происходить "тасовка" КИМов? Я замечал, что у отличников КИМы сложнее, а у троешников - легче. Происходит ли какая-то специальная тасовка по уровню знаний или это полный random?
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 17:51
По технологии КРОК (которую знаю досконально и работала до 2008 года) никакой привязки КИМ в уровню ученика нет. Данные по оценкам (и соответственно градация отличник\троечник) - это все необязательные поля, обычно эти данные мы собирали после экзаменов, летом. Тасовка идет специализированным алгоритмом, что происходит - программа старается исключить одинаковые варианты КИМ в пределах нескольких посадочных мест в аудитории, чтобы у соседей по партам не было одинаковых вариантов. Так что полным рандомом это назвать нельзя, но будьте уверены - никто специально троечникам простые задания не подсовывает. Все варианты достаточно унифицированы, разбивка по сложности заданий происходит внутри варианта и только.
Цитировать Сообщить модератору
0 Progr отвечает 16.06.2009 17:56
Большое спасибо, что пояснили.
Цитировать Сообщить модератору
0 Алексей Кривда пишет нам 16.06.2009 18:22
Привет Петр! Это Алексей Кривда, вед. разработчит пристно памятно ЕГЭ от Крок. У меня к сожалению нет инвайта/логина на хабре, так бы откомментил несколько моментов. :)
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 18:26
Алексей приветствую. Приятно видеть! По поводу хабра отписал в почту, спасибо за комментарии по программной части, дополняю
Цитировать Сообщить модератору
0 Алексей Кривда пишет нам 16.06.2009 18:24
на C# (ASP.Net) - апп. серверная часть, T-SQL - клиентская часть, Active-X (С++, VB6, C#) + VBScript - клиент.
Цитировать Сообщить модератору
0 Алексей Кривда пишет нам 16.06.2009 18:26
Угу. Именно так. Там достаточно сложный алгоритм, который достаточно равномерно размазывает варианты КИМ по аудиториям ППЭ, стараясь не выдвать одинаковые варианты соседям по \"крестику\" (влево-вправо-вверх-вниз)
Цитировать Сообщить модератору
0 Тимур Идиатуллов пишет нам 16.06.2009 21:10
Вообще-то никакого \"размазывания\" нет. Все строго автоматизировано. Научное название процесса - \"Ротация\". При составлении индивидуальных вариантов используется как ротация вариантов, так и ротация заданий. Тема сложная, но если интересно, спрашивайте.
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 23:16
1 - я все таки больше верю ведущему программисту данной системы 2 - ротации заданий на уровне РЦОИ быть в принципе не может, они заранее распечатаны и заклеены в пакеты, ротация вариантов (размазывание по аудитории) происходит после поступления пакетов с КИМ в РЦОИ. То что они заранее сгруппированы по одинаковому уровню сложности каждого варианта - факт.
Цитировать Сообщить модератору
0 Субба пишет нам 16.06.2009 21:11
Круто! Спасибо за статью :) А вот вопрос у меня, т.е. Вы говорите, что по-сути утечка невозможна? А как же ситуация была в 2007 году, там скандал был - ученик скачал ЕГЭ по математике (?), переписывать даже хотели. И сейчас в сети все эти сайты, предлагающие ответы - наё* ?
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 23:14
Я расскажу откуда может быть утечка: 1 - от составителей тестов (они тоже преподаватели и родители) 2 - из типографии 3 - из ФЦТ Утечка невозможно на нашем уровне - вся документация вскрывается только в ППЭ в час экзамена. По той ситуации - как я помню, это было в Питере (или Ленобласти), по официальной версии ученик пробрался в школу ночью, вскрыл сейф и прорешал за ночь с учителем задания. Но - в данную версию я верю с трудом. Скорей всего утечка была с указанных трех уровней (а это все выше РЦОИ происходит)
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 23:28
А все эти сайты - на одном из них пару лет назад так и было написано (жаль скрин не сделал) - мы бедные работники типографии печатали КИМы, денег платят мало, вот и зарабатываем так - продаем реальные задания накануне экзамена. Увы - это вопрос ответственности на каждом этапе. Я могу ручаться только за РЦОИ, остальное же - увы..... весьма предсказуемо
Цитировать Сообщить модератору
0 Субба отвечает 23.06.2009 15:03
Думаете, можно рискнуть? :) Кстати, нынче ГИА была ужасной: как будто кризис, прямо на бумажках отмечать кружочки и вписывать ответы было жесть, даже бланки для сочинения и изложения не были предоставлены.
Цитировать Сообщить модератору
0 Beliyadm отвечает 23.06.2009 15:07
Рискнуть в чем именно? Летняя подработка в типографии :)? Что происходит сейчас честно не знаю, говорю только то, чему свидетель был сам.
Цитировать Сообщить модератору
0 Juise пишет нам 16.06.2009 21:44
Год назад, работал в одной фирмушке, внедряли мы в местный МЦОК систему хранения данных для ЕГЭ. Собственно говоря поразило меня несколько вещей - уровень безопастности, нас дальше сервеной не пускали и если и пускали то на каждого давали по сопровождающему, хотя теток из школ заводили через задний ход, т.к. приказ начальства - через главный никого не пускать; некомпетентность адрминистраторов и \"программистов\", заносивших в СХД на флешках вирусы, не способных понять где узкое место - в бд или на диске, неумение работать с бд. Напрягла древняя БД и древняя но сертифицированная винда. Хотя СХД давала неплохой прирост в обработке данных, когда они через АСУ грузили данные из спец.файлов на винт, помойму они так её до конца и не задействовали, рулили со старых серваков на сате. Помнится они как раз стали переходить на линукс... Как у Вас с этим обстоят дела, с системой хранения ну и с ОС и БД, с их версионностью?
Цитировать Сообщить модератору
0 Beliyadm отвечает 16.06.2009 23:20
Как я писал в статье - у нас на 2007-й год стояла в качестве винды Win Server 2000 (готовился переход на 2003) и MS SQL 2000 (с двумя сервиспаками, готовился переход на 2005). Весь софт закуплен по академической лицензии и соответственно все на лицензии. По поводу компетентности - это банальная проблема кадров на местах. Зарплата в РЦОИ у спецов весьма невелика (а если сравнивать с уровнем компетентности и ответственно в пределах РЦОИ Москвы и хорошим админом в Москве - копейки). Переход на линукс не планировался ни разу (где то года два на нем крутился только веб-сервер и локальный почтовик) - подробнее в комментариях на хабре описывал.
Цитировать Сообщить модератору

Оставить коммент

Защитный код
Обновить