именно так работает редактор связей дисковой операционной системы.
Описанный принцип характерен для программ всех типов, однако для программ
типа EXE он справедлив в большей степени чем для программ типа COM. С
другой стороны, ПЗУ-программы, подобные тем, которые рассматривались нами
выше, часто разрабатываются вне концепций технологии программирования.
Данные в этих программах могут следовать вперемешку с командами.
Если предположительно обнаружен участок программы, в котором вслед за
командами следуют некоторые данные, то существует по крайней мере один
достоверный способ отличить конец последовательности команд от
расположенных вслед за ними данными, и таким образом избежать
необходимости рассматривать недостоверный протокол деассемблирования.
Последняя команда фактического участка программы должна представлять собой
ту или иную разновидность команды перехода или ветвления. Команды
ветвления включают любые команды переходов, кроме команд условных
переходов. В качестве общеупотребительной команды завершения программы
принято использовать команду возврата (RET) (возврат из вызванной ранее
подпрограммы).
Могут использоваться также и команды CALL (Вызов) и INT (Прерывание);
хотя их использование в качестве команды завершения последовательности
команд встречается достаточно редко.
Существует ряд особенностей, на которые следует обращать внимание при
решении вопроса подлинности предъявленного участка программы после его
деассемблирования. В первую очередь следует обратить внимание на
используемые регистры. Если операции реализуются на регистрах,
используемых как правило для выполнения арифметических операций (AX или
AL, AH;BX или BL, BH; CX или CL, CH; DX или DL, DH), но никакие действия в
отношении результата не предпринимаются, то это вызывает подозрение. Здесь
следует быть более внимательным. Один из результатов выполнения
арифметических операций состоит в установке флагов - следовательно,
естественно ожидать наличие команд условных переходов по состоянию флага,
таких как JNC (команда перехода по условию отсутствия установленных битов
флага).
Рассмотрим аспект некорректности использования регистров в
реконструируемой программе. Программы не используют регистры некоторым
хаотичным образом - им присуща определенная дисциплина. Поэтому весьма
непривычно, скажем, видеть загрузку или непосредственную ссылку на
сегментные регистры - особенно сегментный регистр программы (CS) и
сегментный регистр стека памяти (SS). Загрузка сегмента регистра данных
(DS) более вероятна, но также встречается редко. С другой стороны,
дополнительный сегментный регистр (ES) практически постоянно используется
программами, поэтому его загрузка - дело обычное. Если загрузка регистра
CS или SS все-таки обнаружена, то это должно быть сделано в программной
секции, формирующей операционную структуру выполняемой программы; в этом
случае вероятнее всего, что в одном месте будет произведена загрузка
нескольких сегментных регистров, в частности, CS, SS и DS.
Попытка реконструировать программу по листингу, выданному
деассемблером или даже просто попытка убедиться в подлинности
предъявленного набора команд, представляет собой захватывающее умственное
упражнение. Для этого,кстати, не требуется специальная подготовка. Как
правило, достаточно бывает просто здравого смысла. Усвоив все наши
рекомендации и приобретя некоторые практические навыки, Вы, при
необходимости, сможете все это проделать. В следующем параграфе мы
выполним декодирование (реконструкцию) программы Бейсик-ПЗУ; читатель,
таким образом, получит представление о том, как это делается и убедится в
том, что это не очень сложно.
6.4. Анализ содержимого ПЗУ - реконструкция интерпретатора
В качестве примера попробуем деассемблировать фрагмент Бейсик-ПЗУ.
Начнем с исходного параграфа, т.е. параграфа с адресом F600(16). На
рисунке 6.3 представлен результат деассемблирования первых 32 байтов.
Шестнадцатеричные нули в конце фрагмента программы (преобразованы
деассемблером в команды ADD (Сложить)) представляют собой данные. Они
"хорошо" иллюстрируют высказанное ранее положение о том, что нулевые
данные нетипичны для ПЗУ-программ. Команда DB (определить байт),
предшествующая полю нулей, появилась как реакция деассемблера на кодовую
комбинацию, которая не может быть преобразована в команду ассемблера
(такая ситуация, благодаря широкому набору команд, встречается довольно
редко). Итак, являются ли все данные, которым предшествует команда
безусловного перехода собственно осмысленными командами? Предварительный
ответ на этот вопрос может быть положительным, поскольку для завершения
выполнения подпрограммы используется команда возврата (RET). Пока все идет
хорошо.
Можно ли приписать какие-то осмысленные действия первым пяти командам
деассемблированной программы? Эти команды выглядят несколько странно,
поскольку начинаются с команды безусловного перехода (JMP). Большинство
программ, однако, первым делом выполняют ряд действий настроечного плана,
обращаясь для этого посредством команд вызова подпрограмм или переходов, к
нужным процедурам. Таким образом, безусловный переход в начале программы -
каким бы причудливым он не казался - не такая уж бессмыслица. Следующие
четыре команды - две пары обращения к подпрограммам с последующими
командами возврата в процедуру не особенно понятны, но, по крайней мере,
не противоречат друг другу и могут в какой-то степени служить признаком
наличия последовательности команд. Можно, следовательно, сделать
предположение о том, что мы имеем дело с реальной последовательностью
команд.
Из того, чем мы располагаем - даже при том, что на рисунке 6.3
представлена реальная последовательность команд - вряд ли можно извлечь
какую-то пользу. Только пять команд почти ничего не совершающих.
И все-таки есть ряд интересных моментов. Если это действительно
реальная последовательность, то нам названы три адреса, где могут
оказаться вещи более интересные. Речь идет об адресе в команде перехода и
адресах двух последующих команд обращения к процедуре. Следует ли нам
пойти по адресу перехода? Деассемблер дает нам этот адрес (относительно
начала нашей программы, т.е. адреса F600/16) - FE92/16.
Выполним деассемблирование небольшого участка памяти, начинающегося с
этого адреса (результат приведен на рис 6.4.)
-U F600:0000
F600:0000 E98F7E JMP 7E92
F600:0003 E8A76B CALL 6BAD
F600:0006 CB RET L
F600:0007 E80265 CALL 650C
F600:000A CB RET L
F600:000B C1 DB C1
F600:000C 0000 ADD [BX+SI],AL
F600:000E 0000 ADD [BX+SI],AL
F600:0010 0000 ADD [BX+SI],AL
F600:0012 0000 ADD [BX+SI],AL
F600:0014 0000 ADD [BX+SI],AL
F600:0016 0000 ADD [BX+SI],AL
F600:0018 0000 ADD [BX+SI],AL
F600:001A 0000 ADD [BX+SI],AL
F600:001C 0000 ADD [BX+SI],AL
F600:001E 0000 ADD [BX+SI],AL
Рис. 6.3. Деассемблирование начального участка Бейсика
Похоже, мы попали в точку. Во-первых, перед нами совокупность
осмысленных команд, не содержащая ни последовательностей операторов DB, ни
последовательностей операторов ADD.Во-вторых, эти команды весьма
напоминают команды настройки.Об этом говорит прежде всего команда CLI,
(CLI (Clear interrupt flag) - очистка флага прерывания).
Прерывание в микропроцессоре INTEL 8086/8088 воспринимается по
завершении выполнения некоторой команды. Немаскируемое прерывание в общем
случае обслуживается непосредственно после выполнения текущей команды.
Прерывание по вектору воспринимается только тогда, когда разряд IF (флаг
прерывания) в регистре FLAGS имеет значение, равное 1. Для того, чтобы
микропроцессор 8086 воспринял прерывание, необходимо выполнение следующих
трех условий:
1) разряд IF регистра FLAGS должен иметь значение, равное 1 (для
прерываний по вектору);
2) разряд разрешения прерываний в интерфейсе устройства должен
находиться в состоянии "Прерывание разрешено";
3) интерфейс должен зафиксировать некоторое событие, вызывающее
прерывание (например, поступление символа с клавиатуры, готовность к
выводу символа на дисплей, завершение передачи блока данных с диска и
т.п.) (Прим.перев.)).
которая, как мы видели в главе 3 используется как средство блокировки
прерываний; таким образом вся последовательность выполнения расположенных
ниже команды прервана быть не может. Именно такая последовательность
команд характерна для начальных аргументов ответственных программ,
поскольку значения сегментных регистров целесообразно устанавливать
одновременно с обработкой прерываний.
Ниже производятся как раз те действия, о которых мы говорили выше, а
именно: загрузка сегментных регистров. С помощью четырех команд MOV
(команды пересылки данных) осуществляется загрузка трех сегментных
регистров из четырех: DS, ES и SS. Загрузка этих регистров осуществляется
весьма редко, поэтому естественно это сделать один раз в начале программы.
(Сегментный регистр программы CS к этому моменту уже загружен ( F600 :
0000, рис. 6.3.).
Вслед за группой, состоящей из четырех команд MOV, осуществляющих
загрузку сегментных регистров, следует две команды, выполняющие одну
логическую операцию. Первая команда - это команда "исключающего ИЛИ" XOR -
заносит в регистр AL значение "нуль" (поскольку в результате применения
"исключающего ИЛИ" к эквивалентным данным образуется новая величина), а
вторая команда заносит эту величину по конкретному адресу.
Программа не содержит никаких сведений относительно содержательной
интерпретации этих операций, но это вполне осмысленное сочетание команд,
выполняющих конкретную функцию.
Если бы мы располагали более полной информацией об особенностях
работы Бейсика, то нам, вероятно, было бы известно, что нулевая величина,
пересылаемая в память с помощью двух двух последовательных команд
представляет собой переключатель предохраняющий защищенные программы. При
загрузке защищенных программ, написанных на языке Бейсик, этот
переключатель устанавливается с целью предотвращения выдачи их на печать.
Это, однако, никак не следует из представленного листинга.
Первые семь команд рассматриваемого участка программы, таким образом,
выглядят вполне осмысленно. Они реализуют рациональные и согласованные
между собой действия и естественным образом распадаются на два класса:
команды со 2-й по 5-ю реализуют одну логическую операцию, а с 6-й по 7-ю -
другую. Предьявленные команды отвечают всем критериям реального участка
программы.
-U F600:7E92
F600:7E93 8A6000 CLI
F600:7E93 8A6000 MOV DX,0060
F600:7E96 8EDA MOV DS,DX
F600:7E98 8EC2 MOV ES,DX
F600:7E9A 8ED2 MOV SS,DX
F600:7E9C 32CO XOR AL,AL
F600:7E9E A26404 MOV [0464],AL
F600:7EA1 B591 MOV CH,91
F600:7EA3 BB0000 MOV BX,0000
F600:7EA6 BA9A06 MOV DX,069A