IDA反汇编学习心得－金锄头文库

资源描述

《IDA反汇编学习心得》由会员分享，可在线阅读，更多相关《IDA反汇编学习心得（15页珍藏版）》请在金锄头文库上搜索。

1、用IDA反汇编动态库最近，一直在学习如何利用IDA来反汇编动态库，这里把我的学习心得写下来。为简单起见，这里就自己所写的一个动态库里的一个简单函数进行一下反汇编，给出如何写出其C代码的详细过程，希望对新手有点帮助。废话少说，先给出其动态连接库的C代码如下 _declspec(dllexport) int add(char a, int b, int c2) int d = a + b + c0 + c1;return d; 至于为什么要设置这样的参数，待会在反汇编时进行说明。下面给出其详细的反汇编过程,并补充相关的经验总结。第一步、装载动态库文件” first .dll”,装载之后得到下面的截

2、图：通过在Functions一栏中双击add函数，我们来到add()函数的地方（同上图），我们看到”text:10001010 add proc near ; CODE XREF: add(char,int,int * const)j”这样一栏显示了add函数的参数，虽然有点出入，但大体正确。可能是因为add函数本身比较简单，所以IDA很容易就识别出了其参数，一般地，IDA是识别不出来的，网上有一个插件为”Flair.v5.20”据说可以部分地解决函数的参数识别问题，但这个软件我没有下载到，就不说这个了。第二步、我们看到”.text:10001010”这些栏有很多标示，在下面的汇编语句中会用

3、到。我们看接下来的三行代码： .text:10001010 push ebp.text:10001011 mov ebp, esp.text:10001013 sub esp, 44h这三行代码模式基本上是固定的，（至少我遇到的都是这样）首先是保存ebp, 然后用ebp来保存esp的原始指向，再将esp的指向向上移动44h个字节，（当然这里44h不是固定的）为什么会有这样固定的代码呢？就代码 “sub esp 44h”而言，在原esp的基础上向上移动44h的字节空间，而 esp - esp-44h这个44h的空间是为了存放一般变量的。其他两行相信读者很容易理解其理由。第三步、看下面三行代码

4、.text:10001016 push ebx.text:10001017 push esi.text:10001018 push edi当我们在函数的开头看到这样的代码时,而后面又没有紧跟着”call + function”时，我们大可不用理解，因为这些push语句目的都是为了不破坏原始ebx,esi,edi的值而将他们保存起来，并且这里我们可以看到，是保存在esp-44h之上的。也就是说，如果我们看到函数的开头出现将寄存器push进esp-x之上的空间（我们将”esp-x 至 esp”的堆栈空间成为“一般变量栈空间”），这里就是指push进esp-44h之上的堆栈空间，我们不用去关心，在函

5、数末尾肯定会有相应的代码将他们还原的。（待会我们会看到）第四步、继续向下看，进入关键代码段。在做进一步解释之前我先画一幅堆栈图。如下： edi exi ebx一般变量堆栈空间 can1 can2 can3ebp = esp (假设这里是最先的esp ,且值为0x0013ff80, “1000101代码”)(esp-44h)指向,为(0x0013ff80-44h)esp-44h之上的空间ebp+arg_0ebp+arg_4ebp+arg_8好了，有了上一幅图，说明起来会容易些。看接下来的四条代码：.text:10001019 lea edi, ebp+var_44.text:1000101

6、C mov ecx, 11h.text:10001021 mov eax, 0CCCCCCCCh.text:10001026 rep stosd这四条代码和上面的三条代码一样，其模式一般是固定不变的。其作用就是实现了“一般变量栈空间”的初始化。这里将图中所示的“一般变量栈空间“初始化为0xCCCCCCCC.其具体的代码解释如下： lea edi, ebp+var_44 : edi = ebp + vat_44 mov ecx, 11h ： ecx = 0x11h mov eax, 0CCCCCCCCh : eax = 0xCCCCCCCC; rep stosd : for(int i1=0;

7、 i1ecx; i1+)edii1 = eax;这里因为ecx=0x11(44h/4),所以将整个“一般变量栈空间”全部初始化为eax=0xCCCCCCCC;这下就清楚了为什么上面的四条代码一般模式是固定的，原因就是对将要用到的“一般变量栈空间”进行初始化。第五步、进入核心代码段 .text:10001028 movsx eax, ebp+arg_0.text:1000102C add eax, ebp+arg_4.text:1000102F mov ecx, ebp+arg_8.text:10001032 add eax, ecx.text:10001034 mov edx, ebp+ar

8、g_8.text:10001037 add eax, edx+4.text:1000103A mov ebp+var_4, eax.text:1000103D mov eax, ebp+var_4从图上我们可以知道arg_0,arg_4,arg_8分别是0x8,0xc,0x10。(要是从图上看不清，请参考文件”first.txt”)代码”movsx eax, ebp+arg_0”表示将ebp+arg_0的值进行有符号扩展后传给eax。但是这里的ebp+arg_0究竟是什么呢？我们假设ebp+arg_0=can1,如图，那么”movsx eax, ebp+arg_0”就表示”eax = (cha

9、r)can1”。因为我们有源代码，我们知道函数add()的参数为 int add(char a, int b, int c2)，这样我们有理由怀疑(char)can1就是char a,即add的第一个参数。我们接着看下一条代码：” add eax, ebp+arg_4”，有了上面的猜想，我们不无理由认为ebp+arg_4就是can2，这样就实现了eax = can1+can2;再看代码” mov ecx, ebp+arg_8”和” add eax, ecx”，我们可以猜想得到ebp+arg_8其实是一个地址，因为后面有” add eax, ecx”这样的代码，表示为将ecx所指向的地址的值传给

10、eax。所以肯定这就是can3，即一个int型的地址参数。” add eax, ecx”之后，eax = can1+can2+can30。接下来的两行代码” mov edx, ebp+arg_8”和” add eax, edx+4”与上面的相似，实现了eax = can1+can2+can30+can31。再看剩下的两行代码，” mov ebp+var_4, eax”，” mov eax, ebp+var_4”，这两行代码是先将eax的值赋给ebp+var_4，再将其值给eax。第一行代码其实是将结果储存在ebp+var_4，第二行代码是将返回值给eax。（一般地，函数的返回值要是是int型的

11、话，都会将返回值赋给exa，这也可以看成是一种固定的模式）。到这里，函数基本上完成了，这里可以看出为什么将add函数的参数设置成char，int和int*了，目的就是为了认清楚原来的参数是放在堆栈中具体什么地方就目前可见，函数的第i个参数放在esp+4+i*4所指的堆栈中（i从1开始，esp是指最先的栈顶指针，后来传给了ebp）（一般第一个参数都是从ebp+arg_0开始，而arg_0一般为8，其他的参数依次放置）。同时我们也看到了参数返回的值会存放在寄存器eax中。这些到底是不是固定的，由于自己刚入门，不敢随便肯定。第六步、接下来的代码基本上就是还原先前存储的寄存器，就不做详细解释了。.te

12、xt:10001040 pop edi.text:10001041 pop esi.text:10001042 pop ebx.text:10001043 mov esp, ebp.text:10001045 pop ebp.text:10001046 retn.text:10001046 add endp好了，到这里，我们对用IDA反汇编动态库文件有了一定的认识和经验积累。但是这样反汇编成C语言似乎太慢了，对于这个简单的add()函数还好，遇到难一点的函数那就说不定了。好在我们有”hexray”这个将汇编代码转成C语言代码的插件，下面我们就用试着用这个插件来写C代码。加载first.dll文

13、件后，同样在”Functions”一栏双击函数add，来到view的add函数区。按F5键，得到如下的截图 int _cdecl add(char a1, int a2, int a3) char v4; / sp+Ch bp-44h1 memset(&v4, -858993460, 0x44u); return *(_DWORD *)(a3 + 4) + *(_DWORD *)a3 + a2 + a1; 这里很明显Hexray在做转换时，第三个参数没有分清是地址还是值，没关系，在下面的代码中我们看到*(_DWORD *)(a3 + 4)这样的代码，其实就是a34/4 = a31,后面的*(_DWORD *)a3就是a30了。很多时候，都会出现上面的强制转换问题，比如遇到代码*(_DWORD *)(str + 4*i)那么一般地，str就是一个地址，代码本身就表示是stri（要对这些常见的转换做出很快的反应以节省时间）。这样，Hexray就直接帮我们转换得到了源代码。当然，有时候Hexray的转换是不可信的，这时我们就要写

展开阅读全文