Android Linker 與 SO 加殼技術

libin1991 9年前發布 | 11K 次閱讀安卓開發移動開發

1. 前言

Android 系統安全愈發重要，像傳統pc安全的可執行文件加固一樣，應用加固是Android系統安全中非常重要的一環。目前Android 應用加固可以分為dex加固和Native加固，Native 加固的保護對象為 Native 層的 SO 文件，使用加殼、反調試、混淆、VM 等手段增加SO文件的反編譯難度。目前最主流的 SO 文件保護方案還是加殼技術，在SO文件加殼和脫殼的攻防技術領域，最重要的基礎的便是對于 Linker 即裝載鏈接機制的理解。對于非安全方向開發者，深刻理解系統的裝載與鏈接機制也是進階的必要條件。

本文詳細分析了 Linker 對 SO 文件的裝載和鏈接過程，最后對 SO 加殼的關鍵技術進行了簡要的介紹。

對于 Linker 的學習，還應該包括 Linker 自舉、可執行文件的加載等技術，但是限于本人的技術水平，本文的討論范圍限定在 SO 文件的加載，也就是在調用 dlopen("libxx.SO") 之后，Linker 的處理過程。

本文基于 Android 5.0 AOSP 源碼，僅針對 ARM 平臺，為了增強可讀性，文中列舉的源碼均經過刪減，去除了其他 CPU 架構的相關源碼以及錯誤處理。

P.S.: 閱讀本文的讀者需要對 ELF 文件結構有一定的了解。

2. SO 的裝載與鏈接

2.1 整體流程說明

1. do_dlopen

調用 dl_open 后，中間經過 dlopen_ext, 到達第一個主要函數 do_dlopen:

do_dlopen 調用了兩個重要的函數，第一個是find_library, 第二個是 soinfo 的成員函數 CallConstructors，find_library 函數是 SO 裝載鏈接的后續函數，完成 SO 的裝載鏈接后，通過 CallConstructors 調用 SO 的初始化函數。

2. find_library_internal

find_library 直接調用了 find_library_internal，下面直接看 find_library_internal函數:

find_library_internal 首先通過 find_loaded_library_by_name 函數判斷目標 SO 是否已經加載，如果已經加載則直接返回對應的soinfo指針，沒有加載的話則調用 load_library 繼續加載流程，下面看 load_library 函數。

3. load_library

load_library 函數呈現了 SO 裝載鏈接的整個流程，主要有3步:

裝載:創建ElfReader對象，通過 ElfReader 對象的 Load 方法將 SO 文件裝載到內存
分配soinfo:調用 soinfo_alloc 函數為 SO 分配新的 soinfo 結構，并按照裝載結果更新相應的成員變量
鏈接: 調用 soinfo_link_image 完成 SO 的鏈接

通過前面的分析，可以看到， load_library 函數中包含了 SO 裝載鏈接的主要過程, 后文主要通過分析 ElfReader 類和 soinfo_link_image 函數, 來分別介紹 SO 的裝載和鏈接過程。

2.2 裝載

在 load_library 中，首先初始化 elf_reader 對象, 第一個參數為 SO 的名字，第二個參數為文件描述符 fd:

ElfReader elf_reader(name, fd)

之后調用 ElfReader 的 load 方法裝載 SO。

ElfReader::Load 方法如下:

ElfReader::Load 方法首先讀取 SO 的elf header，再對elf header進行驗證，之后讀取program header，根據program header 計算 SO 需要的內存大小并分配相應的空間，緊接著將 SO 按照以 segment 為單位裝載到內存，最后在裝載到內存的 SO 中找到program header，方便之后的鏈接過程使用。

下面深入 ElfReader 的這幾個成員函數進行詳細介紹。

2.2.1 read&verify elfheader

ReadElfHeader 使用 read 直接從 SO 文件中將 elf header 讀取 header 中，header_ 為 ElfReader 的成員變量，類型為 Elf32_Ehdr，通過 header 可以方便的訪問 elf header中各個字段，elf header中包含有 program header table、section header table等重要信息。

對 elf header 的驗證包括:

magic字節
32/64 bit 與當前平臺是否一致
大小端
類型:可執行文件、SO …
版本:一般為 1，表示當前版本
平臺:ARM、x86、amd64 …

有任何錯誤都會導致加載失敗。

2.2.2 Read ProgramHeader

將 program header 在內存中單獨映射一份，用于解析program header 時臨時使用，在 SO 裝載到內存后，便會釋放這塊內存，轉而使用裝載后的 SO 中的program header。

2.2.3 reserve space & 計算 load size

首先調用 phdr_table_get_load_size 函數獲取 SO 在內存中需要的空間load_size，然后使用 mmap 匿名映射，預留出相應的空間。

關于load bias : SO 可以指定加載基址，但是 SO 指定的加載基址可能不是頁對齊的，這種情況會導致實際映射地址和指定的加載地址有一個偏差，這個偏差便是 load_bias_ ，之后在針對虛擬地址進行計算時需要使用 load_bias_ 修正。普通的 SO 都不會指定加載基址，這時 min_vaddr = 0 ，則 load_bias_ = load_start_ ，即 load_bias_ 等于加載基址，下文會將 load_bias_ 直接稱為基址。

下面深入 phdr_table_get_load_size 分析一下 load_size 的計算:使用成員變量 phdr_table 遍歷所有的program header，找到所有類型為 PT_LOAD 的 segment 的 p_vaddr 的最小值，p_vaddr + p_memsz 的最大值，分別作為 min_vaddr 和 max_vaddr，在將兩個值分別對齊到頁首和頁尾，最終使用對齊后的 max_vaddr - min_vaddr 得到 load_size。

2.2.4 Load Segments

遍歷 program header table，找到類型為 PT_LOAD 的 segment:

計算 segment 在內存空間中的起始地址 seg start 和結束地址 seg_end，seg_start 等于虛擬偏移加上基址load_bias ，同時由于 mmap 的要求，都要對齊到頁邊界得到 seg_page_start 和 seg_page_end。
計算 segment 在文件中的頁對齊后的起始地址 file_page_start 和長度 file_length。
使用 mmap 將 segment 映射到內存，指定映射地址為 seg_page_start，長度為 file_length，文件偏移為 file_page_start。

2.3 分配 soinfo

load_library 在調用 load_segments 完成裝載后，接著調用 soinfo_alloc 函數為目標SO分配soinfo，soinfo_alloc 函數實現如下:

Linker 為每個 SO 維護了一個soinfo結構，調用 dlopen時，返回的句柄其實就是一個指向該 SO 的 soinfo 指針。soinfo 保存了 SO 加載鏈接以及運行期間所需的各類信息，簡單列舉一下:

裝載鏈接期間主要使用的成員:

裝載信息
- const ElfW(Phdr)* phdr;
- size_t phnum;
- ElfW(Addr) base;
- size_t size;
</li>

符號信息

const char* strtab;
ElfW(Sym)* symtab;

重定位信息

ElfW(Rel)* plt_rel;
size_t plt_rel_count;
ElfW(Rel)* rel;
size_t rel_count;

init 函數和 finit 函數

Linker_function_t* init_array;
size_t init_array_count;
Linker_function_t* fini_array;
size_t fini_array_count;
Linker_function_t init_func;
Linker_function_t fini_func;

運行期間主要使用的成員:

導出符號查找（dlsym）:
- const char* strtab;
- ElfW(Sym)* symtab;
- size_t nbucket;
- size_t nchain;
- unsigned* bucket;
- unsigned* chain;
- ElfW(Addr) load_bias;
</li>

異常處理:

unsigned* ARM_exidx;
size_t ARM_exidx_count;

load_library 在為 SO 分配 soinfo 后，會將裝載結果更新到 soinfo 中，后面的鏈接過程就可以直接使用soinfo的相關字段去訪問 SO 中的信息。

2.4 鏈接

鏈接過程由 soinfo_link_image 函數完成，主要可以分為四個主要步驟:

1. 定位 dynamic section

由函數 phdr_table_get_dynamic_section 完成，該函數會遍歷 program header，找到為類型為 PT_DYNAMIC 的 header, 從中獲取的是 dynamic section 的信息，主要就是虛擬地址和項數。

2. 解析 dynamic section

dynamic section本質上是類型為 Elf32_Dyn 的數組，Elf32_Dyn 結構如下

Elf32_Dyn 結構的 d_tag 屬性表示該項的類型，類型決定了dun中信息的意義，e.g.:當 d_tag = DT_SYMTAB 表示該項存儲的是符號表的信息，d_un.d_ptr 表示符號表的虛擬地址的偏移，當 d_tag = DT_RELSZ 時，d_un.d_val 表示重定位表rel的項數。

解析的過程就是遍歷數組中的每一項，根據 d_tag 的不同，獲取到不同的信息。

dynamic section 中包含的信息主要包括以下 3 類:

- 符號信息

重定位信息
init&finit funcs</code></pre> 3. 加載 needed SO 
調用 find_library 獲取所有依賴的 SO 的 soinfo 指針，如果 SO 還沒有加載，則會將 SO 加載到內存，分配一個soinfo*[]指針數組，用于存放 soinfo 指針。 
4. 重定位 
重定位SO 鏈接中最復雜同時也是最關鍵的一步。重定位做的工作主要是修復導入符號的引用，下面一節將對重定位過程進行詳細分析。 
soinfo_link_image 的示意代碼: 
 
2.4.1 重定位 relocate 
Android ARM 下需要處理兩個重定位表，plt_rel 和 rel，plt 指的是延遲綁定，但是 Android 目前并不對延遲綁定做特殊處理，直接與普通的重定位同時處理。兩個重定位的表都由 soinfo_relocate 函數處理。 
soinfo_relocate 函數需要遍歷重定位表，處理每個重定位項，每個重定位項的處理過程可以分為 3 步: 
1. 解析重定位項和導入符號的信息 
重定位項的結構如下 
 
首先從重定位項獲取的信息如下: 
 
  重定位的類型 type
  
  符號在符號表中的索引號 sym，sym 為0表示為本SO內部的重定位，如果不為0，意味著該符號為導入符號
  
  重定位的目標地址 reloc，使用r_offset + si_load_bias，相當于 偏移地址+基地址
  
 
符號表表項的結構為elf32_sym: 
 
2. 如果 sym 不為0，則查找導入符號的信息 
如果 sym 不為0，則繼續使用 sym 在符號表中獲取符號信息，從符號信息中進一步獲取符號的名稱。隨后調用 soinfo_do_lookup 函數在所有依賴的 SO 中根據符號名稱查找符號信息，返回值類型為 elf32_sym，同時還會返回含有該符號的 SO 的 soinfo( lsi )，如果查找成功則該導入符號的地址為: 
sym_addr = s->st_value + lsi->load_bias; 
3. 修正需要重定位的地址 
根據重定位類型的不同，修正重定位地址，具體的重定位類型定義和計算方法可以參考 aaelf 文檔的 4.6.1.2 節。 
對于導入符號，則使用根據第二步得到 sym_addr 去修正，對于 SO 內部的相對偏移修正，則直接將reloc的地址加上 SO 的基址。 
 
2.5 CallConstructors 
在編譯 SO 時，可以通過鏈接選項 -init 或是給函數添加屬性 __attribute__((constructor)) 來指定 SO 的初始化函數，這些初始化函數在 SO 裝載鏈接后便會被調用，再之后才會將 SO 的 soinfo 指針返回給 dl_open 的調用者。SO 層面的保護手段，有兩個介入點, 一個是 jni_onload, 另一個就是初始化函數，比如反調試、脫殼等，逆向分析時經常需要動態調試分析這些初始化函數。 
完成 SO 的裝載鏈接后，返回到 do_dlopen 函數, do_open 獲得 find_library 返回的剛剛加載的 SO 的 soinfo，在將 soinfo 返回給其他模塊使用之前，最后還需要調用 soinfo 的成員函數 CallConstructors。 
 
CallConstructors 函數會調用 SO 的首先調用所有依賴的 SO 的 soinfo 的 CallConstructors 函數，接著調用自己的 soinfo 成員變量 init 和 看 init_array 指定的函數，這兩個變量在在解析 dynamic section 時賦值。 
 
有了以上分析基礎后，在需要動態跟蹤初始化函數時，我們就知道可以將斷點設在 do_dlopen 或是 CallConstructors。 
3. 加殼技術 
在病毒和版權保護領域，“殼”一直扮演著極為重要的角色。通過加殼可以對代碼進行壓縮和加密，同時再輔以虛擬化、代碼混淆和反調試等手段，達到防止靜態和動態分析。 
在 Android 環境中，Native 層的加殼主要是針對動態鏈接庫 SO，SO 加殼的示意圖如下: 
 
加殼工具、loader、被保護SO。 
 
  SO: 即被保護的目標 SO。
  
  loader: 自身也是一個 SO，系統加載時首先加載 loader，loader 首先還原出經過加密、壓縮、變換的 SO，再將 SO 加載到內存，并完成鏈接過程，使 SO 可以正常被其他模塊使用。
  
  加殼工具: 將被保護的 SO 加密、壓縮、變換，并將結果作為數據與 loader 整合為 packed SO。
  
 
下面對 SO 加殼的關鍵技術進行簡單介紹。 
3.1 loader 執行時機 
Linker 加載完 loader 后，loader 需要將被保護的 SO 加載起來，這就要求 loader 的代碼需要被執行，而且要在 被保護 SO 被使用之前，前文介紹了 SO 的初始化函數便可以滿足這個要求，同時在 Android 系統下還可以使用 JNI_ONLOAD 函數，因此 loader 的執行時機有兩個選擇: 
 
  SO 的 init 或 initarray
  
  jni_onload
  
 
3.2 loader 完成 SO 的加載鏈接 
loader 開始執行后，首先需要在內存中還原出 SO，SO 可以是經過加密、壓縮、變換等手段，也可已單純的以完全明文的數據存儲，這與 SO 加殼的技術沒有必要的關系，在此不進行討論。 
在內存中還原出 SO 后，loader 還需要執行裝載和鏈接，這兩個過程可以完全模仿 Linker 來實現，下面主要介紹一下相對 Linker，loader 執行這兩個過程有哪些變化。 
3.2.1 裝載 
還原后的 SO 在內存中，所以裝載時的主要變化就是從文件裝載到從內存裝載。 
Linker 在裝載 PT_LAOD segment時，使用 SO 文件的描述符 fd： 
 
按照 Linker 裝載，PT_LAOD segment時，需要分為兩步： 
 
注意第2步復制 segment 時，目標地址需要加上 seg_page_offset，seg_page_offset 是 segment 相對與頁面起始地址的偏移。 
其他的步驟基本按照 Linker 的實現即可，只需要將一些從文件讀取修改為從內存讀取，比如讀 elfheader和program header時。 
3.2.2 分配 soinfo 
soinfo 保存了 SO 裝載鏈接和運行時需要的所有信息，為了維護相關的信息，loader 可以照搬 Linker 的 soinfo 結構，用于存儲中間信息，裝載鏈接結束后，還需要將 soinfo 的信息修復到 Linker 維護的soinfo，3.3節進行詳細說明。 
3.2.3 鏈接 
鏈接過程完全是操作內存，不論是從文件裝載還是內存裝載，鏈接過程都是一樣，完全模仿 Linker 即可。 
另外鏈接后記得順便調用 SO 初始化函數( init 和 init_array )。 
3.3 soinfo 修復 
SO 加殼的最關鍵技術點在于 soinfo 的修復，由于 Linker 加載的是 loader，而實際對外使用的是被保護的 SO，所以 Linker 維護的 soinfo 可以說是錯誤，loader 需要將自己維護的 soinfo 中的部分信息導出給 Linker 的soinfo。 
修復過程如下： 
 
  獲取 Linker 維護的 soinfo，可以通過 dlopen 打開自己來獲得：self_soinfo = dlopen( self )。
  
  將 loader soinfo 中的信息導出到 self_soinfo，最簡單粗暴的方式就是直接賦值，比如： self_soinfo.base = soinfo.base 。需要導出的主要有以下幾項： 
   
    SO地址范圍：base、size、load_bias
  
    符號信息:sym_tab、str_tab、
  
    符號查找信息：nbucket、nchain、bucket、chain
  
    異常處理：ARM_exidx、ARM_exidx_count
  
  
  
 
參考 
 
  &lt;&lt;Linkers and loaders&gt;&gt;
  
  &lt;&lt;ELF for the ARM Architecture&gt;&gt;
  
 
  
  
  
  
來自：http://mp.weixin.qq.com/s?__biz=MzA3NTYzODYzMg==&mid=2653577840&idx=1&sn=df50a9ba89673655d0ddc4b3c1bb30e6&scene=4#wechat_redirect


                    
                         本文由用戶 libin1991 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。
                         轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。
                         本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！
                         本文地址：http://www.baiduhome.net/lib/view/open1474880883865.html
                         安卓開發 移動開發

Android Linker 與 SO 加殼技術

1. 前言

2. SO 的裝載與鏈接

2.1 整體流程說明

2.2 裝載

2.3 分配 soinfo

2.4 鏈接

2.5 CallConstructors

3. 加殼技術

3.1 loader 執行時機

3.2 loader 完成 SO 的加載鏈接

3.3 soinfo 修復

參考

相關經驗

相關資訊

相關文檔

目錄