Program

11 May 2019

程式編譯過程

C program -> compiler -> assembly code(.o), object file
object file(模組) -> Linker -> 把各個object file, shared object連成一個可執行檔
loader load到記憶體裡

然後gcc本身可以想成是一個package, 內部其實含有很多的執行檔分別做不同事情, 如tokenizer,parser, linker等等, 所以我們呼叫gcc時, gcc會根據不同的參數來執行指定的執行檔執行

Preprocessing

第一步可以透過gcc -E的指令把C preprocess然後產出text檔, 這一步基本上就是把macro替換掉, 加入一些function routine(exit,_start,_end)

inlclude<> 跟 include”“的差別

前者會先去compiler預設路徑找該header, 後者compiler會先找當前目錄有沒有該header, 沒有才去compiler預設路徑找header.

重點是compile option裡的 -L, -l順位非常後面，一定都是在預設路徑後再找，不管include的語法為何。

header檔不應該太大
Preprocess會把c檔裡的include的header file資訊也放到c檔裡面。因此當header檔很大而且有許多class、structure的定義甚至時作時，會導致每個c檔preprocess要很久，並且可能導致中間生成的object file包含很多不需要的text, data. 導致大專案編譯速度緩慢、執行檔很大。因此header file應該盡量拆小，不應該發生使用者為了使用某個function而include header，但那個header帶進來一大串的function, structure/class的declaration。

編譯成object file

這段其實是編譯器的精華, 他做的事情基本上就是把macro處理完, 還是text形式的程式碼真的轉換成machine-specific的assembly或binary file, 我們可以把整個流程分成幾個步驟

會透過tokenizer把程式裡面的symbol抓出來, 不論是variable name, function name, operators都是
抓出token後建立syntax tree, 這裡會簡單檢查語法(透過context free grammar,定義好一些規則, 看statement是否符合這些規則, 例如括號有對稱之類的)
Semantic check, 判斷syntax完後換判斷語意, 這部分包括判斷運算的變數型態是否正確, 是否出現int a = 5.12這種不合法的語意
判斷完後會產生一種中介語言(intermediate code), 可能是p-code或者three-way code, 就是把整個程式碼的statement簡化成幾種簡單的表示形式, 接著就編譯成obj檔
obj檔基本上就是把這個檔案內現有的程式變成Machine code的格式, 所以要用objdump才能看到asm的部分, 這時只是單純把c code轉成machine code, 變數或者import的Function位置都還沒填入, 畢竟只編譯單純一個檔案, 自然用到其他檔案的函式的話就不知道他們的位址, 這部分會交給後續的Linker來做填入變數, 函式的部分(relocation).

透過gcc -S可以把c檔變成assembly檔()
gcc -c可以把c變成obj檔, 不會呼叫linker

Object module

編成assembly code時，有變成.o檔的形式，他會紀錄這個程式的header,text segment,relocation info(aslr關係，紀錄text,儲存位置的offset)，symbol table。
library會用.o形式儲存，利用linker把library裡面的function link到那個主程式的檔案

基本上這裡引入的是模組化的概念, 原因是我們在寫程式時會用一堆函式來幫忙(因為應該沒人會想寫inline asm或者systemcall來時做東西吧…),包括libc裡面的各種函式或者自己寫的函式, 如果我們把這些已經寫好的東西每次都要import到現在這個新的程式碼裡面, 程式碼會爆炸大, 可能一個簡單hello world就要數百甚至數千行, 因次採用模組話概念, 把其他Function寫在其他.c檔, 最後可以編譯成不同的格式(o, a, so檔), 然後各個檔案編譯完後,最後再透過連結方式連結近來就好. 這樣單一個hello world程式碼就變成非常乾淨, 不會說要用printf就要把printf程式碼複製進來這個現在檔案.

程式檔本身是會有external reference的狀況(即引用其他c檔案的symbol, 如使用其他c檔案的variable, user-defined data type, function等等)，編譯成obj檔這部分只針對單一檔案進行，所以對這些external symbol是沒辦法解析的，obj檔通常會先把這些variable在程式碼中填入0x0或者0xfcffffff, 舉例而言mov 0x0 0x4(%esp), 因為不知道variable位址，所以指令上先填入0x0,之後linker在把正確位址填入。 linker連接完後，會把該行指令變成mov 0x804108 0x4(esp), 0x804108就是linker link完後該variable的VMA。

Linker

G++實際上在編譯複數個Cpp檔時，是逐一把cpp檔變成各個object file,接著在用linker把object file連再一起變成executables, 所以以下指令是等價的。而把多個object file連再一起的過程就是linker (ld)這隻binary。

$ gcc 1.c 2.c -o test
等於
$ gcc 1.c -o 1.o
$ gcc 2.c -o 2.o
$ gcc 1.o 2.o -o test

取得library,function和把複數個object file合在一起(處理reloc,external reference(存取其他.o檔的變數、函式), 就像上述說的obj檔基本上就是把程式碼變成machine code, 但因為只編譯單一檔案, 所以他對使用的外部函式(import其他檔案的函式)一無所知, 所以這時的很多指令用到的symbol其實位置都沒填入, linker一部分工作就是負責把這些symbol建立起來, 位置填入，並把複數個obj檔的區段做合併(如合併symbol table, text等等)

gcc file1.o file2.o -o exe : 把3個object檔statically link成一個executables
gcc -L[Dir] -l[object file] : -L就是加入library的位置, -l就是找Dir裡面的指定的library連起來(.so(dynamic link)或者.a(static link))
上面兩個步驟基本上就是static linking, 就是把所有object檔案擠在一起變成一個很肥的executables, compile會去先去預設路徑找library，找不到才去user指定路徑找library, 找到就把他library跟現在的檔案link起來
gcc -I 指定compiler要去哪裡找header file, 因為header file的位置不一定在現在目錄，可能放在其他地方，因此指定資料夾, compiler才會去該資料夾找header file. Compiler會先去預設路徑找(/usr/lib等等位置)，沒找到才會去 compile option的路徑找

gcc找header file預設路徑:

/usr/local/include
/usr/lib/gcc-lib/target/version/include
/usr/target/include
/usr/include

-L和-Wl -rpath的不同

-L, -l 是用於compile time時linker找檔案時的路徑
-Wl -rpath是runtime (dynamic linker)會去dynamic load shared library的路徑

簡言之, 對於static link binary, 我們只需要-L,-l的option, 因為一切都是在compile time完成
但對於dynamic load的binary (即binary有使用到non-standard shared library) 就必須-L, -l, -Wl, -rpath四個option都要，原因是dynamic load的binary肯定需要-Wl, -rpath來指定跑binary時, dynamic linker要去哪裡run-time load so檔

至於為何dynamic load的binary也需要-L, -l，具體原因未知，可能是compile time時, linker也需要這些參數來在object file有些標注。

執得注意的事, -L, -l的compile option是有差別的，當binary使用到多個在不同位置的header, library時，我們會在compile option裡加多個-L ,-l。此時compiler會由左至右定義的-L來尋找並且resolve這些symbol，當不同library symbol有dependency時，-L宣告順序就有差，不然會導致undefined symbol。

g++ -L <pathA> -la -L <pathB> -lb

如果library b內的symbol有定義在library a, 那上述的compile指令會有問題，應該把pathB, pathA的順序對調，不然compiler 真的去resolve library b的symbol時，他不會去拿library A的symbol來link, 因為library a定義在前面，已經import了，最終會導致library b內的那個symbol undefined, 因為linker沒把他跟library a裡的定義連再一起。

linker一般採用two-pass linking，把object file連結成執行黨檔的步驟分成兩步:

空間位址分配:
- 掃描所有obj檔，獲得各個區段的長度、屬性、位址，將各個obj檔symbol table裡的symbol搜集起來放到一個全域的symbol table，
- 賦予每個segment一個虛擬位址(Virtual Memory Address, VMA)
符號解析和relocate:
- 配合reloc table進行符號解析跟位址重定(例如external reference符號，把符號位址填入，原本單一個obj檔可能有很多符號來自另一個obj檔，所以暫時填入0,linker就是要把正確的位址填入)
- 決定每個符號(function, variable)各個符號的offset

ld a.o b.o -e main -o ab

-o: 輸出的檔名為ab
-e: 將function main作為程式的入口, ld會把_start呼叫main

g++ 找尋header, library的優先順序

以下資料參考自chatgpt，必須要實際驗證才能確定是如此

For header file, 找尋順序為

當前目錄
-I
std library path

For library

-L
default system path
runtime path -Wl -rpath
LD_LIBRARY_PATH
ldconfig (runtime library path cache)

Relocation Table

一個程式檔裡可以有0或多個重定表，確切說是任何需要重定位址的segment都需要一個重定表(如.rel.data, .rel.text), 可以使用objdump -r a.o來看一個obj檔裡的reloc segments

重定表內紀錄該segment內需要重定的symbol(如.rel.text就紀錄text區段需要重定的symbol/function等等)，每個symbol就叫一個relocation entry, 紀錄該symbol跟symbol距離該segment的起點的offset, 以及reloc的info(如重定項的類別，符號在symbol table的offset)

每種處理器處理重定向的細節都會有所不同，所以才會要有重定向的類別的資訊。

在linker連結obj檔時，一個很大的任務就是把reloc table裡的所有symbol都定址，正常狀況下未定址的symbol他的section位址在symbol table都是顯示UND，然後linker就是要把reloc table裡每個entry都iterate一遍，去global symbol table找到該symbol並定址。如果linker最終有發現有reloc entry找不到reference, 那就會報錯。

Shared Object

Object檔問題是每次編譯都要放到binary裡面, 一來是程式會變得很肥大, 二來是如果很多程式經常會使用某個object file, 那變成那個object file會複製很多份放到各個binary file裡面, 非常佔空間, 所以用shared object讓需要的人再來linked這個object, 而不用binary編譯時就把library放到程式裡面.

通常會下pic(position independent code)的指令, 目標就是把一個程式編譯成library的形式能夠給其他program之後import, 裡面可以含有多個.c .h檔, 把它包成一個so檔(如libc.so)

gcc -shared PIC test1.o test2.o -o libfoo.so
PIC指令讓code在編譯時盡量不要在asm裡面有絕對的記憶體位置, 盡量都用相對的形式(如rsp +0x10000之類的)

如果有用自己產生的shared object,執行時可能也要設定LD_LIBRARY_PATH, 不然linux會不知道去哪裡找shared object

useful commands

ldd: 看程式有link那些shared object
nm: 看程式有哪些symbol
objdump: 把binary變成asm, 但不會顯示shared object裡的library的asm, 只會顯示當前執行檔的
readelf: 讀elf檔格式跟各個section位置

g++ -print-search-dirs  ->可以看g++ compile時會去哪裡找std header file跟so檔

執行流程

當編譯成執行檔並執行後, OS接收到指令會開啟一個Process來跑我們這個執行檔,同時OS也會allocate好記憶體跟page table給這個process, 而執行檔在編譯時就已經把一些C的startup routine連接好(libc_start_main等等) 所以program counter一開始會先把這些程式的start up routine跑完才開始跑main function, 接著either main function return或者呼叫exit 程式就會終止, 終止時會一樣由程式編譯進去的exit handler來處理好一些事情然後OS真的把process kill掉

Loading a program

loader在編譯時已經以shared object的形式跟binary檔link再一起(所以ldd binary file時除了看到libc library通常還會看到一個ld-linux.so, 這個就是loader), loader的工作就是把程式的symbol, 程式各個片段放到memory裡執行

把程式移到memory，

讀header(text segment, symbol table…)
建立virtual address
把程式、data寫進memory，stack建好(esp,ebp…)
eip移到該處執行

Dynamic linking (lazy linkage)

static linking直接把用到的library的.o檔放進binary file裡，結果是binary file會變超肥，因為包含很多.o檔。
dynamic linking 只有在要call那個function時才load該.o檔
第一次call function時，會用linker, loader把該.o檔、function import進來，第二次呼叫該function後就已經有該function，不用在call linker, loader，程式就已經把該function load進memory且知道位址了。

跑起該binary時，因為要dynamic load shared library, 所以必須設定LD_LIBRARY_PATH到指定的shared library路徑，不然會跑不起來

Reference

shared library, object file
C compile stage

Program memory layout

stack allocate從high address到low address(往下長)
heap allocate從low address到high address(往上長)
bss:沒initialize的直會放在這裡，例如沒initialize的全域變數(但exec會幫忙做initialize to default value)
data: 有initialize的data放這，例如initialize的全域變數
bss/data section都是同時可以read/write
text: 程式碼區段: 只能read,執行

stack 會有fp,sp紀錄現在這個frame

fp:存這個frame的base，

一來能夠在遞迴時fp持續指向上個stack frame位置，能夠在這個frame return後能再次回到上個frame位置，
本身不像sp會動，所以可以拿來當作指向這個stack裡面變數的基準

EX: mov $eax, $fp + 0x48

ELF format

ELF header就是紀錄magic number, entry point, machine, type(.o, .so)之類的資訊
Program header table紀錄各個section位置