4G空中介面通用的OFDMA和MIMO技術實現探討 @ jcjin的心情筆記

無線通訊正不斷產生變化。所有新的4G空中介面(WiMAX、LTE、UMB、802.20、WiBRO、下一代PHS等)都共享著某些公共技術：所有介面都基於正交頻分多址接取(OFDMA)；所有介面使用MIMO(多輸入多輸出)；所有介面都採用‘扁平化架構’並且都基於IP(網際網路協議)。

本文將討論其中的前兩項：具體地說，首先是介紹如何實現OFDMA的核心DSP演算法，然後是被LTE用來實現上行鏈路的新技術，最後簡要介紹用於WiMAX和LTE的MIMO(所有IP方面的內容不在本文討論範圍內)。本文討論的前提條件是採用軟體定義的架構。

OFDM使用大量緊鄰的正交子載波。每個子載波採用傳統的調變方案(如正交幅度調變)進行低符號率調變，其數據速率保持與相同頻寬下的傳統單載波調變方案相同。增強性能的OFDMA技術允許透過為多個用戶分配特殊頻率並共享訊息通道。

採用單載波方案的OFDM的主要優點是無需複雜的均衡濾波器就能夠應付多種訊息通道條件。例如，很長的銅線中產生的高頻衰減，窄頻干擾以及由於多徑導致的頻率選擇性衰落。由於OFDM可以看作使用許多慢速調變的窄頻訊號，而不是使用一個快速調變的寬頻訊號，因此訊息通道均衡可以得到簡化。低符號率可以充分利用符號間可提供的保護間隔，因而使得處理時域擴展(time-spreading)成為可能，並能消除碼間干擾(ISI)。

在目前為止的大多數系統中，如WiFi、16d和16e WiMAX和LTE下行鏈路，核心演算法一直是FFT。然而，LTE上行鏈路進行了革新，要求使用更複雜的離散傅利葉變換(DFT)。

所有這些系統不僅需要高速FFT處理，而且要求靈活性。頻增的市場壓力要求供應商發佈的產品相容較早的標準，但也必須具備足夠的靈活性，以便能透過簡單的軟體升級而升級到最終版本，或者是讓同一個系統支援不同的模式或不同的標準(如用於LTE和WiMAX的公共平台)。

然而，也可以採用可編程平台，這種可編程平台可以在靈活的軟體引擎上高效地實現針對硬體的演算法。picoChip公司的高性能PC102就是一個很好的例子，它結合了軟體開發環境的上市時間和擷取優勢以及在演算法中採用平行機制帶來的性能優勢。

FFT其實就是離散傅利葉變換(DFT)的一種高效實現。對於一個N點DFT來說，直接實現要求N²次複雜的乘法與加法運算，但作為一個提供極高效率增益的完美例子，經典的FFT只要求N2N次運算。

有兩種方法可以將DFT減少為一系列更簡單的運算。一種方法是執行頻域擷取，另一種方法是執行時域擷取。這兩種方法需要相同數量的複雜乘法和加法運算。兩者的主要區別是，時域擷取接受數位翻轉的輸入，產生正常順序的輸出，而頻域擷取則接受正常順序的輸入，產生數位翻轉的輸出。輸入和輸出運算由所謂的蝶形運算完成。每個蝶形運算都要將輸入乘上複雜的旋轉因子e^-j2πn/N。

管線FFT可以採用對串列輸入串流的即時連續處理進行表徵。針對硬體的方法透過盡量減少複雜乘法器的數量和所需的儲存空間來減少矽晶片的成本或面積。這樣可以在一定的面積上平行運算更多的單元。

FFT演算法涉及到數據的暫時分離，這是由蝶形運算執行的一項任務。由於樣值要從輸入串流中的不同點處獲取，因此管線FFT需要對數據進行緩衝記憶體和重新排序。目前有許多不同的架構可以解決這個問題。本文的FFT用例採用了標準的radix-4頻域擷取演算法。

FFT的picoArray實現方案

picoChip PC102是一款高性能的多核心DSP，專門針對無線進行了最佳化。它在單個晶片上整合了300多個種類略有不同的處理器(或‘陣列單元’)：每個處理器均是自帶記憶體的傳統16位元哈佛結構DSP，如表1所示。

表1：PC102處理器變化和記憶體分佈(*FFT的最大數量受限於可用MEM類AE的數量)。

picoArray編程模型使得組裝管線結構變得非常容易，這也是實現FFT所用的方法。舉例來說，每個radix-4蝶形運算包括4個複雜的乘法(注意，第4個蝶形運算只包含複雜的加法)，並被映射到一個獨立的處理器。每個陣列單元都是從內部匯流排獲取輸入數據，經過處理後再向管線中的下一個DSP提供輸出。由於總的吞吐量受限於最慢的陣列單元，因此理想情況下陣列單元上的每個環回都應花相同數量的週期才能實現最佳的性能。例如，如果每個陣列單元在8個週期內處理每個樣值，那麼最大吞吐量在160MHz時可達每秒20M個採樣。

FFT實現接收16+j16、左對齊、按順序輸入的數據，提供16+j16、也按順序的輸出數據。在每個蝶形運算中會產生位元增加現象，其中2個位元用於加法，16個位元用於複雜的乘法，這種位元增加在採用捨入策略的40位元STNA2 AE累加器中很容易管理。這種機制可以保持中間值的最佳可能精密度，因而達到較高的輸出數據訊息雜訊比。圖1a顯示了本實現中的單元。

圖1：FFT內部單元；平行FFT可實現LTE上行鏈路要求的更高吞吐量DFT。

表2總結了PC102上的256點FFT的性能。表2提供了複雜採樣速率在10MSps和80MSps之間的256點FFT所要求的資源，並顯示了在PC102上能以每個速率點執行的最大FFT數量。從表中可以看出，單個10MSps FFT需要約1.5%的資源。

從圖1b可以看出如何透過整合‘建構模組’FFT來獲得更高的吞吐量──顯然平行架構是非常適合的。

雖然目前大多數標準採用OFDM(WiFi、802.16d、Flash OFDM)或OFDMA(802.16e)，但LTE選用的上行鏈路發送機制是最新的SC-FDMA(單載波FDMA)，也稱為DFT擴展OFDM。

與傳統OFDMA相較，SC-FDMA的優點是訊號具有更低的峰值/平均功率比(PAPR)，因為它採用了固有的單載波結構。這在上行鏈路中尤其重要，因為在上行鏈路中更低的PAPR可以使行動終端在發送功效方面得到更大的好處，並進而延長電池使用時間。因此一些人士認為，SC-FDMA‘集兩者之大成’，即單載波的低PAPR和多載波的強韌性。當然，天下沒有免費的午餐，這些好處的代價是增加了數位處理的複雜性，如上所述。

SC-FDMA上行鏈路的實現如圖2所示，其中DFT位於OFDM調變器之前，這顯示比標準OFDMA要多一些步驟。

圖2：SC-FDMA或DFT擴展OFDM。

眾所周知，如果變換點數可以分解成少量的數(素數)，就可以高效地實現DFT。分解時素數越少，實現越簡單。當然，經典FFT使用單個素數因子2。

LTE中的DFT預編碼器尺寸取決於為指定用戶的上行鏈路數據發送分配的子訊息通道數量。

其中N是子載波的數量，a、b和c在N≦1,320條件下都大於等於0(20MHz頻寬時)。對於指定的用戶，N範圍可以從12個音(a,b,c=0,即單個資源模組)到1,296，總共35個不同的選擇，這些音再一起經過調變形成單載波上行鏈路。然而，這是在手機發送器部份，因為基地台接收機要處理許多用戶，每個用戶從這些選項中作出選擇，針對所有可能的訊框配置的總允許變換器數量是531、783、569。這種靈活性顯然增加了接收iDFT的複雜性。

用於分解iDFT的技術是‘分而治之’，主要原理與大家熟悉的FFT相同，但iDFT的長列表無法被分解成單個素數因子。相反，每個音可以被分解成長度為2、3和5的三個短iDFT。這些是iDFT的‘引擎’。在本例實現中，一些iDFT已經被分解成素數因子(如4、8和9)以外的其他因子，以便將管線級的最大數量減少至3，因而帶來縮短延遲的好處。

圖3顯示了LTE iDFT的邏輯結構，這種結構可用來在PC102/PC20x上實現20MHz的LTE eNodeB。

圖3：LTE iDFT庫結構。

管線級必須能夠實現所有35種可能的iDFT功能，並動態地重新配置和避免由於不同長度iDFT同時流過而造成的任何管線危害。最簡單的架構是重新排序+級緩衝對A、B和C都成為用來實現所有6個iDFT引擎的相同功能區塊的實例(如果運算1點iDFT就是7台引擎，即通過不變)。更最佳化的解決方案確認只有一級需要實現9點引擎，另外一級需要實現8點引擎，第三級需要4點引擎，加上2、3和5個引擎，因為任何iDFT長度都不需要超過一個9、8或4。

使事情複雜化的因素之一是，LTE是一個頻寬可擴展的系統(簡言之，TDD/FDD都是1.25MHz～20MHz)。表3列出了不同模式時的不同實現方式。雖然與FFT相較靈活性有一定的代價(見表2)，但值得注意的是，這種架構在實現這些配置時效率仍然特別高：即使所需的20MHz+20MHz FDD(最壞情況)資源也仍只佔PC102的10%。

表2：picoArray上的OFDMA採用的256點 16+j16 FFT的資源使用。

表3：picoArray上可擴展iDFT的資源使用。

MIMO

MIMO是指在發送機和接收機上使用多幅天線以改善通訊性能，它是所有4G系統的一個特點。

MIMO不需要增加頻寬或發送功率就能顯著地提高數據吞吐量和鏈路距離，並具有更高的頻譜效率(每秒每赫茲頻寬可傳更多的位元)和鏈路可靠性或空間分集性能(降低了衰落)。

發送(TX)端有m幅天線，接收(RX)端有n幅天線，就形成了一個m×n的MIMO，此時訊息通道的數量就等於所有組合之和：例如一個2×2的MIMO就有4個‘訊息通道’(1-1,1-2,2-1,2-2)，性能將達到SISO系統中香農極限值的兩倍。你只能從4個‘訊息通道’中發送2倍的資訊，因為你需要‘解開’訊息通道矩陣才能擷取資訊。在實際應用中，訊息通道不是完全獨立的(存在一定的相關性)，因此優勢有所降低。事實上有個似是而非的結論，即訊息通道越差(更多的多徑等)，MIMO的用處就越大，因為訊息通道相關性越少。在自由空間中，由於4個訊息通道非常相似，因此帶來的好處非常有限。

MIMO有多種不同的使用方式。拿WiMAX下行鏈路來說，它有兩種標準的MIMO模式：Matrix A和Matrix B。前者也被稱為空間時間編碼(STC)，它透過兩幅發射天線以不同的形式發送相同的訊號。由於發送的是相同的符號，數據速率在SISO上不會提高，但由於兩種形式(s和-s*)不同，接收機有更好的機會恢復數據，因此強韌性和範圍(針對指定的數據速率)得到了改善。為了在下行鏈路中實現這一技術，雖然符號率區塊不受影響(發送的一個符號)，但現在有兩個突發鏈(burst chain)，它們用不同調變形式的資訊饋送到兩幅天線。

Matrix B則相反，它透過發送兩個不同的符號來獲得雙倍的數據速率。在這種情況下，共有兩個突發鏈(針對兩幅天線)，每個鏈處理獨立的符號；在實際應用中，它將不是簡單的複製，而是符號率部份將被設計得更加速速，然後將輸出訊號交替發送給兩個TX分支。實際系統同時支援兩種模式，可以根據每個用戶要求選擇Matrix A或B：向條件較好的系統以較快的速度發送數據，而使用STC能使蜂巢式邊緣的系統受益。

這非常適合多核心架構。如圖4所示，有兩個獨立的突發鏈饋送倒兩幅天線：同樣的架構被簡單地例示了兩次，這對工程師來說非常簡單。這個特殊的圖實際上稍微有些複雜，在實際應用中，許多系統都結合使用MIMO和多種空間技術，如波束成形、‘調零’(null-steering)天線或SDMA。這個特殊設計共有8幅天線，配置為每個MIMO分支4幅，每個天線都可以獨立控制。

圖4：具有兩個獨立突發鏈的MIMO下行鏈路系統。這種系統還包括波束成形，共有8幅天線。

在接收機部份，訊號處理相對更加複雜：不僅因為Matrix B有更高的峰值數據速率，而且用於區分不同訊號的接收機特別複雜。

本文小結

空中介面正變得越來越複雜，並且依賴於更複雜的演算法才能獲得最佳的性能、效率和範圍。基於FFT的OFDMA已經成為下一代無線的標準技術。但最新的技術，如LTE，也在尋求做出更多的改善：它們採用更複雜的技術，如SC-FDMA，並要求靈活的DFT技術。

我們可以使用軟體可編程架構來模仿針對硬體的折衷所具有的優勢和靈活性，引導系統製造商更早地進入需要WiMAX和LTE等演算法的市場。這樣就能讓他們比競爭對手更早地推出產品，並仍確保與標準的相容。事實上，一個合適的架構可以實現從一個公共平台開始的所有標準(如802.16d/e和LTE，以及下一代PHS或UMB)。擴展這種架構以支援MIMO相對比較簡單。

作者：Sam Jenkins

　　首席工程師

　　picoChip公司