深度學習指南:在iOS平臺上使用TensorFlow

RosBoudreau 7年前發布 | 43K 次閱讀 TensorFlow

在利用深度學習網絡進行預測性分析之前,我們首先需要對其加以訓練。目前市面上存在著大量能夠用于神經網絡訓練的工具,但TensorFlow無疑是其中極為重要的首選方案之一。

大家可以利用TensorFlow訓練自己的機器學習模型,并利用這些模型完成預測性分析。訓練通常由一臺極為強大的設備或者云端資源完成,但您可能想象不到的是,TensorFlow亦可以在iOS之上順利起效——只是存在一定局限性。

在今天的博文中,我們將共同了解TensorFlow背后的設計思路、如何利用其訓練一套簡單的分類器,以及如何將上述成果引入您的iOS應用。

在本示例中,我們將使用 “根據語音與對話分析判斷性別” 數據集以了解如何根據音頻記錄判斷語音為男聲抑或女聲。

獲取相關代碼: 大家可以通過GitHub上的 對應項目 獲取本示例的源代碼。

TensorFlow是什么,我們為何需要加以使用?

TensorFlow是一套用于構建計算性圖形,從而實現機器學習的軟件資源庫。

其它一些工具往往作用于更高級別的抽象層級。以Caffe為例,大家需要將不同類型的“層”進行彼此互連,從而設計出一套神經網絡。而iOS平臺上的BNNS與MPSCNN亦可實現類似的功能。

在TensorFlow當中,大家亦可處理這些層,但具體處理深度將更為深入——甚至直達您算法中的各項計算流程。

大家可以將TensorFlow視為一套用于實現新型機器學習算法的工具集,而其它深度學習工具則用于幫助用戶使用這些算法。

當然,這并不是說用戶需要在TensorFlow當中從零開始構建一切。TensorFlow擁有一整套可復用的構建組件,同時囊括了Keras等負責為TensorFlow用戶提供大量便捷模塊的資源庫。

因此TensorFlow在使用當中并不強制要求大家精通相關數學專業知識,當然如果各位愿意自行構建,TensorFlow也能夠提供相應的工具。

利用邏輯回歸實現二元分類

在今天的博文當中,我們將利用邏輯回歸( logistic regression )算法創建一套分類器。沒錯,我們將從零開始進行構建,因此請大家做好準備——這可是項有點復雜的任務。所謂分類器,其基本工作原理是獲取輸入數據,而后告知用戶該數據所歸屬的類別——或者種類。在本項目當中,我們只設定兩個種類:男聲與女聲——也就是說,我們需要構建的是一套二元分類器( binary classifier )。

備注:二元分類器屬于最簡單的一種分類器,但其基本概念與設計思路同用于區分成百上千種不同類別的分類器完全一致。因此,盡管我們在本份教程中不會太過深入,但相信大家仍然能夠從中一窺分類器設計的門徑。

在輸入數據方面,我們將使用包含20個數字朗讀語音、囊括多種聲學特性的給定錄音。我將在后文中對此進行詳盡解釋,包括音頻頻率及其它相關信息。

在以下示意圖當中,大家可以看到這20個數字全部接入一個名為sum的小框。這些連接擁有不同的weights(權重),對于分類器而言代表著這20個數字各自不同的重要程度。

以下框圖展示了這套邏輯分類器的起效原理:

在sum框當中,輸入數據區間為x0到x19,且其對應連接的權重w0到w19進行直接相加。以下為一項常見的點積:

sum = x[0]*w[0] + x[1]*w[1] + x[2]*w[2] + ... + x[19]*w[19] + b

我們還在所謂bias(偏離)項的末尾加上了b。其僅僅代表另一個數字。

數組w中的權重與值b代表著此分類器所學習到的經驗。對該分類器進行訓練的過程,實際上是為了幫助其找到與w及b正確匹配的數字。最初,我們將首先將全部w與b設置為0。在數輪訓練之后,w與b則將包含一組數字,分類器將利用這些數字將輸入語音中的男聲與女聲區分開來。為了能夠將sum轉化為一條概率值——其取值在0與1之間——我們在這里使用logistic sigmoid函數:

y_pred = 1 / (1 + exp(-sum))

這條方程式看起來很可怕,但做法卻非常簡單:如果sum是一個較大正數,則sigmoid函數返回1或者概率為100%; 如果sum是一個較大負數,則sigmoid函數返回0。因此對于較大的正或者負數,我們即可得出較為肯定的“是”或者“否”預測結論。

然而,如果sum趨近于0,則sigmoid函數會給出一個接近于50%的概率,因為其無法確定預測結果。當我們最初對分類器進行訓練時,其初始預期結果會因分類器本身訓練尚不充分而顯示為50%,即對判斷結果并無信心。但隨著訓練工作的深入,其給出的概率開始更趨近于1及0,即分類器對于結果更為肯定。

現在y_pred中包含的預測結果顯示,該語音為男聲的可能性更高。如果其概率高于0.5(或者50%),則我們認為語音為男聲; 相反則為女聲。

這即是我們這套利用邏輯回歸實現的二元分類器的基本設計原理。輸入至該分類器的數據為一段對20個數字進行朗讀的音頻記錄,我們會計算出一條權重sum并應用sigmoid函數,而我們獲得的輸出概率指示朗讀者應為男性。

然而,我們仍然需要建立用于訓練該分類器的機制,而這時就需要請出今天的主角——TensorFlow了。

在TensorFlow中實現此分類器

要在TensorFlow當中使用此分類器,我們需要首先將其設計轉化為一套計算圖( computational graph) 。一項計算圖由多個負責執行計算的節點組成,且輸入數據會在各節點之間往來流通。

我們這套邏輯回歸算法的計算圖如下所示:

看起來與之前給出的示意圖存在一定區別,但這主要是由于此處的輸入內容x不再是20個獨立的數字,而是一個包含有20個元素的向量。在這里,權重由矩陣W表示。因此,之前得出的點積也在這里被替換成了一項矩陣乘法。

另外,本示意圖中還包含一項輸入內容y。其用于對分類器進行訓練并驗證其運行效果。我們在這里使用的數據集為一套包含3168條example語音記錄的集合,其中每條示例記錄皆被明確標記為男聲或女聲。這些已知男聲或女聲結果亦被稱為該數據集的label(標簽),并作為我們交付至y的輸入內容。

為了訓練我們的分類器,這里需要將一條示例加載至x當中并允許該計算圖進行預測:即語音到底為男聲抑或是女聲?由于初始權重值全部為0,因此該分類器很可能給出錯誤的預測。我們需要一種方法以計算其錯誤的“具體程度”,而這一目標需要通過loss函數實現。Loss函數會將預測結果y_pred與正確輸出結果y進行比較。

在將loss函數提供給訓練示例后,我們利用一項被稱為backpropagation(反向傳播)的技術通過該計算圖進行回溯,旨在根據正確方向對W與b的權重進行小幅調整。如果預測結果為男聲但實際結果為女聲,則權重值即會稍微進行上調或者下調,從而在下一次面對同樣的輸入內容時增加將其判斷為“女聲”的概率。

這一訓練規程會利用該數據集中的全部示例進行不斷重復再重復,直到計算圖本身已經獲得了最優權重集合。而負責衡量預測結果錯誤程度的loss函數則因此隨時間推移而變低。

反向傳播在計算圖的訓練當中扮演著極為重要的角色,但我們還需要加入一點數學手段讓結果更為準確。而這也正是TensorFlow的專長所在:我們只要將全部“前進”操作表達為計算圖當中的節點,其即可自動意識到“后退”操作代表的是反向傳播——我們完全無需親自進行任何數學運算。太棒了!

Tensorflow到底是什么?

在以上計算圖當中,數據流向為從左至右,即代表由輸入到輸出。而這正是TensorFlow中“流(flow)”的由來。不過Tensor又是什么?

Tensor一詞本義為張量,而此計算圖中全部數據流皆以張量形式存在。所謂張量,其實際代表的就是一個n維數組。我曾經提到W是一項權重矩陣,但從TensorFlow的角度來看,其實際上屬于一項二階張量——換言之,一個二組數組。

一個標量代表一個零階張量。

  • 一個向量代表一個一階張量。
  • 一個矩陣代表一個二階張量。
  • 一個三維數組代表一個三階張量。
  • 之后以此類推……

這就是Tensor的全部含義。在卷積神經網絡等深度學習方案當中,大家會需要與四維張量打交道。但本示例中提到的邏輯分類器要更為簡單,因此我們在這里最多只涉及到二階張量——即矩陣。

我之前還提到過,x代表一個向量——或者說一個一階張量——但接下來我們同樣將其視為一個矩陣。y亦采用這樣的處理方式。如此一來,我們即可將數據庫組視為整體對其loss進行計算。

一條簡單的示例(example)語音內包含20個數據元素。如果大家將全部3168條示例加載至x當中,則x會成為一個3168 x 20的矩陣。再將x與W相乘,則得出的結果y_pred為一個3168 x 1的矩陣。具體來講,y_pred代表的是為數據集中的每條語音示例提供一項預測結論。

通過將我們的計算圖以矩陣/張量的形式進行表達,我們可以一次性對多個示例進行預測。

安裝TensorFlow

好的,以上是本次教程的理論基礎,接下來進入實際操作階段。

我們將通過Python使用TensorFlow。大家的Mac設備可能已經安裝有某一Python版本,但其版本可能較為陳舊。在本教程中,我使用的是Python 3.6,因此大家最好也能安裝同一版本。

安裝Python 3.6非常簡單,大家只需要使用Homebrew軟件包管理器即可。如果大家還沒有安裝homebrew,請 點擊此處 參閱相關指南。

接下來打開終端并輸入以下命令,以安裝Python的最新版本:

brew install python3

Python也擁有自己的軟件包管理器,即pip,我們將利用它安裝我們所需要的其它軟件包。在終端中輸入以下命令:

pip3 install numpy 
pip3 install scipy 
pip3 install scikit-learn 
pip3 install pandas 
pip3 install tensorflow

除了TensorFlow之外,我們還需要安裝NumPy、SciPy、pandas以及scikit-learn:

NumPy是一套用于同n級數組協作的庫。聽起來耳熟嗎?NumPy并非將其稱為張量,但之前提到了數組本身就是一種張量。TensorFlow Python API就建立在NumPy基礎之上。

  • SciPy是一套用于數值計算的庫。其它一些軟件包的起效需要以之為基礎。
  • pandas負責數據集的加載與清理工作。
  • scikit-learn在某種意義上可以算作TensorFlow的競爭對手,因為其同樣是一套用于機器學習的庫。我們之所以在本項目中加以使用,是因為它具備多項便利的功能。由于TensorFlow與scikit-learn皆使用NumPy數組,因為二者能夠順暢實現協作。

實際上,大家無需pandas與scikit-learn也能夠使用TensorFlow,但二者確實能夠提供便捷功能,而且每一位數據科學家也都樂于加以使用。

如大家所知,這些軟件包將被安裝在 /usr/local/lib/python3.6/site-packages 當中。如果大家需要查看部分未被公布在其官方網站當中的TensorFlow源代碼,則可以在這里找到。

備注:pip應會為您的系統自動安裝TensorFlow的最佳版本。如果大家希望安裝其它版本,則請點擊此處參閱官方安全指南。另外,大家也可以利用源代碼自行構建TensorFlow,這一點我們稍后會在面向iOS構建TensorFlow部分中進行說明。

下面我們進行一項快速測試,旨在確保一切要素都已經安裝就緒。利用以下內容創建一個新的tryit.py文件:

import tensorflow as tf 
 a = tf.constant([1, 2, 3]) 
b = tf.constant([4, 5, 6]) 
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))  
print(sess.run(a + b))

而后通過終端運行這套腳本:

python3 tryit.py

其會顯示一些與TensorFlow運行所在設備相關的調試信息(大多為CPU信息,但如果您所使用的Mac設備配備有英偉達GPU,亦可能提供GPU信息)。最終結果顯示為:

[5 7 9]

這里代表的是兩個向量a與b的加和。另外,大家可能還會看到以下信息:

W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library  wasn't compiled to use SSE4.1 instructions, but these are available on your  machine and could speed up CPU computations.

如果出現上述內容,則代表您在系統當中安裝的TensorFlow并非當前CPU的最優適配版本。修復方法之一是利用源代碼自行構建TensorFlow,因為這允許大家對全部選項加以配置。但在本示例當中,由于其不會造成什么影響,因此直接忽略即可。

深入觀察訓練數據集

要訓練分類器,我們自然需要數據。

在本項目當中,我們使用來自Kory Becker的“根據語音判斷性別”數據集。為了能夠讓這份教程能夠與TensorFlow指南上的MNIST數字化識別有所不同,這里我決定在Kaggle.com上尋找數據集,并最終選定了這一套。

那么我們到底該如何立足音頻實現性別判斷?下載該數據集并打開voice.csv文件之后,大家會看到其中包含著一排排數字:

我們首先需要強調這一點,這里列出的并非實際音頻數據!相反,這些數字代表著語音記錄當中的不同聲學特征。這些屬性或者特征由一套腳本自音頻記錄中提取得出,并被轉化為這個CSV文件。具體提取方式并不屬于本篇文章希望討論的范疇,但如果大家感興趣,則可 點擊此處 查閱其原始R源代碼。

這套數據集中包含3168項示例(每項示例在以上表格中作為一行),且基本半數為男聲錄制、半數為女聲錄制。每一項示例中存在20項聲學特征,例如:

以kHz為單位的平均頻率

  • 頻率的標準差
  • 頻譜平坦度
  • 頻譜熵
  • 峰度
  • 聲學信號中測得的最大基頻
  • 調制指數
  • 等等……

別擔心,雖然我們并不了解其中大多數條目的實際意義,但這不會影響到本次教程。我們真正需要 關心的是如何利用這些數據訓練自己的分類器,從而立足于上述特征確保其有能力區分男性與女性的語音。

如果大家希望在一款應用程序當中使用此分類器,從而通過錄音或者來自麥克風的音頻信息檢測語音性別,則首先需要從此類音頻數據中提取聲學特征。在擁有了這20個數字之后,大家即可對其分類器加以訓練,并利用其判斷語音內容為男聲還是女聲。

因此,我們的分類器并不會直接處理音頻記錄,而是處理從記錄中提取到的聲學特征。

備注:我們可以以此為起點了解深度學習與邏輯回歸等傳統算法之間的差異。我們所訓練的分類器無法學習非常復雜的內容,大家需要在預處理階段提取更多數據特征對其進行幫助。在本示例的特定數據集當中,我們只需要考慮提取音頻記錄中的音頻數據。

深度學習最酷的能力在于,大家完全可以訓練一套神經網絡來學習如何自行提取這些聲學特征。如此一來,大家不必進行任何預處理即可利用深度學習系統采取原始音頻作為輸入內容,并從中提取任何其認為重要的聲學特征,而后加以分類。

這當然也是一種有趣的深度學習探索方向,但并不屬于我們今天討論的范疇,因此也許日后我們將另開一篇文章單獨介紹。

建立一套訓練集與測試集

在前文當中,我提到過我們需要以如下步驟對分類器進行訓練:

向其交付來自數據集的全部示例。

  • 衡量預測結果的錯誤程度。
  • 根據loss調整權重。

事實證明,我們不應利用全部數據進行訓練。我們只需要其中的特定一部分數據——即測試集——從而評估分類器的實際工作效果。因此,我們將把整體數據集拆分為兩大部分:訓練集,用于對分類器進行訓練; 測試集,用于了解該分類器的預測準確度。

為了將數據拆分為訓練集與測試集,我創建了一套名為split_data.py的Python腳本,其內容如下所示:

import numpy as np               # 1 
import pandas as pd  df = pd.read_csv("voice.csv", header=0)        # 
2  labels = (df["label"] == "male").values * 1    # 3 
labels = labels.reshape(-1, 1)                 # 4  
del df["label"]                  # 5 
data = df.values  # 6 
from sklearn.model_selection import train_test_split X_train, 
X_test, y_train, y_test = train_test_split(data, labels,                                          test_size=0.3, random_state=123456) 
np.save("X_train.npy", X_train)  # 7 
np.save("X_test.npy", X_test) 
np.save("y_train.npy", y_train) 
np.save("y_test.npy", y_test)

下面我們將分步驟了解這套腳本的工作方式:

  1. 首先導入NumPy與pandas軟件包。Pandas能夠輕松實現CSV文件的加載,并對數據進行預處理。
  2. 利用pandas從voice.csv加載數據集并將其作為dataframe。此對象在很大程度上類似于電子表格或者SQL表。
  3. 這里的label列包含有該數據集的各項標簽:即該示例為男聲或者女聲。在這里,我們將這些標簽提取進一個新的NumPy數組當中。各原始標簽為文本形式,但我們將其轉化為數字形式,其中1=男聲,0=女聲。(這里的數字賦值方式可任意選擇,在二元分類器中,我們通常使用1表示‘正’類,或者說我們試圖檢測的類。)
  4. 這里創建的新labels數組是一套一維數組,但我們的TensorFlow腳本則需要一套二維張量,其中3168行中每一行皆對應一列。因此我們需要在這里對數組進行“重塑”,旨在將其轉化為二維形式。這不會對內存中的數據產生影響,而僅變化NumPy對數據的解釋方式。
  5. 在完成label列之后,我們將其從dataframe當中移除,這樣我們就只剩下20項用于描述輸入內容的特征。我們還將把該dataframe轉換為一套常規NumPy數組。
  6. 這里,我們利用來自scikit-learn的一項helper函數將data與labels數組拆分為兩個部分。這種對數據集內各示例進行隨機洗牌的操作基于random_state,即一類隨機生成器。無論具體內容為何,但只要青筋相同內容,我們即創造出了一項可重復進行的實驗。
  7. 最后,將四項新的數組保存為NumPy的二進制文件格式。現在我們已經擁有了一套訓練集與一套測試集!

大家也可以進行額外的一些預處理對腳本中的數據進行調整,例如對特征進行擴展,從而使其擁有0均值及相等的方差,但由于本次示例項目比較簡單,所以并無深入調整的必要。

利用以下命令在終端中運行這套腳本:

python3 split_data.py

這將給我們帶來4個新文件,其中包含有訓練救命(X_train.npy)、這些示例的對應標簽(y_train.npy)、測試示例(X_test.npy)及其對應標簽(y_test.npy)。

備注:大家可能想了解為什么這些變量名稱為何有些是大寫,有些是小寫。在數學層面來看,矩陣通常以大寫表示而向量則以小寫表示。在我們的腳本中,X代表一個矩陣,y代表一個向量。這是一種慣例,大部分機器學習代碼中皆照此辦理。

建立計算圖

現在我們已經對數據進行了梳理,而后即可編寫一套腳本以利用TensorFlow對這套邏輯分類器進行訓練。這套腳本名為train.py。

與往常一樣,我們首先需要導入需要的軟件包。在此之后,我們將訓練數據加載至兩個NumPy數組當中,即X_train與y_train。(我們在本腳本中不會使用測試數據。)

import numpy as np 
import tensorflow as tf  
X_train = np.load("X_train.npy") 
y_train = np.load("y_train.npy")

現在我們可以建立自己的計算圖。首先,我們為我們的輸入內容x與y定義所謂placeholders(占位符):

num_inputs = 20 
num_classes = 1  

with tf.name_scope("inputs"):     
    x = tf.placeholder(tf.float32, [None, num_inputs], name="x-input")     
    y = tf.placeholder(tf.float32, [None, num_classes], name="y-input")

其中tf.name_scope("...")可用于對該計算圖中的不同部分按不同范圍進行分組,從而簡化對計算圖內容的理解。我們將x與y添加至“inputs”范圍之內。我們還將為其命名,分別為“x-input”與“y-input”,這樣即可在隨后輕松加以引用。

大家應該還記得,每條輸入示例都是一個包含20項元素的向量。每條示例亦擁有一個標簽(1代表男聲,0代表女聲)。我之前還提到過,我們可以將全部示例整合為一個矩陣,從而一次性對其進行全面計算。正因為如此,我們這里將x與y定義為二維張量:x擁有[None, 20]維度,而y擁有[None, 1]維度。

其中的None代表第一項維度為靈活可變且目前未知。在訓練集當中,我們將2217條示例導入x與y; 而在測試集中,我們引入951條示例。現在,TensorFlow已經了解了我們的輸入內容,接下來對分類器的parameters(參數)進行定義:

with tf.name_scope("model"):     
    W = tf.Variable(tf.zeros([num_inputs, num_classes]), name="W")     
    b = tf.Variable(tf.zeros([num_classes]), name="b")

其中的張量W包含有分類器將要學習的權重(這是一個20 x 1矩陣,因為其中包含20條輸入特征與1條輸出結果),而b則包含偏離值。這二者被聲明為TensorFlow變量,意味著二者可在反向傳播過程當中實現更新。

在一切準備就緒之后,我們可以對作為邏輯回歸分類器核心的計算流程進行聲明了:

y_pred = tf.sigmoid(tf.matmul(x, W) + b)

這里將x與W進行相乘,同時加上偏離值b,而后取其邏輯型成長曲線(logistic sigmoid)。如此一來,y_pred中的結果即根據x內音頻數據的描述特性而被判斷為男聲的概率。

備注:以上代碼目前實際還不會做出任何計算——截至目前,我們還只是構建起了必要的計算圖。這一行單純是將各節點添加至計算圖當中以作為矩陣乘法(tf.matmul)、加法(+)以及sigmoid函數(tf.sigmoid)。在完成整體計算圖的構建之后,我們方可創建TensorFlow會話并利用實際數據加以運行。

到這里任務還未完成。為了訓練這套模型,我們需要定義一項loss函數。對于一套二元邏輯回歸分類器,我們需要使用log loss,幸運的是TensorFlow本身內置有一項log_loss()函數可供直接使用:

with tf.name_scope("loss-function"):     
    loss = tf.losses.log_loss(labels=y, predictions=y_pred)     
    loss += regularization * tf.nn.l2_loss(W)

其中的log_loss計算圖節點作為輸入內容y,我們會獲取與之相關的示例標簽并將其與我們的預測結果y_pred進行比較。以數字顯示的結果即為loss值。

在剛開始進行訓練時,所有示例的預測結果y_pred皆將為0.5(或者50%男聲),這是因為分類器本身尚不清楚如何獲得正確答案。其初始loss在經-1n(0.5)計算后得出為0.693146。而在訓練的推進當中,其loss值將變得越來越小。

第二行用于計算loss值與所謂L2 regularization(正則化)的加值。這是為了防止過度擬合阻礙分類器對訓練數據的準確記憶。這一過程比較簡單,因為我們的分類器“內存”只包含20項權重值與偏離值。不過正則化本身是一種常見的機器學習技術,因此在這里必須一提。

這里的regularization值為另一項占位符:

with tf.name_scope("hyperparameters"):     
    regularization = tf.placeholder(tf.float32, name="regularization")     
    learning_rate = tf.placeholder(tf.float32, name="learning-rate")

我們還將利用占位符定義我們的輸入內容x與y,不過二者的作用是定義hyperparameters。

Hyperparameters允許大家對這套模型及其具體訓練方式進行配置。其之所以被稱為“超”參數,是因為與常見的W與b參數不同,其并非由模型自身所學習——大家需要自行將其設置為適當的值。

其中的learning_rate超參數負責告知優化器所應采取的調整幅度。該優化器(optimizer)負責執行反向傳播:其會提取loss值并將其傳遞回計算圖以確定需要對權重值與偏離值進行怎樣的調整。這里可以選擇的優化器方案多種多樣,而我們使用的為ADAM:

with tf.name_scope("train"):     
    optimizer = tf.train.AdamOptimizer(learning_rate)     
    train_op = optimizer.minimize(loss)

其能夠在計算圖當中創建一個名為train_op的節點。我們稍后將運行此節點以訓練分類器。為了確定該分類器的運行效果,我們還需要在訓練當中偶爾捕捉快照并計算其已經能夠在訓練集當中正確預測多少項示例。訓練集的準確性并非分類器運行效果的最終檢驗標準,但對其進行追蹤能夠幫助我們在一定程度上把握訓練過程與預測準確性趨勢。具體來講,如果越是訓練結果越差,那么一定是出了什么問題!

下面我們為一個計算圖節點定義計算精度:

with tf.name_scope("inference"):     
    inference = tf.to_float(y_pred > 0.5, name="inference")

我們可以運行其中的accuracy節點以查看有多少個示例得到了正確預測。大家應該還記得,y_pred中包含一項介于0到1之間的概率。通過進行tf.to_float(y_pred > 0.5),若預測結果為女聲則返回值為0,若預測結果為男聲則返回值為1。我們可以將其與y進行比較,y當中包含有正確值。而精度值則代表著正確預測數量除以預測總數。

在此之后,我們將利用同樣的accuracy節點處理測試集,從而了解這套分類器的實際工作效果。

另外,我們還需要定義另外一個節點。此節點用于對我們尚無對應標簽的數據進行預測:

with tf.name_scope("inference"):     
    inference = tf.to_float(y_pred > 0.5, name="inference")

為了將這套分類器引入應用,我們還需要記錄幾個語音文本詞匯,對其進行分析以提取20項聲學特征,而后再將其交付至分類器。由于處理內容屬于全新數據,而非來自訓練或者測試集的數據,因此我們顯然不具備與之相關的標簽。大家只能將數據直接交付至分類器,并希望其能夠給出正確的預測結果。而inference節點的作用也正在于此。

好的,我們已經投入了大量精力來構建這套計算圖。現在我們希望利用訓練集對其進行實際訓練。

訓練分類器

訓練通常以無限循環的方式進行。不過對于這套簡單的邏輯分類器,這種作法顯然有點夸張——因為其不到一分鐘即可完成訓練。但對于深層神經網絡,我們往往需要數小時甚至數天時間進行腳本運行——直到其獲得令人滿意的精度或者您開始失去耐心。

以下為train.py當中訓練循環的第一部分:

with tf.Session() as sess:     
    tf.train.write_graph(sess.graph_def, checkpoint_dir, "graph.pb", False)

    sess.run(init)

    step = 0     
    while True:             
        # here comes the training code/pre>

我們首先創建一個新的TensorFlow session(會話)對象。要運行該計算圖,大家需要建立一套會話。調用sess.run(init)會將W與b全部重設為0。

我們還需要將該計算圖寫入一個文件。我們將之前創建的全部節點序列至/tmp/voice/graph.pb文件當中。我們之后需要利用此計算圖定義以立足測試集進行分類器運行,并嘗試將該訓練后的分類器引入iOS應用。

在while True:循環當中,我們使用以下內容:

perm = np.arange(len(X_train))         
        np.random.shuffle(perm)         
        X_train = X_train[perm]         
        y_train = y_train[perm]

首先,我們對訓練示例進行隨機洗牌。這一點非常重要,因為大家當然不希望分類器根據示例的具體順序進行判斷——而非根據其聲學特征進行判斷。

接下來是最重要的環節:我們要求該會話運行train_op節點。其將在計算圖之上運行一次訓練:

feed = {x: X_train, y: y_train, learning_rate: 1e-2,                  
                   regularization: 1e-5}         
        sess.run(train_op, feed_dict=feed)

在運行sess.run()時,大家還需要提供一套饋送詞典。其將負責告知TensorFlow當前占位符節點的實際值。

由于這只是一套非常簡單的分類器,因此我們將始終一次性對全部訓練集進行訓練,所以這里我們將X_train數組引入占位符x并將y_train數組引入占位符y。(對于規模更大的數據集,大家可以先從小批數據內容著手,例如將示例數量設定為100到1000之間。)

到這里,我們的操作就階段性結束了。由于我們使用了無限循環,因此train_op節點會反復再反復加以執行。而在每一次迭代時,其中的反向傳播機制都會對權重值W與b作出小幅調整。隨著時間推移,這將令權重值逐步趨近于最優值。

我們當然有必要了解訓練進度,因此我們需要經常性地輸出進度報告(在本示例項目中,每進行1000次訓練即輸出一次結果):

if step % print_every == 0:             
     train_accuracy, loss_value = sess.run([accuracy, loss],                                         feed_dict=feed)             
     print("step: %4d, loss: %.4f, training accuracy: %.4f" % \                     
 (step, loss_value, train_accuracy))

這一次我們不再運行train_op節點,而是運行accuracy與loss兩個節點。我們使用同樣的饋送詞典,這樣accuracy與loss都會根據訓練集進行計算。正如之前所提到,訓練集中的較高預測精度并不代表分類器能夠在處理測試集時同樣擁有良好表現,但大家當然希望隨著訓練的進行其精度值不斷提升。與此同時,loss值則應不斷下降。

另外,我們還需要時不時保存一份checkpoint:

if step % save_every == 0:             
    checkpoint_file = os.path.join(checkpoint_dir, "model")             
    saver.save(sess, checkpoint_file)                         
    print("*** SAVED MODEL ***")

其會獲取分類器當前已經學習到的W與b值,并將其保存為一個checkpoint文件。此checkpoint可供我們參閱,并判斷分類器是否已經可以轉而處理測試集。該checkpoinit文件同樣被保存在/tmp/voice/目錄當中。

使用以下命令在終端中運行該訓練腳本:

python3 train.py

輸出結果應如下所示:

Training set size: (2217, 20) 
Initial loss: 0.693146 
step:    0, loss: 0.7432, training accuracy: 0.4754 
step: 1000, loss: 0.4160, training accuracy: 0.8904 
step: 2000, loss: 0.3259, training accuracy: 0.9170 
step: 3000, loss: 0.2750, training accuracy: 0.9229 
step: 4000, loss: 0.2408, training accuracy: 0.9337 
step: 5000, loss: 0.2152, training accuracy: 0.9405 
step: 6000, loss: 0.1957, training accuracy: 0.9553 
step: 7000, loss: 0.1819, training accuracy: 0.9594 
step: 8000, loss: 0.1717, training accuracy: 0.9635 
step: 9000, loss: 0.1652, training accuracy: 0.9666 
*** SAVED MODEL *** 
step: 10000, loss: 0.1611, training accuracy: 0.9702 
step: 11000, loss: 0.1589, training accuracy: 0.9707 
. . .

當發現loss值不再下降時,就稍等一下直到看到下一條*** SAVED MODEL ***信息,這時按下Ctrl+C以停止訓練。

在超參數設置當中,我選擇了正規化與學習速率,大家應該會看到其訓練集的準確率已經達到約97%,而loss值則約為0.157。(如果大家在饋送詞典中將regularization設置為0,則loss甚至還能夠進一步降低。)

實際效果如何?

在完成對分類器的訓練之后,接下來就是對其進行測試以了解它在實踐當中的運行效果。大家需要使用未在訓練中涉及過的數據完成這項測試。正因為如此,我們才在此前將數據集拆分為訓練集與測試集。

我們將創建一套新的test.py腳本,負責加載計算圖定義以及測試集,并計算其正確預測的測試示例數量。

備注:測試集的結果精確度將始終低于訓練集的結果精確度(后者為97%)。不過如果前者遠低于后者,則大家應對分類器進行檢查并對訓練流程進行調整。我們預計測試集的實際結果應該在95%左右。任何低于90%的精度結果都應引起重視。

與之前一樣,這套腳本會首先導入必要軟件包,包括來自scikit-learn的指標包以輸出各類其它報告。當然,這一次我們選擇加載測試集而不再是訓練集。

import numpy as np 
import tensorflow as tf from sklearn 
import metrics  
X_test = np.load("X_test.npy") 
y_test = np.load("y_test.npy")

為了計算測試集的結果精確度,我們仍然需要計算圖。不過這一次不再需要完整的計算圖,因為train_op與loss兩個用于訓練的節點這里不會被用到。大家當然可以再次手動建立計算圖,但由于此前我們已經將其保存在graph.pb文件當中,因此這里直接加載即可。以下為相關代碼:

with tf.Session() as sess:     
    graph_file = os.path.join(checkpoint_dir, "graph.pb")     
    with tf.gfile.FastGFile(graph_file, "rb") as f:         
         graph_def = tf.GraphDef()         
         graph_def.ParseFromString(f.read())         
         tf.import_graph_def(graph_def, name="")

TensorFlow可能會將其數據保存為協議緩沖文件(擴展名為.pb),因此我們可以使用部分helper代碼以加載此文件并將其作為計算圖導入至會話當中。

接下來,我們需要從checkpoint文件處加載W與b的值:

W = sess.graph.get_tensor_by_name("model/W:0")     
b = sess.graph.get_tensor_by_name("model/b:0")

checkpoint_file = os.path.join(checkpoint_dir, "model")     
saver = tf.train.Saver([W, b])     
saver.restore(sess, checkpoint_file)

正因為如此,我們需要將節點引入范圍并為其命名,從而利用get_tensor_by_name()輕松再次將其找到。如果大家沒有為節點提供明確的名稱,則可能需要認真查閱計算圖定義才能找到TensorFlow為其默認分配的名稱。

我們還需要引用其它幾個節點,特別是作為輸入內容的x與y以及其它負責進行預測的節點:

x = sess.graph.get_tensor_by_name("inputs/x-input:0")     
y = sess.graph.get_tensor_by_name("inputs/y-input:0")     
accuracy = sess.graph.get_tensor_by_name("score/accuracy:0")     
inference = sess.graph.get_tensor_by_name("inference/inference:0")

好的,到這里我們已經將計算圖重新加載至內存當中。我們還需要再次將分類器學習到的內容加載至W與b當中。現在我們終于可以測試分類器在處理其之前從未見過的數據時表現出的精確度了:

feed = {x: X_test, y: y_test}     
print("Test set accuracy:", sess.run(accuracy, feed_dict=feed))

上述代碼會運行accuracy節點并利用來自X_test數組的聲學特征作為輸入內容,同時使用來自y_test的標簽進行結果驗證。

備注:這一次,饋送詞典不再需要為learning_rate與regularization占位符指定任何值。我們只需要在accuracy節點上運行計算圖的一部分,且此部分中并不包括這些占位符。

我們還可以借助scikit-learn的幫助顯示其它一些報告:

predictions = sess.run(inference, feed_dict={x: X_test})     
print("Classification report:")     
print(metrics.classification_report(y_test.ravel(), predictions))     
print("Confusion matrix:")    
 print(metrics.confusion_matrix(y_test.ravel(), predictions))

這一次,我們使用inference節點以獲取預測結果。由于inference只會計算預測結果而不會檢查其精確度,因此饋送詞典中僅需要包含輸入內容x而不再需要y。

運行此腳本之后,大家應該會看到類似于以下內容的輸出結果:

$ python3 test.py  
Test set accuracy: 0.958991  
Classification report:             
 precision    recall  f1-score   support            
0       0.98      0.94      0.96       474           
1       0.94      0.98      0.96       477  
avg / total       0.96      0.96      0.96       951  
Confusion matrix: 
[[446  28]  
[ 11 466]]

測試集的預測精確度接近96%——與預期一樣,略低于訓練集的精確度,但也已經相當接近。這意味著我們的訓練已經獲得成功,且我們也證明了這套分類器能夠有效處理其從未見過的數據。其當然還不夠完美——每25次嘗試中即有1次屬于分類錯誤,但對于本教程來說這一結果已經完全令人滿意。

分類報告與混淆矩陣顯示了與錯誤預測相關的示例統計信息。通過混淆矩陣,我們可以看到共有446項得到正確預測的女聲示例,而另外28項女聲示例則被錯誤地判斷為男聲。在466項男聲示例中分類器給出了正確結論,但有11項則被錯誤判斷為女聲。

這樣看來,我們的分類器似乎不太擅長分辨女性的語音,因為其女聲識別錯誤率更高。分類報告/回調數字亦給出了相同的結論。

在iOS上使用TensorFlow

現在我們已經擁有了一套經過訓練的模型,其擁有比較理想的測試集預測精確度。下面我們將構建一款簡單的iOS應用,并利用這套模型在其中實現預測能力。首先,我們利用TensorFlow C++庫構建一款應用。在下一章節中,我們將把模型引入Metal以進行比較。

這里我們既有好消息也有壞消息。壞消息是大家需要利用源代碼自行構建TensorFlow。事實上,情況相當糟糕:大家需要安裝Java方可實現這項目標。而好消息是整個流程其實并不復雜。

這里需要注意的是,大家應當安裝Xcode 8,并確保活動開發者目錄指向您Xcode的安裝位置(如果大家先安裝了Homebrew,隨后才安裝Xcode,則其可能指向錯誤位置,意味著TensorFlow將無法完成構建):

sudo xcode-select -s /Applications/Xcode.app/Contents/Developer

TensorFlow利用一款名為bazel的工具進行構建,bazel則要求配合Java JDK 8。大家可以利用Homebrew輕松安裝必要的軟件包:

brew cask install java brew install bazel brew install automake brew install libtool

在完成之后,大家需要克隆TensorFlow GitHub庫。需要注意的是:請確保您指定的路徑不具備充足的空間,否則bazel會拒絕進行構建(沒錯,這是真的!)。我直接將其克隆到了自己的主目錄當中:

cd /Users/matthijs git clone https://github.com/tensorflow/tensorflow -b r1.0

其中的-b r1.0標記告知git克隆r1.0分支。大家可以隨意使用其它更新的分支,或者選擇使用master分支。

備注:在MacOS Sierra上,接下來即將運行的configure腳本會提示多項錯誤。為了解決問題,我不得不選擇克隆master分支。在OS X El Capitan上,使用r1.0分支則不會引發任何錯誤。

在代碼庫克隆完成后,大家需要運行configure腳本。

cd tensorflow ./configure

其會提出幾個問題,以下為我給出的回答:

Please specify the location of python. [Default is /usr/bin/python]:        

我的回答是/usr/local/bin/python3,因為我希望使用Python 3.6配合TensorFlow。如果大家選擇默認選項,則TensorFlow將利用Python 2.7進行構建。

Please specify optimization flags to use during compilation [Default is  -march=native]:

在這里直接按下回車鍵,接下來的幾個問題則全部按n選擇否。

在其問及要使用哪套Python庫時,按下回車以選擇默認選項(即Python 3.6庫)。

接下來的問題全部按n選擇否。現在該腳本將下載幾項依賴性項目并為構建TensorFlow做好準備。

構建靜態庫

我們可以通過以下兩種方式構建TensorFlow:

  1. 在Mac系統上,使用bazel構建工具。在iOS上使用Makefile。
  2. 由于我們需要面向iOS進行構建,因此選擇選項二。然而,我們還需要構建其它一些工具,因此也得涉及選項一的內容。

在tensorflow目錄下執行以下腳本:

tensorflow/contrib/makefile/build_all_ios.sh

其會首先下載一些依賴性選項,而后開始進行構建流程。如果一切順利,其將創建出三套接入應用所必需的靜態庫,分別為: libtensorflow-core.a、libprotobuf.a、libprotobuf-lite.a。

警告:構建這些庫需要一段時間——我的iMac需要25分鐘,機型較舊的MacBook Pro則需要3個小時,而且整個過程中風扇一直在全力運轉!大家可能會在過程中看到一些編譯器警告甚至錯誤提示信息一閑而過。當作沒看見就好,時間一到工作自然就緒!

到這里工作還沒結束。我們還需要構建其它兩款helper工具。在終端當中運行以下兩條命令:

bazel build tensorflow/python/tools:freeze_graph bazel build tensorflow/python/tools:optimize_for_inference

注意:這一過程大約需要20分鐘左右,因為其需要再次從零開始構建TensorFLow(這一次使用bazel)。

為Mac設備構建TensorFlow

這部分內容為可選項目,但由于大家已經安裝了全部必要軟件包,因此為Mac系統構建TensorFlow并不困難。其會創建一個新的pip軟件包,大家可進行安裝以取代官方TensorFlow軟件包。

為什么不使用官方軟件包?因為這樣我們才能創建一套包含自定義選項的TensorFlow版本。舉例來說,如果大家在運行train.py腳本時遇到了“此TensorFlow庫無法利用SSE4.1指令進行編譯”的警告提示,則可編譯一套特殊的TensorFLow版本以啟用這些指令。

要為Mac系統構建TensorFlow,請在終端中運行以下命令:

bazel build --copt=-march=native -c opt //tensorflow/tools/pip_package:build_pip_package  bazel-bin/tensorflow/tools/pip_package/build_pip_package /tmp/tensorflow_pkg

其中的-march=native選項用于在您的CPU能夠支持的前提下,添加對SSE、AVX、AVX2以及FMA等的支持。

隨后安裝該軟件包:

pip3 uninstall tensorflow sudo -H pip3 install /tmp/tensorflow_pkg/tensorflow-1.0.0-XXXXXX.whl

欲了解更多細節信息,請點擊此處參閱TensorFlow官方網站。

“凍結”計算圖

我們將要創建的iOS應用將利用Python腳本加載之前訓練完成的模型,并利用其作出一系列預測。

大家應該還記得,train.py將計算圖定義保存在了/tmp/voice/graph.pb文件當中。遺憾的是,大家無法直接將該計算圖加載至iOS應用當中。完整的計算圖中包含的操作目前還不受TensorFlow C++ API的支持。正因為如此,我們才需要使用剛剛構建完成的其它兩款工具。其中freeze_graph負責獲取graph.pb以及包含有W與b訓練結果值的checkpoint文件。其還會移除一切在iOS之上不受支持的操作。

在終端當中立足tensorflow目錄運行該工具:

bazel-bin/tensorflow/python/tools/freeze_graph \ 
--input_graph=/tmp/voice/graph.pb --input_checkpoint=/tmp/voice/model \
--output_node_names=model/y_pred,inference/inference --input_binary \
--output_graph=/tmp/voice/frozen.pb

以上命令將在/tmp/voice/frozen.pb當中創建一套經過簡化的計算圖,其僅具備y_pred與inference兩個節點。其并不包含任何用于訓練的計算圖節點。

使用freeze_graph的好處在于,其還將固定該文件中的權重值,這樣大家就無需分別進行權重值加載了:frozen.pb中已經包含我們需要的一切。而optimize_for_inference工具則負責對計算圖進行進一步簡化。其將作為grozen.pb文件的輸入內容,并寫入 /tmp/voice/inference.pb 作為輸出結果。我們隨后會將此文件嵌入至iOS應用當中。使用以下命令運行該工具:

bazel-bin/tensorflow/python/tools/optimize_for_inference \ 
--input=/tmp/voice/frozen.pb --output=/tmp/voice/inference.pb
 \ --input_names=inputs/x --output_names=model/y_pred,inference/inference
 \ --frozen_graph=True

iOS應用

大家可以在 github.com/hollance/TensorFlow-iOS-Example 中的 VoiceTensorFlow 文件夾內找到我們此次使用的iOS應用。

在Xcode當中打開該項目,其中包含以下幾條注意事項:

  1. 此應用利用Objective-C++編寫(其源文件擴展名為.mm)。在編寫時尚不存在面向TensorFlow的Swift API,因此只能使用C++。
  2. 其中的inference.pb文件已經包含在項目當中。如果需要,大家也可以直接將自有版本的inference.pb復制到此項目的文件夾之內。
  3. 此應用與 Accelerate.framework 相鏈接。
  4. 此應用與我們此前已經編譯完成的幾套靜態庫相鏈接。

前往Project Settings(項目設置)屏幕并切換至Build Settings(構建設置)標簽。在Other Linker Flags(其它鏈接標記)下,大家會看到以下內容:

/Users/matthijs/tensorflow/tensorflow/contrib/makefile/gen/protobuf_ios/lib/ libprotobuf-lite.a /Users/matthijs/tensorflow/tensorflow/contrib/makefile/gen/protobuf_ios/lib/ libprotobuf.a -force_load /Users/matthijs/tensorflow/tensorflow/contrib/makefile/gen/lib/ libtensorflow-core.a

除非您的名稱同樣為“matthijs”,否則大家需要將其替換為您TensorFlow庫的實際克隆路徑。(請注意,這里tensorflow出現了兩次,所以文件夾名稱應為tensorflow/tensorflow/...)

備注:大家也可以將這三個.a文件復制到項目文件夾之內,如此即不必擔心路徑可能出現問題。我個人并不打算在這一示例項目中采取這種方式,因為libtensorflow-core.a文件是一套體積達440 MB的庫。

另外請注意檢查Header Search Paths(標題搜索路徑)。以下為目前的設置:

~/tensorflow ~/tensorflow/tensorflow/contrib/makefile/downloads  ~/tensorflow/tensorflow/contrib/makefile/downloads/eigen  ~/tensorflow/tensorflow/contrib/makefile/downloads/protobuf/src  ~/tensorflow/tensorflow/contrib/makefile/gen/proto

另外,大家還需要將其更新至您的克隆目錄當中。

以下為我在構建設置當中進行了修改的其它條目:

Enable Bitcode: No
Warnings / Documentation Comments: No
Warnings / Deprecated Functions: No

Bitcode目前尚不受TensorFLow的支持,所以我決定將其禁用。我還關閉了警告選項,否則在編譯應用時會出現一大票問題提示。(禁用之后,大家仍然會遇到幾項關于值轉換問題的警告。大家當然也可以將其一并禁用,但我個人還是希望多少了解一點其中的錯誤。)

在完成了對Other Linker Flags與Header Search Paths的變更之后,大家即可構建并運行我們的iOS應用。

很好,現在大家已經擁有了一款能夠使用TensorFlow的iOS應用了!下面讓我們看看它的實際運行效果。

使用 TensorFlow C++ API

TensorFlow for iOS由C++編寫而成,但其中需要編寫的C++代碼量其實——幸運的是——并不多。一般來講,大家只需要完成以下工作:

  1. 從.pb文件中加載計算圖與權重值。
  2. 利用此計算圖創建一項會話。
  3. 將您的數據放置在一個輸入張量內。
  4. 在一個或者多個節點上運行計算圖。
  5. 從輸出結果張量中獲取結果。

在本示例應用當中,這一切皆發生在ViewController.mm之內。首先,我們加載計算圖:

- (BOOL)loadGraphFromPath:(NSString *)path 
{    
    auto status = ReadBinaryProto(tensorflow::Env::Default(),                                    path.fileSystemRepresentation, &graph);     
if (!status.ok()) {         
    NSLog(@"Error reading graph: %s", status.error_message().c_str());         
    return NO;     
    }     
    return YES; 
}

此Xcode項目當中已經包含我們通過在graph.pb上運行freeze_graph與optimize_for_inference工具所構建的inference.pb計算圖。如果大家希望直接加載graph.pb,則會得到以下錯誤信息:

Error adding graph to session: No OpKernel was registered to support Op  'L2Loss' with these attrs.  Registered devices: [CPU], Registered kernels:   <no registered kernels>      [[Node: loss-function/L2Loss = L2Loss[T=DT_FLOAT](model/W/read)]]

這是因為C++ API所能支持的操作要遠少于Python API。這里提到我們在loss函數節點中所使用的L2Loss操作在iOS上并不適用。正因為如此,我們才需要利用freeze_graph以簡化自己的計算圖。

在計算圖加載完成之后,我們使用以下命令創建一項會話:

- (BOOL)createSession
{
    tensorflow::SessionOptions options;
    auto status = tensorflow::NewSession(options, &session);
    if (!status.ok()) {
        NSLog(@"Error creating session: %s", 
                status.error_message().c_str());
        return NO;
    }

    status = session->Create(graph);
    if (!status.ok()) {
        NSLog(@"Error adding graph to session: %s", 
                status.error_message().c_str());
        return NO;
    }
    return YES;
}

會話創建完成后,我們可以利用其執行預測操作。其中的predict:method會提供一個包含20項浮點數值的數組——即聲學特征——并將這些數字饋送至計算得意洋洋發中。

下面我們一起來看此方法的工作方式:

- (void)predict:(float *)example {
    tensorflow::Tensor x(tensorflow::DT_FLOAT, 
                         tensorflow::TensorShape({ 1, 20 }));

    auto input = x.tensor<float, 2>();
    for (int i = 0; i < 20; ++i) {
        input(0, i) = example[i];
    }

其首先將張量x定義為我們需要使用的輸入數據。此張量為{1,20},因為其一次提取一項示例且該示例中包含20項特征。在此之后,我們將數據由float *數組復制至該張量當中。

接下來,我們運行該項會話:

std::vector<std::pair<std::string, tensorflow::Tensor>> inputs = {
        {"inputs/x-input", x}
    };

    std::vector<std::string> nodes = {
        {"model/y_pred"},
        {"inference/inference"}
    };

    std::vector<tensorflow::Tensor> outputs;

    auto status = session->Run(inputs, nodes, {}, &outputs);
    if (!status.ok()) {
        NSLog(@"Error running model: %s", status.error_message().c_str());
        return;
    }

這里得出了類似于Python代碼的內容:

    pred, inf = sess.run([y_pred, inference], feed_dict={x: example})

只是不那么簡潔。我們需要創建饋送詞典、用于列出需要運行的全部節點的向量,外加一個負責容納對應結果的向量。最后,我們告知該會話完成上述任務。

在會話運行了全部必要節點后,我們即可輸出以下結果:

auto y_pred = outputs[0].tensor<float, 2>();
    NSLog(@"Probability spoken by a male: %f%%", y_pred(0, 0));

    auto isMale = outputs[1].tensor<float, 2>();
    if (isMale(0, 0)) {
        NSLog(@"Prediction: male");
    } else {
        NSLog(@"Prediction: female");
    }
}

出于演示需求,只需要運行inference節點即可完成對音頻數據的男聲/女聲判斷。不過我還希望查看計算得出的概率,因此這里我也運行了y_pred節點。

運行iOS應用

大家可以在iPhone模擬器或者實機之上運行這款應用。在模擬器上,大家仍然會看到“此TensorFlow庫無法利用SSE4.1指令進行編譯”的提示,但在實機上則不會出現這樣的問題。

出于測試的目的,這款應用只會進行兩項預測:一次為男聲示例預測,一次為女聲示例預測。(我直接從測試集中提取了對應示例。大家也可以配合其它示例并修改maleExample或者emaleExample數組當中的數字。)

運行這款應用,大家應該會看到以下輸出結果。該應用首先給出了計算圖當中的各節點:

Node count: 9
Node 0: Placeholder 'inputs/x-input'
Node 1: Const 'model/W'
Node 2: Const 'model/b'
Node 3: MatMul 'model/MatMul'
Node 4: Add 'model/add'
Node 5: Sigmoid 'model/y_pred'
Node 6: Const 'inference/Greater/y'
Node 7: Greater 'inference/Greater'
Node 8: Cast 'inference/inference'

需要注意的是,此計算圖中僅包含實施預測所必需的操作,而不包括任何與訓練相關的內容。

此后,其會輸出預測結果:

Probability spoken by a male: 0.970405% Prediction: male  Probability spoken by a male: 0.005632% Prediction: female

如果大家利用Python腳本嘗試使用同樣的示例,那么結果也將完全一致。任務完成!

備注:這里要提醒大家,此項演示項目中我們對數據進行了“偽造”(即使用了提取自測試集中的示例)。如果大家希望利用這套模型處理真正的音頻,則首先需要將對應音頻轉化為20項聲學特征。

iOS平臺上TensorFlow的優勢與缺點

TensorFlow是一款出色的機器學習模型訓練工具,特別是對于那些不畏數學計算并樂于創建新型算法的朋友。要對規模更大的模型進行訓練,大家甚至可以在云環境下使用TensorFLow。

除了訓練之外,本篇博文還介紹了如何將TensorFLow添加至您的iOS應用當中。對于這一部分,我希望概括這種作法的優勢與缺點。

在iOS之上使用TensorFlow的優勢:

  1. 使用一款工具即可實現全部預期。大家可以同時利用TensorFlow訓練模型并將其引用于設備之上。我們不再需要將自己的計算圖移植至BNNS或者Metal等其它API處。在另一方面,大家則必須至少將部分Python代碼“移植”為C++形式。
  2. TensorFlow擁有眾多超越BNNS或Metal的出色功能特性。
  3. 大家可以在模擬器上對其進行測試。(Metal要求用戶始終利用實機進行測試。)

在iOS上使用TensorFLow的缺點:

  1. 目前其尚不支持GPU。TensorFlow確實能夠利用Acclerate框架以發揮CPU的向量指令優勢,但在原始處理速度上仍無法與Metal相提并論。
  2. TensorFLow API為C++,因此大家需要使用Objective-C++自行編寫代碼。
  3. 大家無法直接利用Swift使用TensorFLow。C++ API相較于Python API存在更多局限性。這意味著大家無法在設備之上進行數據訓練,因為反向傳播所需要的自動梯度計算尚不受設備支持。但這并不是什么大問題,畢竟移動設備的硬件本身就不適合進行大規模數據集訓練。
  4. TensorFlow靜態庫的加入會令應用體積增加約40 MB。大家可以通過減少受支持操作的數量對其進行瘦身,但具體過程相當麻煩。另外這還不包含您模型本體的體積,這可能會讓應用尺寸進一步膨脹。

就個人來講,我認為在iOS上使用TensorFlow并沒有什么性價比可言——至少就目前而言是如此。其優勢根本無法抵消致命的缺點。不過作為一款年輕的產品,我相信TensorFLow未來會得到進一步改善……

備注:如果大家決定在自己的iOS應用當中使用TensorFlow,則應意識到人們完全可以直接從應用包中復制計算圖的.pb文件以竊取您的模型。雖然這個問題不僅存在于TensorFlow當中,但由于“凍結”計算圖文件中同時包含模型參數與計算圖定義,因此對方能夠輕松完成逆向工程。如果您的模型將作為應用本身的核心競爭優勢存在,那么請務必想辦法對其加以保護以避免受到惡意窺探。

在GPU上運行:使用Metal

在iOS之上使用TensorFLow的一大缺點在于,其運行在CPU之上。雖然對于數據與模型規模較小的TensorFlow項目而言,CPU的處理能力已經完全足夠,但對于較大的模型、特別是深度學習項目而言,大家無疑需要利用GPU進行相關運算。而在iOS系統上,這意味著我們必須選擇Metal。

大家仍然需要在自己的Mac設備上利用TensorFlow進行訓練——或者使用其它擁有強大GPU的Linux設備甚至云資源——不過運行在iOS上的引用代碼則可使用Metal而非TensorFlow庫。

在對必需的學習參數進行訓練之后——即W與b值——我們需要將其導出為Metal可以讀取的格式。幸運的是,我們只需要將其作為二進制格式保存為一份浮點數值列表即可。

現在我們需要編寫另一套Python腳本:export_weights.py。其內容與我們之前用于加載計算圖定義及checkpoint文件的test.py非常相似。不過這一次,我們使用以下內容:

    W.eval().tofile("W.bin")     b.eval().tofile("b.bin")

W.eval()負責計算W的當前值并將其返回為一個NumPy數組(過程與執行sess.run(W)完全一致)。此后,我們使用tofile()將該NumPy數據保存為一個二進制文件。好了,就是這么簡單:-)

備注:對于我們的示例分類器,W是一個20 x 1的矩陣,即一份簡單的20項浮點數值列表。對于更為復雜的模型,大家的學習參數可能屬于四維張量。在這種情況下,大家可能需要對其中的部分維度進行順序調整,因為TensorFlow存儲數據的順序與Metal的預期存在差異。大家可以直接使用tf.transpose()命令實現這一目標,但再次重申,我們的這一示例項目并不需要這些過程。

大家應該還記得,這里的邏輯回歸算法采用了以下方程式進行計算:

y_pred = sigmoid((W * x) + b)

其計算過程與神經網絡當中完全連接層的執行過程相同。因此為了利用Metal實現我們的分類器,只需要使用一個MPSCNNFullyConnected層。首先,我們將W.bin與b.bin加載至Data對象當中:

let W_url = Bundle.main.url(forResource: "W", withExtension: "bin"
let b_url = Bundle.main.url(forResource: "b", withExtension: "bin"
let W_data = try! Data(contentsOf: W_url!)
let b_data = try! Data(contentsOf: b_url!)

此后,我們創建該完全連接層:

let sigmoid = MPSCNNNeuronSigmoid(device: device)
let layerDesc = MPSCNNConvolutionDescriptor(
              kernelWidth: 1, kernelHeight: 1, 
              inputFeatureChannels: 20, outputFeatureChannels: 1, 
              neuronFilter: sigmoid)

W_data.withUnsafeBytes { W in
  b_data.withUnsafeBytes { b in
    layer = MPSCNNFullyConnected(device: device, 
               convolutionDescriptor: layerDesc, 
               kernelWeights: W, biasTerms: b, flags: .none)
  }
}

由于輸入內容為20個數字,我決定將完全連接層的設定為一套1 x 1且包含20條輸入通道的維度“圖像”。而結果y_pred僅為單一數字,這樣該完全連接層將僅擁有一條輸出通道。作為輸入與輸出數據駐留所在的對象,MPSImage同樣擁有這些維度:

let inputImgDesc = MPSImageDescriptor(channelFormat: .float16, 
                       width: 1, height: 1, featureChannels: 20)let outputImgDesc = MPSImageDescriptor(channelFormat: .float16, 
                       width: 1, height: 1, featureChannels: 1)

inputImage = MPSImage(device: device, imageDescriptor: inputImgDesc)
outputImage = MPSImage(device: device, imageDescriptor: outputImgDesc)

由于使用的是應用中的TensorFlow版本,因此其中的predict方法將獲取用以構建單一示例的20條浮點數值。以下為完整的方法內容:

func predict(example: [Float]) {
  convert(example: example, to: inputImage)

  let commandBuffer = commandQueue.makeCommandBuffer()
  layer.encode(commandBuffer: commandBuffer, sourceImage: inputImage, 
               destinationImage: outputImage)
  commandBuffer.commit()
  commandBuffer.waitUntilCompleted()

  let y_pred = outputImage.toFloatArray()
  print("Probability spoken by a male: \(y_pred[0])%")

  if y_pred[0] > 0.5 {
    print("Prediction: male")
  } else {
    print("Prediction: female")
  }
}

這即為Metal當中的運行會話版本。其中convert(example:to:)與toFloatArray()方法屬于helper,負責將數據加載進/出MPSImage對象。就是這么簡單,我們已經成功完成了Metal版本的應用成果!大家需要在實機之上運行此應用,因為Metal并不支持模擬器運行機制。

Probability spoken by a male: 0.970215% Prediction: male  Probability spoken by a male: 0.00568771% Prediction: female

需要注意的是,這些概率與TensorFlow提供的預測結果并不完全一致。這是因為Metal會在內部使用16位浮點數值,但二者的結果仍然相當接近!

 

 

來自:http://www.infoq.com/cn/articles/getting-started-with-tensorflow-on-ios

 

 本文由用戶 RosBoudreau 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!