SQL Server調優系列基礎篇（并行運算總結篇二）

jopen 11年前發布 | 14K 次閱讀 SQL Server 數據庫服務器

前言

上一篇文章我們介紹了查看查詢計劃的并行運行方式。

本篇我們接著分析SQL Server的并行運算。

閑言少敘，直接進入本篇的正題。

技術準備

同前幾篇一樣，基于SQL Server2008R2版本，利用微軟的一個更簡潔的案例庫（Northwind）進行解析。

內容

文章開始前，我們先來回顧上一篇中介紹的并行運算，來看文章最后介紹的并行運算語句：

SELECT B1.[KEY],B1.DATA,B2.DATA 
FROM BigTable B1 JOIN BigTable2 B2
ON B1.[KEY]=B2.[KEY]
WHERE B1.DATA<100

SQL Server調優系列基礎篇（并行運算總結篇二）

上面是詳細的執行計劃，從右邊依次向左執行，上圖中有一個地方很有意思，就是在聚集索引掃描后獲取的數據，又重新了使用了一次重新分配任務的過程

（Repartition Streams），就是上圖的將獲取的100行數據重新分配到并行的各個線程中。

其實這里本可以直接將索引掃描出來的100行數據直接扔到嵌套循環中執行。它這里又重新分配任務的目的就是為了后面嵌套循環的并行執行，最大限度的利用硬件資源！

但這樣做又帶了另一個弊端就是執行完嵌套循環之后，需要將結果重新匯總，就是下面的（Gather Sreams）運算符。

我們來看看該語句如果不并行的執行計劃

SELECT B1.[KEY],B1.DATA,B2.DATA 
FROM BigTable B1 JOIN BigTable2 B2
ON B1.[KEY]=B2.[KEY]
WHERE B1.DATA<100
option(maxdop 1)

SQL Server調優系列基礎篇（并行運算總結篇二）

這才是正宗的串行執行計劃。

和上面的并行執行計劃相比較，你會發現SQL Server充分利用硬件資源而形成的并行計劃，是不是很帥！

如果還沒感覺到SQL Server并行執行計劃的魅力，我們再來舉個例子，看如下語句

SELECT BIG_TOP.[KEY],BIG_TOP.DATA,B2.DATA
FROM 
(
   SELECT TOP 100 B.[KEY],B.DATA
   FROM BigTable B
   ORDER BY DATA
) BIG_TOP,
BigTable2 B2
WHERE BIG_TOP.[KEY]=B2.[KEY]

先來分析下上面的語句，這個語句我們在外表中加入了TOP 100…..ORDER BY DATA關鍵字，這個關鍵字是很有意思….

因為我們知道這個語句是獲取根據DATA關鍵字排序，然后獲取出前100行的意思…

1、根據DATA排序…..丫的多線程我看你怎么排序？每個線程排列自己的？那你排列完了在匯聚在一起…那豈不是還得重新排序！！

2、獲取前100行數據，丫多線程怎么獲取？假如我4個線程掃描每個線程獲取25條數據？這樣出來的結果對嘛？

3、我們的目標是讓外表和上面的100行數據還要并行嵌套循環連接，因為這樣才能充分利用資源，這個怎么實現呢？

上面的這些問題，我們來看強大的SQL Server將為我們怎樣生成強悍的執行計劃

SQL Server調優系列基礎篇（并行運算總結篇二）

上面的執行計劃已經解決了我們以上所述的三個問題，我們依次來分析下，這幾個問題的解決方法

第一個問題，關于并列排序問題

首選根據聚集索引掃描的方式采用并列的方式從表中獲取出數據

SQL Server調優系列基礎篇（并行運算總結篇二）

然后，在并行的根據各個線程中的數據進行排序，獲取前幾列值，我們知道，我們的目標獲取的是前100行，它這里獲取的方式是冗余獲取，也就是說每個線程各自排序自己的數據

然后獲取出前面的數據，通過循環賽的方式進行交換，獲取出一部分數據

SQL Server調優系列基礎篇（并行運算總結篇二）

第二個問題，關于并列獲取前100行數據問題

我們知道要想獲取前100行數據，就必須將各個線程的數據匯總到一起，然后通過比較獲取前100行數據，這是必須的，于是在這一步里SQL Server又的重新將數據匯總到一起

SQL Server調優系列基礎篇（并行運算總結篇二）

第三個問題，下一步需要將這100行數據和外表進行連接，獲取出結果，這里面采用的嵌套循環連接的方式，為了充分利用資源，提升性能，SQL Server又不得不將這100行數據均分到各個線程中去執行，所以這里又采用了一個拆分任務的運算符分發流（Distribute Sreams）任務

SQL Server調優系列基礎篇（并行運算總結篇二）

所以經過此步驟又將系統的硬件資源充分利用起來了，然后下一步同樣就是講過嵌套循環進行關聯獲取結果，然后再重新將結果匯總，然后輸出

SQL Server調優系列基礎篇（并行運算總結篇二）

我們可以看到上面的一個流程，SQLServer經過了：先拆分（并行掃描）——》再并行（獲取TOP 100….）——》再拆分(為了并行嵌套循環)——》再并行（為了合并結果）

總之，SQL Server在運行語句的時候，經過各種評估之后，利用各種拆分、各種匯總，目的就是充分的利用硬件資源，達到一個性能最優化的方式！這就是SQL Server并行運算的精髓。

當然凡事有利就有弊，我們通過這條語句來對比一下串行和并行在SQL Server中的優劣項

一下是串行執行計劃：

SELECT BIG_TOP.[KEY],BIG_TOP.DATA,B2.DATA
FROM 
(
   SELECT TOP 100 B.[KEY],B.DATA
   FROM BigTable B
   ORDER BY DATA
) BIG_TOP,
BigTable2 B2
WHERE BIG_TOP.[KEY]=B2.[KEY]
option(maxdop 1)

SQL Server調優系列基礎篇（并行運算總結篇二）

串行執行的執行計劃：簡單、大氣、沒有復雜的各種拆分、各種匯總及并行。

我們來比較下兩者的不同項，先比較一個T-SQL語句的各個參數值：

SQL Server調優系列基礎篇（并行運算總結篇二）

前者是串行、后者是并行

串行編譯耗費CPU：2、并行編譯耗費CPU:10

串行編譯耗費內存：184、并行編譯耗費內存：208

串行編譯耗時：2、并行編譯耗時：81

上面是采取并行的缺點：1、更消耗CPU、2、編譯更消耗內存、3、編譯時間更久

我們來看一下并行的優點：

上圖中串行內存使用（1024），并行內存（448）

優點就是：并行執行消耗內存更小

當然還有一個更重要的優點：執行速度更快！

SQL Server調優系列基礎篇（并行運算總結篇二）

采用并行的執行方式，執行時間從218毫秒提升到187毫秒！數據量少，我機器性能差所以提升不明顯！

在并行運算執行過程中，還有一種運算符經常遇到：位圖運算符，這里我們順帶也介紹一下

舉個例子：

SELECT B1.[KEY],B1.DATA,B2.[KEY] 
FROM BigTable B1 JOIN BigTable2 B2
ON B1.DATA=B2.DATA
WHERE B1.[KEY]<10000

這里我們獲取大表中Key列小于10000行的數據。

SQL Server調優系列基礎篇（并行運算總結篇二）

上述的執行語句，就引入了位圖計算。

其實位圖計算的目標很簡單：提前過濾，因為我們的語句中要求獲取的結果項比較多10000行數據，在我們后面的線程中采用的并行掃描的方式獲取出數據。由于數據量比較多的原因，各個線程在執行的過程中獲取完數據的時間不同，為了避免因某個線程執行速度緩慢，導致整體堵塞，索引引入了位圖運算，先將獲取出來的部分結果過濾輸出到前面的哈希匹配，完整執行。

關于位圖運算符更多詳細可參照：http://msdn.microsoft.com/zh-cn/library/bb510541

結語

此篇文章先到此吧，本篇主要是上一篇并行運算的一個延續，兩篇文章介紹了SQL Server中關于并行運算的原理和使用方式，關于并行運算這塊就到這吧，下一篇我們補充SQL Server中關于索引的利用方式和動態索引的內容，關于索引我相信很多了解數據庫產品的人都熟悉，但是SQL Server中一些語句利用索引的方式可能還不清楚，我們下一篇分析這塊，借此了解索引的建立方式和優化技巧，有興趣可提前關注，關于SQL Server性能調優的內容涉及面很廣，后續文章中依次展開分析。

有問題可以留言或者私信，隨時恭候有興趣的童鞋加入SQL SERVER的深入研究。共同學習，一起進步。

原文出處：指尖流淌-吳學雷的博客

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1418462880292.html

SQL Server 數據庫服務器

SQL Server調優系列基礎篇（并行運算總結篇二）

相關經驗

相關資訊

相關文檔

目錄