T-SQL-条件が満たされるまでテーブルをループする最も効率的な方法は何ですか


10

の領域でプログラミングタスクを得ましたT-SQL

仕事:

  1. 人々はエレベーターに乗りたいと思っています。
  2. 列に並んでいる順番で順番が決まります。
  3. エレベーターの最大容量は1000ポンド以下です。
  4. エレベーターが重くなる前にエレベーターに入ることができる最後の人の名前を返してください!
  5. 戻り型はテーブルでなければなりません

ここに画像の説明を入力してください

質問: この問題を解決する最も効率的な方法は何ですか?ループが正しい場合、改善の余地はありますか?

私はループと#一時テーブルを使用しました、ここで私の解決策:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

ここでは、テストにNorthwindを使用したテーブルの作成スクリプトを示します。

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;

回答:


16

一般的にループを回避するようにしてください。これらは通常、セットベースのソリューションよりも効率が悪く、読みにくくなります。

以下はかなり効率的です。

INCLUDE-キールックアップを回避するために、名前と重みの列をインデックスに含めることができればなおさらです。

一意のインデックスを順番にスキャンしturnWeight列の現在までの合計を計算できます。次にLEAD、同じ順序付け基準を使用して、次の行の現在までの合計がどうなるかを確認します。

これが1000を超えるか、またはNULL次の行がないことを示す最初の行が見つかるとすぐに、スキャンを停止できます。

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

実行計画

ここに画像の説明を入力してください

実際には、厳密に必要な場所の前の数行を読み取るようです。ウィンドウスプールとストリームの各集計ペアによって、さらに2行が読み取られるようです。

質問のサンプルデータの場合、理想的にはインデックススキャンから2行を読み取るだけで十分ですが、実際には6行を読み取りますが、これは重大な効率の問題ではなく、テーブルに行が追加されても低下しません(このデモ

この問題に興味のある人のために、各オペレータによって行出力した画像を(で示されるようにquery_trace_column_values拡張イベント)以下であり、行は、出力されているrow_idため(から始まる47最初の行のための走査との仕上げインデックスによって読み取り113のためにTOP

下の画像をクリックして拡大するか、アニメーションバージョンを表示してフローをわかりやすくします

右側のストリーム集合体が最初の行を放出した時点でアニメーションを一時停止します(ゲイリーの場合-ターン= 1)。異なるWindowCount(Joの場合-ターン= 2)で最初の行を受け取るのを待っていたことは明らかです。そして、ウィンドウスプールは、次の行を別の行で読み取るまで、最初の「Jo」行を解放しませんturn(トーマスの場合-ターン= 3)。

したがって、ウィンドウスプールとストリームの集計の両方により、追加の行が読み取られ、プランにはこれらの行が4つあるため、4つの行が追加されます。

ここに画像の説明を入力してください

上記の列の説明は次のとおりです(ここの情報に基づく)

  • NodeName:インデックススキャン、NodeId:15、ColumnName:インデックスでカバーされるidベーステーブル列
  • NodeName:インデックススキャン、NodeId:15、ColumnName:インデックスでカバーされるベーステーブル列をオンにします
  • NodeName:クラスタ化インデックスシーク、NodeId:17、ColumnName:ルックアップから取得されたウェイトベーステーブル列
  • NodeName:クラスタ化インデックスシーク、NodeId:17、ColumnName:ルックアップから取得した名前のベーステーブル列
  • NodeName:Segment、NodeId:13、ColumnName:Segment1010新しいグループの開始時に1を返しそれ以外の場合はnullを返します。ないようPartition BySUM最初の行のみを取得していない1
  • NodeName:シーケンスプロジェクト、NodeId:12、ColumnName: row_number() Segment1010フラグで示されるグループ内のRowNumber1009。すべての行が同じグループにあるため、これは1から6までの昇順の整数rows between 5 preceding and 2 followingです。のような場合に右フレーム行をフィルタリングするために使用されます。(またはLEAD後で)
  • NodeName:Segment、NodeId:11、ColumnName:Segment1011新しいグループの開始時に1を返しそれ以外の場合はnullを返します。ないようPartition BySUM最初の行は、(Segment1010と同じ)1を取得しません
  • NodeName:ウィンドウスプール、NodeId:10、ColumnName:WindowCount1012ウィンドウフレームに属する行をグループ化する属性。このウィンドウスプールはの「高速トラック」ケースを使用していUNBOUNDED PRECEDINGます。ソース行ごとに2行を発行する場所。1つは累積値を持ち、もう1つは詳細値を持ちます。公開されている行に目に見える違いはありませんquery_trace_column_valuesが、実際には累積列があると思います。
  • NodeName:Stream Aggregate、NodeId:9、ColumnName:Expr1004 Count(*) は計画に従ってWindowCount1012でグループ化されていますが、実際には実行中のカウントです
  • NodeName:Stream Aggregate、NodeId:9、ColumnName:Expr1005 SUM(weight) は計画に従ってWindowCount1012でグループ化されていますが、実際には重みの実行中の合計(つまりcume_weight
  • NodeName:セグメント、NodeId:7、ColumnName:Expr1002- CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] ENDどのCOUNT(*)ように0になるかわからないので、常に合計を実行します(cume_weight
  • NodeName:Segment、NodeId:7、ColumnName:Segment1013いいえpartition byLEAD最初の行は1になります。残りはすべてnullになります。
  • NodeName:シーケンスプロジェクト、NodeId:6、ColumnName: row_number() Segment1013フラグで示されるグループ内のRowNumber1006。すべての行が同じグループにあるため、これは1から4までの昇順の整数です
  • NodeName:Segment、NodeId:4、ColumnName:BottomRowNumber1008 RowNumber1006 + 1はLEAD次の単一行が必要であるため
  • NodeName:Segment、NodeId:4、ColumnName:TopRowNumber1007 RowNumber1006 + 1はLEAD次の単一行が必要であるため
  • NodeName:Segment、NodeId:4、ColumnName:Segment1014いいえpartition byLEAD最初の行は1になります。残りはすべてnullになります。
  • NodeName:ウィンドウスプール、NodeId:3、ColumnName:WindowCount1015前の行番号を使用してウィンドウフレームに属する行をグループ化する属性。のウィンドウフレームにLEADは最大2行(現在の行と次の行)があります
  • NodeName:Stream Aggregate、NodeId:2、ColumnName:Expr1003 LAST_VALUE([Expr1002]) forLEAD(cume_weight)

6

好奇心と同じように(質問がT-SQLを示しているため)、SQLCLRを使用してこの問題を効率的に解決することもできます。

アイデアはturnweightが1000を超えるまで(または行がなくなるまで)、一度に1行ずつname読み取り、最後に読み取った値を返すことです。

ソースコードは:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

コンパイルされたアセンブリとT-SQL関数:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

結果を得る:

SELECT dbo.Elevator();

1

マーティン・スミスのソリューションからのわずかなバリエーション

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW デフォルトのウィンドウフレームなので、宣言しませんでした。

次の累積重みの代わりに、現在の累積重みの述語が使用されます。

私はどのプランもチェックしていないので、その点で違いがあるかどうかわかりません。


なるほど、私はDBオタクに囲まれています:-)。私はあなた達が彼らが何をするかを理解するためにあなた達が言及する全てのキーワードをチェックアウトしなければなりません。私はを見てきただけでClient statistics --> Total Execution TimeActual execution planおそらくここで最も興味深いものではありません。Client Statisticsあなたの解決策としてはマーティンのものよりも少し遅いです。追加情報をありがとう。異なるアプローチ間のパフォーマンスの違いを測定するために使用できる方法はどれですか?
レジェンド

1
SQLサーバーに関する私の知識は非常に限られていると思います。そのため、どのメトリックを使用するかについては、あまり洞察力がありません。マーティンは彼の答えにdb <> fiddleリンクを持っています。おそらくそこにある計画を見ることができます。
Lennart、

1
私は計画もチェックしていませんが、これはおそらくテーブル全体の実行合計を計算し、WHEREに一致する結果の行をソートすると想像します。実行合計が厳密に上昇しており、早期に停止する可能性があることを確認するために、チェック制約を使用することはないと思います。重複しない場合であっても、ウィンドウのスプールがメモリでないディスクであるとしても、SQL Serverのバッチモードウィンドウ集合体RANGEが望ましいのではなく、ROWSを指定して使用されている場合を除いて
マーティン・スミス

@MartinSmith、面白い。あなたのソリューションでは、LEADはT1内でnext_cume_weight <10000述語をプッシュし、インデックススキャンから早期に救済することを可能にしますか?クエリの計画を確認し、演算子をROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW紹介しましたSequence Project (Compute Scalar)。言うまでもありませんが、これが何を意味するのかはわかりません:-)
Lennart、

1
インデックスは、合計、リード、トップで必要な順序で行を配信します。topが最初の行を受信するとすぐに、それ以上の行の要求を停止し、実行を停止できます。
マーティンスミス

0

自分自身に対して結合を行うことができます:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

この種のものは、行ごとの選択を引き起こすため、あまり効率的ではありません。しかし、少なくともそれは単一のステートメントとして表現されています。

SQLで完全に実行する必要がない場合は、すべての行を選択してループし、行を重ねていくだけです。

一時テーブルを使用せずに、ストアドプロシージャでも同じことができます。変数に合計と最後の行の名前を保持するだけです。


申し訳ありませんが、で動作させる方法がわかりません。self-join再現可能な例を少しでも作成できる場合は、質問にテーブル定義を追加しました。私のSQLは悪いです...私は1000ポンド以下に最も近い人の名前が必要です。
レジェンド

更新は問題なく動作するように見えますが、正確な出力だけを生成したい場合は、少しいじる必要があります。しかし、私が言うように、それはそれほど効率的ではありません

OK?ID 5のPersonに対してnullを取得します...
Legends

奇妙なことに、0行の合計に対してsum()が0を返すことを期待します

0行のSUMは0ではありません(残念ながら)。0にするためには、COALESCE()or ISNULL()関数またはCASE式を使用する必要があります。
ypercubeᵀᴹ2018年
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.