行間で90日が経過したギャップを再帰的に見つける方法


17

これは私のC#ホームワールドでは一種の些細な作業ですが、SQLでまだ作成しておらず、セットベース(カーソルなし)で解決することを好みます。結果セットは、このようなクエリから取得する必要があります。

SELECT SomeId, MyDate, 
    dbo.udfLastHitRecursive(param1, param2, MyDate) as 'Qualifying'
FROM T

どのように機能するか

これら3つのパラメーターをUDFに送信します。
UDFは内部的にparamsを使用して、ビューから関連する90日未満の古い行をフェッチします。
UDFは 'MyDate'をトラバースし、合計計算に含める必要がある場合は1を返します。
そうでない場合は、0を返します。ここでは「修飾」と名付けられています。

UDFが行うこと

行を日付順にリストします。行間の日数を計算します。結果セットの最初の行はデフォルトでHit = 1になります。差が最大90の場合、-ギャップの合計が90日になるまで次の行に渡します(90日目が経過する必要があります)。代わりに、結果から行を省略することもできます。

                                          |(column by udf, which not work yet)
Date              Calc_date     MaxDiff   | Qualifying
2014-01-01 11:00  2014-01-01    0         | 1
2014-01-03 10:00  2014-01-01    2         | 0
2014-01-04 09:30  2014-01-03    1         | 0
2014-04-01 10:00  2014-01-04    87        | 0
2014-05-01 11:00  2014-04-01    30        | 1

上記の表のMaxDiff列は、前の行の日付とのギャップです。これまでの試みの問題は、上記のサンプルの最後から2番目の行を無視できないことです。

[編集]
コメントに従って、タグを追加し、今コンパイルしたudfも貼り付けます。ただし、これは単なるプレースホルダーであり、有用な結果は得られません。

;WITH cte (someid, otherkey, mydate, cost) AS
(
    SELECT someid, otherkey, mydate, cost
    FROM dbo.vGetVisits
    WHERE someid = @someid AND VisitCode = 3 AND otherkey = @otherkey 
    AND CONVERT(Date,mydate) = @VisitDate

    UNION ALL

    SELECT top 1 e.someid, e.otherkey, e.mydate, e.cost
    FROM dbo.vGetVisits AS E
    WHERE CONVERT(date, e.mydate) 
        BETWEEN DateAdd(dd,-90,CONVERT(Date,@VisitDate)) AND CONVERT(Date,@VisitDate)
        AND e.someid = @someid AND e.VisitCode = 3 AND e.otherkey = @otherkey 
        AND CONVERT(Date,e.mydate) = @VisitDate
        order by e.mydate
)

私が別に定義する別のクエリがあります。これは必要なものにもっと近いですが、ウィンドウ化された列では計算できないという事実でブロックされています。私はまた、datediffに囲まれたMyDateでLAG()を使用して、ほぼ同じ出力を提供する類似の1つを試しました。

SELECT
    t.Mydate, t.VisitCode, t.Cost, t.SomeId, t.otherkey, t.MaxDiff, t.DateDiff
FROM 
(
    SELECT *,
        MaxDiff = LAST_VALUE(Diff.Diff)  OVER (
            ORDER BY Diff.Mydate ASC
                ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW)
    FROM 
    (
        SELECT *,
            Diff =  ISNULL(DATEDIFF(DAY, LAST_VALUE(r.Mydate) OVER (
                        ORDER BY r.Mydate ASC
                            ROWS BETWEEN 1 PRECEDING AND 1 PRECEDING), 
                                r.Mydate),0),
            DateDiff =  ISNULL(LAST_VALUE(r.Mydate) OVER (
                        ORDER BY r.Mydate ASC
                            ROWS BETWEEN 1 PRECEDING AND 1 PRECEDING), 
                                r.Mydate)
        FROM dbo.vGetVisits AS r
        WHERE r.VisitCode = 3 AND r.SomeId = @SomeID AND r.otherkey = @otherkey
    ) AS Diff
) AS t
WHERE t.VisitCode = 3 AND t.SomeId = @SomeId AND t.otherkey = @otherkey
    AND t.Diff <= 90
ORDER BY
    t.Mydate ASC;

コメントは詳細なディスカッション用ではありません。この会話はチャットに移動さました
ポールホワイトはGoFundMonicaを言う

回答:


22

質問を読んだとき、必要な基本的な再帰アルゴリズムは次のとおりです。

  1. セット内で最も早い日付の行を返します
  2. その日付を「現在」に設定します
  3. 現在の日付から90日以上後の最も早い日付の行を見つけます
  4. 行が見つからなくなるまで手順2から繰り返します

これは、再帰的な共通テーブル式を使用して比較的簡単に実装できます。

たとえば、次のサンプルデータを使用します(質問に基づく)。

DECLARE @T AS table (TheDate datetime PRIMARY KEY);

INSERT @T (TheDate)
VALUES
    ('2014-01-01 11:00'),
    ('2014-01-03 10:00'),
    ('2014-01-04 09:30'),
    ('2014-04-01 10:00'),
    ('2014-05-01 11:00'),
    ('2014-07-01 09:00'),
    ('2014-07-31 08:00');

再帰コードは次のとおりです。

WITH CTE AS
(
    -- Anchor:
    -- Start with the earliest date in the table
    SELECT TOP (1)
        T.TheDate
    FROM @T AS T
    ORDER BY
        T.TheDate

    UNION ALL

    -- Recursive part   
    SELECT
        SQ1.TheDate
    FROM 
    (
        -- Recursively find the earliest date that is 
        -- more than 90 days after the "current" date
        -- and set the new date as "current".
        -- ROW_NUMBER + rn = 1 is a trick to get
        -- TOP in the recursive part of the CTE
        SELECT
            T.TheDate,
            rn = ROW_NUMBER() OVER (
                ORDER BY T.TheDate)
        FROM CTE
        JOIN @T AS T
            ON T.TheDate > DATEADD(DAY, 90, CTE.TheDate)
    ) AS SQ1
    WHERE
        SQ1.rn = 1
)
SELECT 
    CTE.TheDate 
FROM CTE
OPTION (MAXRECURSION 0);

結果は次のとおりです。

╔═════════════════════════╗
         TheDate         
╠═════════════════════════╣
 2014-01-01 11:00:00.000 
 2014-05-01 11:00:00.000 
 2014-07-31 08:00:00.000 
╚═════════════════════════╝

インデックスをTheDate先頭キーとして使用すると、実行計画は非常に効率的です。

実行計画

これを関数でラップして、質問で言及されているビューに対して直接実行することを選択できますが、私の直感はそれに反します。通常、ビューから行を選択して一時テーブルに入れ、一時テーブルに適切なインデックスを提供してから上記のロジックを適用すると、パフォーマンスが向上します。詳細はビューの詳細によって異なりますが、これは私の一般的な経験です。

完全を期すため(そしてypercubeの答えに促されます)、このタイプの問題に対する他の適切なソリューション(T-SQLが適切な順序セット関数を取得するまで)はSQLCLRカーソルであることに言及する必要があります(テクニックの例についてはこちらの答えを参照してください))。これは、T-SQLカーソルよりもはるかに優れたパフォーマンスを発揮し、.NET言語のスキルがあり、運用環境でSQLCLRを実行する能力がある場合に便利です。このシナリオでは、コストの大部分がソートであるため、再帰的ソリューションよりも多くを提供しないかもしれませんが、言及する価値があります。


9

これ SQL Server 2014の質問なので、ネイティブにコンパイルされたストアドプロシージャバージョンの「カーソル」を追加することもできます。

いくつかのデータを含むソーステーブル:

create table T 
(
  TheDate datetime primary key
);

go

insert into T(TheDate) values
('2014-01-01 11:00'),
('2014-01-03 10:00'),
('2014-01-04 09:30'),
('2014-04-01 10:00'),
('2014-05-01 11:00'),
('2014-07-01 09:00'),
('2014-07-31 08:00');

ストアドプロシージャのパラメーターであるテーブルタイプ。bucket_count適切に調整します

create type TType as table
(
  ID int not null primary key nonclustered hash with (bucket_count = 16),
  TheDate datetime not null
) with (memory_optimized = on);

また、テーブル値パラメーターをループして、行を収集するストアドプロシージャ@R

create procedure dbo.GetDates
  @T dbo.TType readonly
with native_compilation, schemabinding, execute as owner 
as
begin atomic with (transaction isolation level = snapshot, language = N'us_english', delayed_durability = on)

  declare @R dbo.TType;
  declare @ID int = 0;
  declare @RowsLeft bit = 1;  
  declare @CurDate datetime = '1901-01-01';
  declare @LastDate datetime = '1901-01-01';

  while @RowsLeft = 1
  begin
    set @ID += 1;

    select @CurDate = T.TheDate
    from @T as T
    where T.ID = @ID

    if @@rowcount = 1
    begin
      if datediff(day, @LastDate, @CurDate) > 90
      begin
        insert into @R(ID, TheDate) values(@ID, @CurDate);
        set @LastDate = @CurDate;
      end;
    end
    else
    begin
      set @RowsLeft = 0;
    end

  end;

  select R.TheDate
  from @R as R;
end

ネイティブにコンパイルされたストアドプロシージャのパラメーターとして使用されるメモリ最適化テーブル変数を埋め、プロシージャを呼び出すコード。

declare @T dbo.TType;

insert into @T(ID, TheDate)
select row_number() over(order by T.TheDate),
       T.TheDate
from T;

exec dbo.GetDates @T;

結果:

TheDate
-----------------------
2014-07-31 08:00:00.000
2014-01-01 11:00:00.000
2014-05-01 11:00:00.000

更新:

何らかの理由でテーブルのすべての行にアクセスする必要がない場合は、Paul Whiteによる再帰CTEに実装されている「次の日付にジャンプ」バージョンと同等の操作を実行できます。

データ型にはID列は必要ないため、ハッシュインデックスを使用しないでください。

create type TType as table
(
  TheDate datetime not null primary key nonclustered
) with (memory_optimized = on);

そして、ストアドプロシージャはa select top(1) ..を使用して次の値を見つけます。

create procedure dbo.GetDates
  @T dbo.TType readonly
with native_compilation, schemabinding, execute as owner 
as
begin atomic with (transaction isolation level = snapshot, language = N'us_english', delayed_durability = on)

  declare @R dbo.TType;
  declare @RowsLeft bit = 1;  
  declare @CurDate datetime = '1901-01-01';

  while @RowsLeft = 1
  begin

    select top(1) @CurDate = T.TheDate
    from @T as T
    where T.TheDate > dateadd(day, 90, @CurDate)
    order by T.TheDate;

    if @@rowcount = 1
    begin
      insert into @R(TheDate) values(@CurDate);
    end
    else
    begin
      set @RowsLeft = 0;
    end

  end;

  select R.TheDate
  from @R as R;
end

DATEADDおよびDATEDIFFを使用するソリューションは、初期データセットに応じて異なる結果を返す場合があります。
パベルネフィドフ14

@PavelNefyodov私はそれを見ません。説明や例を挙げていただけますか?
ミカエルエリクソン

このような日付( '2014-01-01 00:00:00.000')、( '2014-04-01 01:00:00.000')で確認してください。詳細は私の答えにあります。
パベルネフィドフ14

@PavelNefyodovああ、なるほど。だから、私はT.TheDate >= dateadd(day, 91, @CurDate)すべてに2番目を変更しても大丈夫でしょうか?
ミカエルエリクソン14

または、OPに適切な場合はTheDate、in のデータ型をに変更TTypeDateます。
ミカエルエリクソン14

5

カーソルを使用するソリューション。
(最初に、いくつかの必要なテーブルと変数)

-- a table to hold the results
DECLARE @cd TABLE
(   TheDate datetime PRIMARY KEY,
    Qualify INT NOT NULL
);

-- some variables
DECLARE
    @TheDate DATETIME,
    @diff INT,
    @Qualify     INT = 0,
    @PreviousCheckDate DATETIME = '1900-01-01 00:00:00' ;

実際のカーソル:

-- declare the cursor
DECLARE c CURSOR
    LOCAL STATIC FORWARD_ONLY READ_ONLY
    FOR
    SELECT TheDate
      FROM T
      ORDER BY TheDate ;

-- using the cursor to fill the @cd table
OPEN c ;

FETCH NEXT FROM c INTO @TheDate ;

WHILE @@FETCH_STATUS = 0
BEGIN
    SET @diff = DATEDIFF(day, @PreviousCheckDate, @Thedate) ;
    SET @Qualify = CASE WHEN @diff > 90 THEN 1 ELSE 0 END ;

    INSERT @cd (TheDate, Qualify)
        SELECT @TheDate, @Qualify ;

    SET @PreviousCheckDate = 
            CASE WHEN @diff > 90 
                THEN @TheDate 
                ELSE @PreviousCheckDate END ;

    FETCH NEXT FROM c INTO @TheDate ;
END

CLOSE c;
DEALLOCATE c;

そして結果を得る:

-- get the results
SELECT TheDate, Qualify
    FROM @cd
    -- WHERE Qualify = 1        -- optional, to see only the qualifying rows
    ORDER BY TheDate ;

SQLFiddleでテスト済み


このソリューションに+1を付けますが、これが最も効率的な方法であるためではありません。
パベルネフィドフ

@PavelNefyodovその後、パフォーマンスをテストする必要があります!
ypercubeᵀᴹ

私はポール・ホワイトを信頼しています。パフォーマンステストの私の経験はそれほど印象的ではありません。繰り返しますが、これは私があなたの答えを投票することを止めるものではありません。
パベルネフィドフ

ありがとう、ypercube。予想どおり、限られた行数で高速。13000行では、CTEとこれはほぼ同じパフォーマンスを示しました。130.000行では、600%の差がありました。13分で、テスト機器で15分経過します。また、主キーを削除する必要がありましたが、これはパフォーマンスに少し影響する可能性があります。
独立した14

テスト用のThnx。またINSERT @cd、次の場合にのみ実行するように変更してテストすることもできます@Qualify=1(したがって、出力ですべてを必要としない場合、13M行を挿入しません)。そして、解決策は上のインデックスを見つけることに依存していTheDateます。ない場合は、効率的ではありません。
ypercubeᵀᴹ

2
IF  EXISTS (SELECT * FROM sys.objects WHERE object_id = OBJECT_ID(N'[dbo].[vGetVisits]') AND type in (N'U'))
DROP TABLE [dbo].[vGetVisits]
GO

CREATE TABLE [dbo].[vGetVisits](
    [id] [int] NOT NULL,
    [mydate] [datetime] NOT NULL,
 CONSTRAINT [PK_vGetVisits] PRIMARY KEY CLUSTERED 
(
    [id] ASC
)
)

GO

INSERT INTO [dbo].[vGetVisits]([id], [mydate])
VALUES
    (1, '2014-01-01 11:00'),
    (2, '2014-01-03 10:00'),
    (3, '2014-01-04 09:30'),
    (4, '2014-04-01 10:00'),
    (5, '2014-05-01 11:00'),
    (6, '2014-07-01 09:00'),
    (7, '2014-07-31 08:00');
GO


-- Clean up 
IF OBJECT_ID (N'dbo.udfLastHitRecursive', N'FN') IS NOT NULL
DROP FUNCTION udfLastHitRecursive;
GO

-- Actual Function  
CREATE FUNCTION dbo.udfLastHitRecursive
( @MyDate datetime)

RETURNS TINYINT

AS
    BEGIN 
        -- Your returned value 1 or 0
        DECLARE @Returned_Value TINYINT;
        SET @Returned_Value=0;
    -- Prepare gaps table to be used.
    WITH gaps AS
    (
                        -- Select Date and MaxDiff from the original table
                        SELECT 
                        CONVERT(Date,mydate) AS [date]
                        , DATEDIFF(day,ISNULL(LAG(mydate, 1) OVER (ORDER BY mydate), mydate) , mydate) AS [MaxDiff]
                        FROM dbo.vGetVisits
    )

        SELECT @Returned_Value=
            (SELECT DISTINCT -- DISTINCT in case we have same date but different time
                    CASE WHEN
                     (
                    -- It is a first entry
                    [date]=(SELECT MIN(CONVERT(Date,mydate)) FROM dbo.vGetVisits))
                    OR 
                    /* 
                    --Gap between last qualifying date and entered is greater than 90 
                        Calculate Running sum upto and including required date 
                        and find a remainder of division by 91. 
                    */
                     ((SELECT SUM(t1.MaxDiff)  
                    FROM (SELECT [MaxDiff] FROM gaps WHERE [date]<=t2.[date] 
                    ) t1 
                    )%91 - 
                    /* 
                        ISNULL added to include first value that always returns NULL 
                        Calculate Running sum upto and NOT including required date 
                        and find a remainder of division by 91 
                    */
                    ISNULL((SELECT SUM(t1.MaxDiff)  
                    FROM (SELECT [MaxDiff] FROM gaps WHERE [date]<t2.[date] 
                    ) t1 
                    )%91, 0) -- End ISNULL
                     <0 )
                    /* End Running sum upto and including required date */
                    OR
                    -- Gap between two nearest dates is greater than 90 
                    ((SELECT SUM(t1.MaxDiff)  
                    FROM (SELECT [MaxDiff] FROM gaps WHERE [date]<=t2.[date] 
                    ) t1 
                    ) - ISNULL((SELECT SUM(t1.MaxDiff)  
                    FROM (SELECT [MaxDiff] FROM gaps WHERE [date]<t2.[date] 
                    ) t1 
                    ), 0) > 90) 
                    THEN 1
                    ELSE 0
                    END 
                    AS [Qualifying]
                    FROM gaps t2
                    WHERE [date]=CONVERT(Date,@MyDate))
        -- What is neccesary to return when entered date is not in dbo.vGetVisits?
        RETURN @Returned_Value
    END
GO

SELECT 
dbo.udfLastHitRecursive(mydate) AS [Qualifying]
, [id]
, mydate 
FROM dbo.vGetVisits
ORDER BY mydate 

結果

ここに画像の説明を入力してください

SQL Serverで実行中の合計を計算する方法もご覧ください。

更新:パフォーマンステストの結果を以下でご覧ください。

「90日間のギャップ」を見つけるために使用される異なるロジックのため、ypercubeと私のソリューションはそのままにしておくと、Paul Whiteのソリューションに異なる結果が返される場合があります。これは、それぞれDATEDIFFおよびDATEADD関数を使用しているためです。

例えば:

SELECT DATEADD(DAY, 90, '2014-01-01 00:00:00.000')

'2014-04-01 00:00:00.000'を返します。これは、 '2014-04-01 01:00:00.000'が90日のギャップを超えていることを意味します

だが

SELECT DATEDIFF(DAY, '2014-01-01 00:00:00.000', '2014-04-01 01:00:00.000')

'90'を返します。これは、まだギャップ内にあることを意味します。

小売業者の例を考えてみましょう。この場合、日付「2014-01-01」の「2014-01-01 23:59:59:999」までに売れた生鮮食品の販売は問題ありません。したがって、この場合の値DATEDIFF(DAY、...)は問題ありません。

別の例は、見られるのを待っている患者です。「2014-01-01 00:00:00:000」に来て「2014-01-01 23:59:59:999」に出発する人の場合、DATEDIFFが使用されていても0(ゼロ)日です実際の待機はほぼ24時間でした。再び、 '2014-01-01 23:59:59'に来て '2014-01-02 00:00:01'に立ち去る患者は、DATEDIFFが使用されている場合は1日待機しました。

しかし、私は脱線します。

私はDATEDIFFソリューションを残し、それらをパフォーマンスでさえテストしましたが、それらは本当に独自のリーグにあるべきです。

また、大きなデータセットの場合、同じ日の値を避けることは不可能であることに留意されました。したがって、2年間のデータにまたがる1,300万件のレコードがある場合、数日間にわたって複数のレコードが存在することになります。これらのレコードは、私とypercubeのDATEDIFFソリューションで最も早い機会に除外されています。ypercubeがこれを気にしないことを願っています。

ソリューションは次の表でテストされました

CREATE TABLE [dbo].[vGetVisits](
    [id] [int] NOT NULL,
    [mydate] [datetime] NOT NULL,
) 

2つの異なるクラスター化インデックス(この場合はmydate):

CREATE CLUSTERED INDEX CI_mydate on vGetVisits(mydate) 
GO

テーブルは次のように入力されました

SET NOCOUNT ON
GO

INSERT INTO dbo.vGetVisits(id, mydate)
VALUES (1, '01/01/1800')
GO

DECLARE @i bigint
SET @i=2

DECLARE @MaxRows bigint
SET @MaxRows=13001

WHILE @i<@MaxRows 
BEGIN
INSERT INTO dbo.vGetVisits(id, mydate)
VALUES (@i, DATEADD(day,FLOOR(RAND()*(3)),(SELECT MAX(mydate) FROM dbo.vGetVisits)))
SET @i=@i+1
END

数百万行の場合、INSERTが変更され、0〜20分のエントリがランダムに追加されました。

すべてのソリューションは、次のコードで慎重にまとめられました

SET NOCOUNT ON
GO

DECLARE @StartDate DATETIME

SET @StartDate = GETDATE()

--- Code goes here

PRINT 'Total milliseconds: ' + CONVERT(varchar, DATEDIFF(ms, @StartDate, GETDATE()))

テストされた実際のコード(順不同):

YpercubeのDATEDIFFソリューション(YPC、DATEDIFF

DECLARE @cd TABLE
(   TheDate datetime PRIMARY KEY,
    Qualify INT NOT NULL
);

DECLARE
    @TheDate DATETIME,
    @Qualify     INT = 0,
    @PreviousCheckDate DATETIME = '1799-01-01 00:00:00' 


DECLARE c CURSOR
    LOCAL STATIC FORWARD_ONLY READ_ONLY
    FOR
SELECT 
   mydate
FROM 
 (SELECT
       RowNum = ROW_NUMBER() OVER(PARTITION BY cast(mydate as date) ORDER BY mydate)
       , mydate
   FROM 
       dbo.vGetVisits) Actions
WHERE
   RowNum = 1
ORDER BY 
  mydate;

OPEN c ;

FETCH NEXT FROM c INTO @TheDate ;

WHILE @@FETCH_STATUS = 0
BEGIN

    SET @Qualify = CASE WHEN DATEDIFF(day, @PreviousCheckDate, @Thedate) > 90 THEN 1 ELSE 0 END ;
    IF  @Qualify=1
    BEGIN
        INSERT @cd (TheDate, Qualify)
        SELECT @TheDate, @Qualify ;
        SET @PreviousCheckDate=@TheDate 
    END
    FETCH NEXT FROM c INTO @TheDate ;
END

CLOSE c;
DEALLOCATE c;


SELECT TheDate
    FROM @cd
    ORDER BY TheDate ;

YpercubeのDATEADDソリューション(YPC、DATEADD

DECLARE @cd TABLE
(   TheDate datetime PRIMARY KEY,
    Qualify INT NOT NULL
);

DECLARE
    @TheDate DATETIME,
    @Next_Date DATETIME,
    @Interesting_Date DATETIME,
    @Qualify     INT = 0

DECLARE c CURSOR
    LOCAL STATIC FORWARD_ONLY READ_ONLY
    FOR
  SELECT 
  [mydate]
  FROM [test].[dbo].[vGetVisits]
  ORDER BY mydate
  ;

OPEN c ;

FETCH NEXT FROM c INTO @TheDate ;

SET @Interesting_Date=@TheDate

INSERT @cd (TheDate, Qualify)
SELECT @TheDate, @Qualify ;

WHILE @@FETCH_STATUS = 0
BEGIN

    IF @TheDate>DATEADD(DAY, 90, @Interesting_Date)
    BEGIN
        INSERT @cd (TheDate, Qualify)
        SELECT @TheDate, @Qualify ;
        SET @Interesting_Date=@TheDate;
    END

    FETCH NEXT FROM c INTO @TheDate;
END

CLOSE c;
DEALLOCATE c;


SELECT TheDate
    FROM @cd
    ORDER BY TheDate ;

ポール・ホワイトのソリューション(PW

;WITH CTE AS
(
    SELECT TOP (1)
        T.[mydate]
    FROM dbo.vGetVisits AS T
    ORDER BY
        T.[mydate]

    UNION ALL

    SELECT
        SQ1.[mydate]
    FROM 
    (
        SELECT
            T.[mydate],
            rn = ROW_NUMBER() OVER (
                ORDER BY T.[mydate])
        FROM CTE
        JOIN dbo.vGetVisits AS T
            ON T.[mydate] > DATEADD(DAY, 90, CTE.[mydate])
    ) AS SQ1
    WHERE
        SQ1.rn = 1
)

SELECT 
    CTE.[mydate]
FROM CTE
OPTION (MAXRECURSION 0);

私のDATEADDソリューション(PN、DATEADD

DECLARE @cd TABLE
(   TheDate datetime PRIMARY KEY
);

DECLARE @TheDate DATETIME

SET @TheDate=(SELECT MIN(mydate) as mydate FROM [dbo].[vGetVisits])

WHILE (@TheDate IS NOT NULL)
    BEGIN

        INSERT @cd (TheDate) SELECT @TheDate;

        SET @TheDate=(  
            SELECT MIN(mydate) as mydate 
            FROM [dbo].[vGetVisits]
            WHERE mydate>DATEADD(DAY, 90, @TheDate)
                    )
    END

SELECT TheDate
    FROM @cd
    ORDER BY TheDate ;

私のDATEDIFFソリューション(PN、DATEDIFF

DECLARE @MinDate DATETIME;
SET @MinDate=(SELECT MIN(mydate) FROM dbo.vGetVisits);
    ;WITH gaps AS
    (
       SELECT 
       t1.[date]
       , t1.[MaxDiff]
       , SUM(t1.[MaxDiff]) OVER (ORDER BY t1.[date]) AS [Running Total]
            FROM
            (
                SELECT 
                mydate AS [date]
                , DATEDIFF(day,LAG(mydate, 1, mydate) OVER (ORDER BY mydate) , mydate) AS [MaxDiff] 
                FROM 
                    (SELECT
                    RowNum = ROW_NUMBER() OVER(PARTITION BY cast(mydate as date) ORDER BY mydate)
                    , mydate
                    FROM dbo.vGetVisits
                    ) Actions
                WHERE RowNum = 1
            ) t1
    )

    SELECT [date]
    FROM gaps t2
    WHERE                         
         ( ([Running Total])%91 - ([Running Total]- [MaxDiff])%91 <0 )      
         OR
         ( [MaxDiff] > 90) 
         OR
         ([date]=@MinDate)    
    ORDER BY [date]

私はSQL Server 2012を使用しているため、Mikael Erikssonに謝罪しますが、彼のコードはここではテストされません。私はまだ、DATADIFFとDATEADDを使用した彼のソリューションがいくつかのデータセットで異なる値を返すことを期待しています。

実際の結果は次のとおりです。 ここに画像の説明を入力してください


ありがとう、パベル。時間内にあなたのソリューションの結果が本当に得られませんでした。25秒の実行時間になるまで、テストデータを1000行に小さくしました。日付でグループを追加し、選択で日付に変換すると、正しい出力が得られました!念のため、small-testdata-table(13k行)でクエリを実行し、12分を超えました。これはo(nx)以上のパフォーマンスを意味します!したがって、確かに小さいセットには便利に見えます。
独立した14

テストで使用したテーブルは何ですか?何行ですか?ただし、正しい出力を得るために日付ごとにグループを追加する必要がある理由はわかりません。質問の一部として資金調達を公開してください(更新済み)。
パベルネフィドフ14

こんにちは!明日追加します。グループは、重複した日付を結合することでした。しかし、私は急いでいて(深夜)、おそらくconvert(date、z)を追加することによって既に行われていました。行の数は私のコメントにあります。ソリューションで1000行を試しました。また、12分間の実行で13.000行を試しました。Pauls and Ypercubesも130.000と13,000,000のテーブルに誘惑されました。テーブルは、昨日から-2年前までに作成されたランダムな日付を持つプレーンなテーブルでした。日付フィールドの詳細なインデックス。
独立した14

0

さて、私は何かを見逃しましたか、またはなぜあなたは再帰をスキップして自分に戻って参加しないのですか?日付が主キーの場合、日付は一意であり、次の行へのオフセットを計算する予定がある場合は時系列である必要があります

    DECLARE @T AS TABLE
  (
     TheDate DATETIME PRIMARY KEY
  );

INSERT @T
       (TheDate)
VALUES ('2014-01-01 11:00'),
       ('2014-01-03 10:00'),
       ('2014-01-04 09:30'),
       ('2014-04-01 10:00'),
       ('2014-05-01 11:00'),
       ('2014-07-01 09:00'),
       ('2014-07-31 08:00');

SELECT [T1].[TheDate]                               [first],
       [T2].[TheDate]                               [next],
       Datediff(day, [T1].[TheDate], [T2].[TheDate])[offset],
       ( CASE
           WHEN Datediff(day, [T1].[TheDate], [T2].[TheDate]) >= 30 THEN 1
           ELSE 0
         END )                                      [qualify]
FROM   @T[T1]
       LEFT JOIN @T[T2]
              ON [T2].[TheDate] = (SELECT Min([TheDate])
                                   FROM   @T
                                   WHERE  [TheDate] > [T1].[TheDate]) 

利回り

ここに画像の説明を入力してください

重要な何かを見逃さない限り...


2
おそらくWHERE [TheDate] > [T1].[TheDate]、90日間の差のしきい値を考慮するためにそれを変更したいでしょう。しかし、それでもあなたの出力は望んでいるものではありません。
ypercubeᵀᴹ

重要:コードのどこかに「90」が必要です。
パベルネフィドフ14
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.