以下のデータフレームがあります:
structure(
  list(ID = c("P-1", " P-1", "P-1", "P-2", "P-3", "P-4", "P-5", "P-6", "P-7",
              "P-8"),
       Date = c("2020-03-16 12:11:33", "2020-03-16 13:16:04",
                "2020-03-16 06:13:55", "2020-03-16 10:03:43",
                "2020-03-16 12:37:09", "2020-03-16 06:40:24",
                "2020-03-16 09:46:45", "2020-03-16 12:07:44",
                "2020-03-16 14:09:51", "2020-03-16 09:19:23"),
       Status = c("SA", "SA", "SA", "RE", "RE", "RE", "RE", "XA", "XA", "XA"),
       Flag = c("L", "L", "L", NA, "K", "J", NA, NA, "H", "G"),
       Value = c(5929.81, 5929.81, 5929.81, NA, 6969.33, 740.08, NA, NA, 1524.8,
                 NA),
       Flag2 = c("CL", "CL", "CL", NA, "RY", "", NA, NA, "", NA),
       Flag3 = c(NA, NA, NA, NA, "RI", "PO", NA, "SS", "DDP", NA)),
  .Names=c("ID", "Date", "Status", "Flag", "Value", "Flag2", "Flag3"),
  row.names=c(NA, 10L), class="data.frame")
以下のコードを使用しています:
    df %>% mutate(L = ifelse(Flag == "L",1,0),
                  K = ifelse(Flag == "K",1,0),
                  # etc for Flag) %>%
      mutate(sub_status = NA) %>%
      mutate(sub_status = ifelse(!is.na(Flag2) & Flag3 == 0, "a", sub_status),
             sub_status = ifelse(is.na(Flag2) & Flag3 != 0, "b", sub_status),
             # etc for sub-status) %>%
      mutate(value_class = ifelse(0 <= Value & Value <= 15000, "0-15000",
                                  "15000-50000")) %>%
      group_by(Date, status, sub_status, value_class) %>%
      summarise(L = sum(L),
                K = sum(K),
                # etc
                count = n())
これは私に次の出力を提供します:
    Date         Status  sub_status   value_class G H I J K L NA Count
    2020-03-20   SA      a            0-15000     0 0 0 0 1 1 0  2
    2020-03-20   SA      b            0-15000     0 0 0 0 1 0 0  1
    ................
    ................
を使用して次の出力を取得しますDF。ここで、Status列には3つの値Flag2があり、値または[null]またはNAがあり、最後にFlag3列には[null]またはNA がある7つの値があります。1つの個別IDのFlag3列の複数のエントリがあります。
0-15000、15000-50000のValueような3つのグループを作成して、次のデータフレームを作成する必要があります。
- 個別のIDのFlag2値が0または[null] / NA以外であるFlag3が、値0または[null] / NAの場合は、になりますa。
- 個別のIDのFlag3値が0または[null] / NA以外であるFlag2が、値0または[null] / NAの場合、次のようになります。b
- 異なるIDの場合の両方Flag2&Flag30又は[ヌル] / NA以外の値を有し、それは次のようになりc
- もし異なるIDの両方Flag2&Flag3有し値0または[ヌル] / NAがあろうd
上記のdatafrmaeを次の構造percentとTotal列で構成したいと思います。
2/5ステータスは合計で割られるのに対し、ステータスはそれぞれで割られることを示すようなパーセンテージについて述べsub_statusましたStatus。
16/03/2020         0 - 15000                    15000 - 50000
Status  count   percent  L K J H G [Null]    count   percent  L K J H G [Null]   Total
SA        1 1/8 (12.50%) 1 0 0 0 0   0         0       -      0 0 0 0 0    0       1
a         1 1/1(100.00%) 1 0 0 0 0   0         0       -      0 0 0 0 0    0       1
b         0       -      0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
c         0       -      1 0 0 0 0   0         0       -      0 0 0 0 0    0       0
d         0       -      0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
RE        4      50.00%  0 1 1 0 0   2         0       -      0 0 0 0 0    0       4
a         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
b         1      25.00%  0 0 1 0 0   1         0       -      0 0 0 0 0    0       1
c         1      25.00%  0 1 0 0 0   1         0       -      0 0 0 0 0    0       1
d         2      50.00%  0 0 0 0 0   2         0       -      0 0 0 0 0    0       2
XA        3      37.50%  0 0 0 1 1   1         0       -      0 0 0 0 0    0       3
a         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
b         2      66.67%  0 0 0 1 0   1         0       -      0 0 0 0 0    0       2
c         0        -     0 0 0 0 0   0         0       -      0 0 0 0 0    0       0
d         1      33.33%  0 0 0 0 1   0         0       -      0 0 0 0 0    0       1
Total     8     100.00%  1 1 0 0 1   3         0       -      0 0 0 0 0    0       8
データフレームに最新の日付がない場合startdate、出力データフレームにすべての値0を保持するため、最新の日付である2020年3月16日に基づいて必要な出力について説明しました。パーセンテージの列は参照用であり、計算されたパーセンテージ値があります。
また、構造を静的に保ちたいです。たとえば、いずれかのパラメータが1日存在しない場合、出力構造は値0と同じになります。
たとえば、日付に、値がの出力に存在17/03/2020するステータスSAまたはsub_status cのプレースホルダーがある行がないとします0。
                  @akrun:必要な出力がR:(
                
                
                  
                    —
                    user9211845 
                    
                  
                
              
                  データ入力は10行ですが、予想されるのはそれ以上です。入力例に基づく予想です
                
                
                  
                    —
                    akrun 
                    
                  
                
              
                  @akrun:申し訳ありませんが、出力は視覚的な表現のみです。そのような出力を得るためのアプローチを理解する必要があります。
                
                
                  
                    —
                    user9211845 
                    
                  
                
              dputあなたが好きなデータセットから始めてください-それは3番目のコードブロックです。上記のコードは、出力の内容に問題があるように見えるため、関連性がないように見えます。
                
2/5表現の目的で保持したパーセント列。パーセント記号の付いた小数点以下2桁のみのパーセント値があります。