次のファイルがあります。
id name age
1 ed 50
2 joe 70
列id
とage
列だけを印刷したい。今私はちょうど使用しますawk
:
cat file.tsv | awk '{ print $1, $3 }'
ただし、これには列番号を知る必要があります。列番号の代わりに列の名前(最初の行で指定された)を使用できる場所でそれを行う方法はありますか?
id
代わりに$1
、age
代わりに言いたい$3
次のファイルがあります。
id name age
1 ed 50
2 joe 70
列id
とage
列だけを印刷したい。今私はちょうど使用しますawk
:
cat file.tsv | awk '{ print $1, $3 }'
ただし、これには列番号を知る必要があります。列番号の代わりに列の名前(最初の行で指定された)を使用できる場所でそれを行う方法はありますか?
id
代わりに$1
、age
代わりに言いたい$3
回答:
たぶんこのようなもの:
$ cat t.awk
NR==1 {
for (i=1; i<=NF; i++) {
ix[$i] = i
}
}
NR>1 {
print $ix[c1], $ix[c2]
}
$ awk -f t.awk c1=id c2=name input
1 ed
2 joe
$ awk -f t.awk c1=age c2=name input
50 ed
70 joe
コマンドラインで印刷する列を指定する場合は、次のようにします。
$ cat t.awk
BEGIN {
split(cols,out,",")
}
NR==1 {
for (i=1; i<=NF; i++)
ix[$i] = i
}
NR>1 {
for (i in out)
printf "%s%s", $ix[out[i]], OFS
print ""
}
$ awk -f t.awk -v cols=name,age,id,name,id input
ed 1 ed 50 1
joe 2 joe 70 2
(ブロックで-v
定義された変数を取得するスイッチに注意してくださいBEGIN
。)
awk -f t.awk col1 col2 ... coln input
理想的です。awk -f t.awk cols=col1,col2,...,coln input
うまくいくだろう
for (i in out)
ず、固有の順序はありません。ソリューションとしてgawk
提供PROCINFO["sorted_in"]
する場合は、for( ; ; )
おそらくaを使用してインデックスを反復処理することをお勧めします。
Perlソリューションをくじ引きするだけです:
#!/usr/bin/perl -wnla
BEGIN {
@f = ('id', 'age'); # field names to print
print "@f"; # print field names
}
if ($. == 1) { # if line number 1
@n = @F; # get all field names
} else { # or else
@v{@n} = @F; # map field names to values
print "@v{@f}"; # print values based on names
}
csvkit
入力データは、CSV形式に変換し、そのようなものとしてCSVツールを使用してcsvcut
からcsvkit
:
$ cat test-cols.dat
id name age
1 ed 50
2 joe 70
csvkitをインストールします。
$ pip install csvkit
使用しtr
てスクイズオプションで-s
有効なCSVファイルに変換し、適用しますcsvcut
:
$ cat test-cols.dat | tr -s ' ' ',' | csvcut -c id,age
id,age
1,50
2,70
古いデータ形式に戻したい場合は、次を使用できます。 tr ',' ' ' | column -t
$ cat test-cols.dat | tr -s ' ' ',' | csvcut -c id,age | tr ',' ' ' | column -t
id age
1 50
2 70
ノート
csvkitは異なる区切り文字(共有オプション -d
または--delimiter
)もサポートしていますが、csvファイルを返します。
ファイルで列を区切るのにスペースのみを使用する場合(タブはまったく使用しない)、次のように動作します
$ csvcut -d ' ' -S -c 'id,age' test-cols.dat
id,age
1,50
2,70
ファイルでタブを使用して列を区切る場合、次のように動作し、csvformat
tsvファイルを取得するために使用できます。
$ csvcut -t -c 'id,age' test-cols.dat | csvformat -T
id age
1 50
2 70
確認した限りでは、1つのタブのみが許可されています。
csvlook
テーブルをマークダウンテーブル形式でフォーマットできます。
$ csvcut -t -c "id,age" test-cols.dat | csvlook
| id | age |
| -- | --- |
| 1 | 50 |
| 2 | 70 |
UUOC(猫の無駄な使用):コマンドを作成するのにこの方法が好きです。
tr
も。TSVファイルは、CSVに変換する必要なく、直接サポートされます。-t
(別名--tabs
)オプションが伝えcvscut
フィールド区切り文字としてタブを使用します。そして、-d
または--delimiter
区切り文字として任意の文字を使用します。
-d
、-t
オプションとオプションは半破損しているようです。入力区切り文字を指定するように機能しますが、出力区切り文字は常にコンマになるようにハードコーディングされています。壊れたIMO-入力区切り文字と同じか、ユーザーがawk
FSやOFS変数などの出力区切り文字を設定できるようにする別のオプションが必要です。
数字の代わりに名前で
それらのフィールドを参照したいだけなら、使用できますread
:
while read id name age
do
echo "$id $age"
done < file.tsv
私はついにあなたの意味を見ました!コマンドラインで指定した列のみを出力するbash関数は次のとおりです(by名前で)。
printColumns ()
{
read names
while read $names; do
for col in $*
do
eval "printf '%s ' \$$col"
done
echo
done
}
提示したファイルでそれを使用する方法は次のとおりです。
$ < file.tsv printColumns id name
1 ed
2 joe
(関数 はstdin
。を読み取ります。< file.tsv printColumns ...
printColumns ... < file.tsv
とcat file.tsv | printColumns ...
)
$ < file.tsv printColumns name age
ed 50
joe 70
$ < file.tsv printColumns name age id name name name
ed 50 1 ed ed ed
joe 70 2 joe joe joe
注:要求する列の名前に注意してください!このバージョンには健全性チェックがないため、引数の1つが次のような場合に厄介なことが発生する可能性があります"anything; rm /my/precious/file"
id
、name
およびage
に名前を付けたからといって、注文がread
ラインにハードコードされているという事実は変わりません。
time { command(s); }
)。
time cat temp.txt | ./col1 CHR POS > /dev/null 99.144u 38.966s 2:19.27 99.1% 0+0k 0+0io 0pf+0w time awk -f col2 c1=CHR c2=POS temp.txt > /dev/null 0.294u 0.127s 0:00.50 82.0% 0+0k 0+0io 0pf+0w
それが価値があるもののために。これにより、ソース内の任意の数の列、および選択した出力シーケンスで印刷する任意の数の列を処理できます。引数を再配置するだけです...
例えば。コール:script-name id age
outseq=($@)
colnum=($(
for ((i; i<${#outseq[@]}; i++)) ;do
head -n 1 file |
sed -r 's/ +/\n/g' |
sed -nr "/^${outseq[$i]}$/="
done ))
tr ' ' '\t' <<<"${outseq[@]}"
sed -nr '1!{s/ +/\t/gp}' file |
cut -f $(tr ' ' ','<<<"${colnum[@]}")
出力
id age
1 50
2 70
読んでいるファイル がユーザー生成される可能性がない場合、readビルトインを悪用する可能性があります。
f=file.tsv
read $(head -n1 "$f") extra <<<`seq 100`
awk "{print \$$id, \$$age}" "$f"
入力ファイルの最初の行全体が引数リストに代入されるためread
、ヘッダー行のすべてのフィールド名が変数名として渡されます。これらの最初の1が割り当てられますseq 100
生成 2番目には2、3番目には3ます。過剰なseq
出力は、ダミー変数によって吸収されますextra
。事前に入力列の数がわかっている場合は、100を変更してに一致させて削除することができますextra
。
awk
このスクリプトは、によって定義されたシェル変数できるように、二重引用符で囲まれた文字列であるread
としてスクリプトに代入するawk
フィールド番号を。
この目的のために、基本的に次のように機能するPythonスクリプトを作成しました。
with fileinput.input(args.file) as data:
headers = data.readline().split()
selectors = [any(string in header for string in args.fixed_strings) or
any(re.search(pat, header) for pat in args.python_regexp)
for header in headers]
print(*itertools.compress(headers, selectors))
for line in data:
print(*itertools.compress(line.split(), selectors))
私はこれhgrep
をヘッダーgrepのために呼び出しました。次のように使用できます。
$ hgrep data.txt -F foo bar -P ^baz$
$ hgrep -F foo bar -P ^baz$ -- data.txt
$ grep -v spam data.txt | hgrep -F foo bar -P ^baz$
argparse
コマンドライン引数の解析に使用するため、スクリプト全体が少し長くなります。コードは次のとおりです。
#!/usr/bin/python3
import argparse
import fileinput
import itertools
import re
import sys
import textwrap
def underline(s):
return '\033[4m{}\033[0m'.format(s)
parser = argparse.ArgumentParser(
usage='%(prog)s [OPTIONS] {} [FILE]'.format(
underline('column-specification')),
description=
'Print selected columns by specifying patterns to match the headers.',
epilog=textwrap.dedent('''\
examples:
$ %(prog)s data.txt -F foo bar -P ^baz$
$ %(prog)s -F foo bar -P ^baz$ -- data.txt
$ grep -v spam data.txt | %(prog)s -F foo bar -P ^baz$
'''),
formatter_class=argparse.RawTextHelpFormatter,
)
parser.add_argument(
'-d', '--debug', action='store_true', help='include debugging information')
parser.add_argument(
'file', metavar='FILE', nargs='?', default='-',
help="use %(metavar)s as input, default is '-' for standard input")
spec = parser.add_argument_group(
'column specification', 'one of these or both must be provided:')
spec.add_argument(
'-F', '--fixed-strings', metavar='STRING', nargs='*', default=[],
help='show columns containing %(metavar)s in header\n\n')
spec.add_argument(
'-P', '--python-regexp', metavar='PATTERN', nargs='*', default=[],
help='show a column if its header matches any %(metavar)s')
args = parser.parse_args()
if args.debug:
for k, v in sorted(vars(args).items()):
print('{}: debug: {:>15}: {}'.format(parser.prog, k, v),
file=sys.stderr)
if not args.fixed_strings and not args.python_regexp:
parser.error('no column specifications given')
try:
with fileinput.input(args.file) as data:
headers = data.readline().split()
selectors = [any(string in header for string in args.fixed_strings) or
any(re.search(pat, header) for pat in args.python_regexp)
for header in headers]
print(*itertools.compress(headers, selectors))
for line in data:
print(*itertools.compress(line.split(), selectors))
except BrokenPipeError:
sys.exit(1)
except KeyboardInterrupt:
print()
sys.exit(1)
awk
、そのすべてのヴィンテージについて、本質的に整数インデックスが付けられていcut
ます。
名前がインデックス化されたデータを処理するように設計されたいくつかのツールを次に示します(そのほとんどは、非常に一般的なファイル形式であるCSVとTSVのみを処理します)。
この小さなawkユーティリティを試して特定のヘッダーをカットしてください-https://github.com/rohitprajapati/toyeca-cutter
使用例-
awk -f toyeca-cutter.awk -v c="col1, col2, col3, col4" my_file.csv
cat
必要ありません、ところで。使用できますawk '{ print $1, $3 }' file.tsv