ユーザーからPostgreSQLサーバーへの2つの接続があり、約4時間実行され、かなりの時間(少なくとも1時間はそれを監視していた)コミット状態になっているという問題が発生しています。 。これらの接続は他のクエリの実行をブロックしていますが、それ自体はブロックされていません。
問題の2つの関係を次に示します。
postgres=# select * from pg_stat_activity where usename = 'xxxxx';
datid | datname | procpid | usesysid | usename | current_query | waiting | xact_start | query_start | backend_start | client_addr | client_port
-------+---------+---------+----------+---------+---------------+---------+-------------------------------+-------------------------------+-------------------------------+---------------+-------------
20394 | xxxxxx | 17509 | 94858 | xxxxx | COMMIT | f | 2014-01-30 05:51:11.311363-05 | 2014-01-30 05:51:12.042515-05 | 2014-01-30 05:51:11.294444-05 | xx.xx.xxx.xxx | 63531
20394 | xxxxxx | 9593 | 94858 | xxxxx | COMMIT | f | 2014-01-30 06:45:17.032651-05 | 2014-01-30 06:45:17.694533-05 | 2014-01-30 06:45:16.992576-05 | xx.xx.xxx.xxx | 63605
PID 9593は、他のユーザーがこれによってブロックされる最も問題の多いものです。ユーザーが認めている限り、彼はテーブルを切り捨て、各バッチの後に1,000コミットのバッチで挿入を行いました。
現在、このPIDは次のロックを示しています。
postgres=# select * from pg_locks where pid = 9593;
locktype | database | relation | page | tuple | virtualxid | transactionid | classid | objid | objsubid | virtualtransaction | pid | mode | granted
---------------+----------+----------+------+-------+------------+---------------+---------+-------+----------+--------------------+------+---------------------+---------
relation | 20394 | 29173472 | | | | | | | | 261/0 | 9593 | AccessExclusiveLock | t
relation | 20394 | 27794470 | | | | | | | | 261/0 | 9593 | RowExclusiveLock | t
relation | 20394 | 27794470 | | | | | | | | 261/0 | 9593 | ShareLock | t
relation | 20394 | 27794470 | | | | | | | | 261/0 | 9593 | AccessExclusiveLock | t
virtualxid | | | | | 261/503292 | | | | | 261/0 | 9593 | ExclusiveLock | t
transactionid | | | | | | 503213304 | | | | 261/0 | 9593 | ExclusiveLock | t
このPIDを強制終了できません(killコマンドを発行しても何も起こりません)。これをさらに診断し、明らかにこれを解決するために何をすべきかわかりません。
誰か入力がありますか?
Ubuntu LinuxサーバーでのPostgreSQL 8.4の実行。
編集:
コミットがハングしている同様の状態で他の接続を見つけたので、さらに調べてみると、サーバーログに次のことが見つかりました。
Jan 30 02:29:45 server001 kernel: [3521062.240540] postgres D 0000000000000000 0 23220 8154 0x00000004
Jan 30 02:29:45 server001 kernel: [3521062.240550] ffff8800174c9d08 0000000000000082 ffff88041cd24728 0000000000015880
Jan 30 02:29:45 server001 kernel: [3521062.240559] ffff8806c678b110 0000000000015880 0000000000015880 0000000000015880
Jan 30 02:29:45 server001 kernel: [3521062.240567] 0000000000015880 ffff8806c678b110 0000000000015880 0000000000015880
Jan 30 02:29:45 server001 kernel: [3521062.240575] Call Trace:
Jan 30 02:29:45 server001 kernel: [3521062.240582] [<ffffffff810da010>] ? sync_page+0x0/0x50
Jan 30 02:29:45 server001 kernel: [3521062.240590] [<ffffffff81528488>] io_schedule+0x28/0x40
Jan 30 02:29:45 server001 kernel: [3521062.240596] [<ffffffff810da04d>] sync_page+0x3d/0x50
Jan 30 02:29:45 server001 kernel: [3521062.240603] [<ffffffff815289a7>] __wait_on_bit+0x57/0x80
Jan 30 02:29:45 server001 kernel: [3521062.240610] [<ffffffff810da1be>] wait_on_page_bit+0x6e/0x80
Jan 30 02:29:45 server001 kernel: [3521062.240618] [<ffffffff81078540>] ? wake_bit_function+0x0/0x40
Jan 30 02:29:45 server001 kernel: [3521062.240627] [<ffffffff810e4480>] ? pagevec_lookup_tag+0x20/0x30
Jan 30 02:29:45 server001 kernel: [3521062.240634] [<ffffffff810da665>] wait_on_page_writeback_range+0xf5/0x190
Jan 30 02:29:45 server001 kernel: [3521062.240644] [<ffffffff81053668>] ? try_to_wake_up+0x118/0x340
Jan 30 02:29:45 server001 kernel: [3521062.240651] [<ffffffff810da727>] filemap_fdatawait+0x27/0x30
Jan 30 02:29:45 server001 kernel: [3521062.240659] [<ffffffff811431b4>] vfs_fsync+0xa4/0xf0
Jan 30 02:29:45 server001 kernel: [3521062.240667] [<ffffffff81143239>] do_fsync+0x39/0x60
Jan 30 02:29:45 server001 kernel: [3521062.240674] [<ffffffff8114328b>] sys_fsync+0xb/0x10
Jan 30 02:29:45 server001 kernel: [3521062.240682] [<ffffffff81012042>] system_call_fastpath+0x16/0x1b
I / O負荷が高くなった後も、同様のエントリが見られます。まだ運が悪いのか、それとも実際に何らかのつながりがあるのかはわかりません。
—
フラン2014年
サーバーのディスクまたはI / Oサブシステムの障害が疑われます。
—
クレイグリンガー、2014年
@CraigRinger-私はあなたが正しいと思います。奇妙なことに、午前2時にこれらのアラートがログファイルに記録され、それ以降、1日中ログにメッセージが表示されなくなりました。今夜OSなどのアップデートを行う予定(4歳のカーネルを実行)。
—
ETL 2014年
@ETLチェック
—
クレイグリンガー
dmesg
過ぎる-などI / Oエラーのために見て、タイムアウト、HBAのエラーなど、新鮮なバックアップを取り、そしてあなたのディスクをチェックし、RAIDサブシステム
そのpostgres Dのすぐ上に別のメッセージが必要です... trace trace printkを呼び出すメッセージです。たとえば、CPUロック、プロセスが120秒以上スタックしているなどです。これにより、トレースはすでにかなり明確-それはfsync(2)のように見えます。基になるデバイスが壊れているか、遅すぎるように見えますか?
—
Josip Rodin