質問の明確化は、両方の起点が近く、両方の終点が近い場合、任意の2つの起点と終点(OD)のペアが「近い」と見なされるという意味で、実際の線分に基づいてクラスタリングを行うことを示しています、どのポイントが起点または終点とみなされるかに関係なく。
この定式化は、2つのポイント間の距離dの感覚をすでに持っていることを示唆します:飛行機の飛行距離、地図上の距離、往復旅行時間、またはOとDが変化しても変化しないその他のメトリック切り替えました。彼らはに対応する:唯一の合併症は、セグメントが一意の表現を持っていないということである非順序対{O、D}が、として表現されなければならない順序付きペアのいずれか(O、D)又は(D、O)。したがって、2つの順序付けられたペア(O1、D1)と(O2、D2)の間の距離を、距離d(O1、O2)とd(D1、D2)の対称的な組み合わせ(それらの合計や二乗など)とすることができます。平方和のルート。この組み合わせを
distance((O1,D1), (O2,D2)) = f(d(O1,O2), d(D1,D2)).
順序付けられていないペア間の距離を、2つの可能な距離の小さい方に単純に定義します。
distance({O1,D1}, {O2,D2}) = min(f(d(O1,O2)), d(D1,D2)), f(d(O1,D2), d(D1,O2))).
この時点で、距離行列に基づいたクラスタリング手法を適用できます。
例として、20の最も人口の多い米国の都市の地図上の190のポイントツーポイント距離をすべて計算し、階層的な方法を使用して8つのクラスターを要求しました。(簡単にするために、ユークリッド距離計算を使用し、使用しているソフトウェアのデフォルトの方法を適用しました。実際には、問題に適した距離とクラスタリング方法を選択します)。以下は、各ラインセグメントの色で示されるクラスターを使用したソリューションです。(色はクラスターにランダムに割り当てられました。)
R
この例を作成したコードを次に示します。入力は、都市の「経度」フィールドと「緯度」フィールドを持つテキストファイルです。(図の都市にラベルを付けるために、「キー」フィールドも含まれています。)
#
# Obtain an array of point pairs.
#
X <- read.csv("F:/Research/R/Projects/US_cities.txt", stringsAsFactors=FALSE)
pts <- cbind(X$Longitude, X$Latitude)
# -- This emulates arbitrary choices of origin and destination in each pair
XX <- t(combn(nrow(X), 2, function(i) c(pts[i[1],], pts[i[2],])))
k <- runif(nrow(XX)) < 1/2
XX <- rbind(XX[k, ], XX[!k, c(3,4,1,2)])
#
# Construct 4-D points for clustering.
# This is the combined array of O-D and D-O pairs, one per row.
#
Pairs <- rbind(XX, XX[, c(3,4,1,2)])
#
# Compute a distance matrix for the combined array.
#
D <- dist(Pairs)
#
# Select the smaller of each pair of possible distances and construct a new
# distance matrix for the original {O,D} pairs.
#
m <- attr(D, "Size")
delta <- matrix(NA, m, m)
delta[lower.tri(delta)] <- D
f <- matrix(NA, m/2, m/2)
block <- 1:(m/2)
f <- pmin(delta[block, block], delta[block+m/2, block])
D <- structure(f[lower.tri(f)], Size=nrow(f), Diag=FALSE, Upper=FALSE,
method="Euclidean", call=attr(D, "call"), class="dist")
#
# Cluster according to these distances.
#
H <- hclust(D)
n.groups <- 8
members <- cutree(H, k=2*n.groups)
#
# Display the clusters with colors.
#
plot(c(-131, -66), c(28, 44), xlab="Longitude", ylab="Latitude", type="n")
g <- max(members)
colors <- hsv(seq(1/6, 5/6, length.out=g), seq(1, 0.25, length.out=g), 0.6, 0.45)
colors <- colors[sample.int(g)]
invisible(sapply(1:nrow(Pairs), function(i)
lines(Pairs[i, c(1,3)], Pairs[i, c(2,4)], col=colors[members[i]], lwd=1))
)
#
# Show the points for reference
#
positions <- round(apply(t(pts) - colMeans(pts), 2,
function(x) atan2(x[2], x[1])) / (pi/2)) %% 4
positions <- c(4, 3, 2, 1)[positions+1]
points(pts, pch=19, col="Gray", xlab="X", ylab="Y")
text(pts, labels=X$Key, pos=positions, cex=0.6)