共有Webホストでの近接ベースの店舗ロケーション検索を最適化しますか?


11

クライアント用の店舗検索を作成する必要があるプロジェクトがあります。

私はカスタム投稿タイプ「restaurant-location」を使用しており、Google Geocoding APIを使用してpostmetaに格納された住所をジオコーディングするコードを記述しました(JSONで米国のホワイトハウスをジオコーディングするリンクがあり、緯度と経度を保存しました)カスタムフィールドに。

この投稿のスライドショーで見つけた式をget_posts_by_geo_distance()使用して地理的に最も近い投稿の順序で投稿のリストを返す関数を作成しました。あなたは私のように私の関数を呼び出すかもしれません(私は固定された「ソース」lat / longで始めています):

include "wp-load.php";

$source_lat = 30.3935337;
$source_long = -86.4957833;

$results = get_posts_by_geo_distance(
    'restaurant-location',
    'geo_latitude',
    'geo_longitude',
    $source_lat,
    $source_long);

echo '<ul>';
foreach($results as $post) {
    $edit_url = get_edit_url($post->ID);
    echo "<li>{$post->distance}: <a href=\"{$edit_url}\" target=\"_blank\">{$post->location}</a></li>";
}
echo '</ul>';
return;

ここに関数get_posts_by_geo_distance()自体があります:

function get_posts_by_geo_distance($post_type,$lat_key,$lng_key,$source_lat,$source_lng) {
    global $wpdb;
    $sql =<<<SQL
SELECT
    rl.ID,
    rl.post_title AS location,
    ROUND(3956*2*ASIN(SQRT(POWER(SIN(({$source_lat}-abs(lat.lat))*pi()/180/2),2)+
    COS({$source_lat}*pi()/180)*COS(abs(lat.lat)*pi()/180)*
    POWER(SIN(({$source_lng}-lng.lng)*pi()/180/2),2))),3) AS distance
FROM
    wp_posts rl
    INNER JOIN (SELECT post_id,CAST(meta_value AS DECIMAL(11,7)) AS lat FROM wp_postmeta lat WHERE lat.meta_key='{$lat_key}') lat ON lat.post_id = rl.ID
    INNER JOIN (SELECT post_id,CAST(meta_value AS DECIMAL(11,7)) AS lng FROM wp_postmeta lng WHERE lng.meta_key='{$lng_key}') lng ON lng.post_id = rl.ID
WHERE
    rl.post_type='{$post_type}' AND rl.post_name<>'auto-draft'
ORDER BY
    distance
SQL;
    $sql = $wpdb->prepare($sql,$source_lat,$source_lat,$source_lng);
    return $wpdb->get_results($sql);
}

私の懸念は、SQLがあなたが得ることができるほど最適化されていないということです。ソースジオは変更可能であり、キャッシュするソースジオの有限セットがないため、MySQLは使用可能なインデックスで順序付けできません。現在、私はそれを最適化する方法について困惑しています。

私がすでに行ったことを考慮に入れると、質問は次のとおりです。このユースケースを最適化するにどうすればよいですか?

より良い解決策でそれを捨ててしまうなら、私がやったことをすべて続けることは重要ではありません。私は、Sphinxサーバーのインストールのようなものを実行する必要があるものや、カスタマイズされたMySQL構成を必要とするものを除いて、ほぼすべてのソリューション検討する用意があります。基本的に、このソリューションは、単純なWordPressのインストールで機能する必要があります。(とはいえ、より高度になり、後世に役立つ可能性のある他の人のための代替ソリューションをリストしたい場合は素晴らしいことです。)

見つかったリソース

ちなみに、私はこれについて少し調査を行ったので、再度調査を行ったり、これらのリンクを回答として投稿したりするのではなく、それらを回答に含めます。

Sphinx Searchについて

回答:


6

どの精度が必要ですか?州全体または全国規模の検索の場合は、緯度経度でzipを検索し、レストランのzip領域からzip領域までの距離を事前に計算しておくことができます。正確な距離が必要な場合、これは適切なオプションではありません。

Geohashソリューションを調べる必要があります。Wikipediaの記事に、緯度経度をデコードしてgeohashにエンコードするためのPHPライブラリへのリンクがあります。

ここでは、Google App Engineでそれを使用する理由と方法を説明する優れた記事があります(Pythonコードですが、簡単に追跡できます)。GAEでgeohashを使用する必要があるため、いくつかの優れたPythonライブラリと例を見つけることができます。

このブログの記事は説明し、geohashesを使用する利点は、そのフィールド上のMySQLのテーブルにインデックスを作成できることです。


GeoHashに関する提案をありがとう!間違いなくチェックアウトしますが、WordCampサバンナに1時間で出発するので、今はできません。町を訪れる観光客のためのレストランロケーターなので、0.1マイルがおそらく最低限の精度になります。理想的にはそれよりも良いでしょう。リンクを編集します!
MikeSchinkel 2010

Googleマップに結果を表示する場合は、そのAPIを使用して並べ替えコード

これは最も興味深い答えなので、調査して試してみる時間がなかったとしても、それを受け入れます。
MikeSchinkel

9

これでは遅すぎるかもしれませんが、とにかく返信します。これは、この関連する質問に与えたのと同様の答えで、将来の訪問者が両方の質問を参照できるようにするためです。

私はこれらの値をポストメタデータテーブルに格納しないか、少なくともそこに格納するだけではありません。あなたが持つテーブルをしたいpost_idlatlonカラムは、あなたがのインデックス置くことができるlat, lonように、クエリを。これは、ポストの保存と更新のフックで最新の状態を維持するのにそれほど難しくないはずです。

データベースをクエリする場合は、開始点の周囲に境界ボックスを定義するのでlat, lon、ボックスの南北と東西の境界の間のすべてのペアに対して効率的なクエリを実行できます。

この削減された結果が得られたら、より高度な(円形または実際の運転方向)距離計算を実行して、境界ボックスのコーナーにある場所をフィルターで除外し、そのため、希望よりも離れた場所に移動できます。

ここに、管理領域で機能する簡単なコード例があります。追加のデータベーステーブルを自分で作成する必要があります。コードは、重要度の高いものから低いものの順に並べられています。

<?php
/*
Plugin Name: Monkeyman geo test
Plugin URI: http://www.monkeyman.be
Description: Geolocation test
Version: 1.0
Author: Jan Fabry
*/

class Monkeyman_Geo
{
    public function __construct()
    {
        add_action('init', array(&$this, 'registerPostType'));
        add_action('save_post', array(&$this, 'saveLatLon'), 10, 2);

        add_action('admin_menu', array(&$this, 'addAdminPages'));
    }

    /**
     * On post save, save the metadata in our special table
     * (post_id INT, lat DECIMAL(10,5), lon DECIMAL (10,5))
     * Index on lat, lon
     */
    public function saveLatLon($post_id, $post)
    {
        if ($post->post_type != 'monkeyman_geo') {
            return;
        }
        $lat = floatval(get_post_meta($post_id, 'lat', true));
        $lon = floatval(get_post_meta($post_id, 'lon', true));

        global $wpdb;
        $result = $wpdb->replace(
            $wpdb->prefix . 'monkeyman_geo',
            array(
                'post_id' => $post_id,
                'lat' => $lat,
                'lon' => $lon,
            ),
            array('%s', '%F', '%F')
        );
    }

    public function addAdminPages()
    {
        add_management_page( 'Quick location generator', 'Quick generator', 'edit_posts', __FILE__  . 'generator', array($this, 'doGeneratorPage'));
        add_management_page( 'Location test', 'Location test', 'edit_posts', __FILE__ . 'test', array($this, 'doTestPage'));

    }

    /**
     * Simple test page with a location and a distance
     */
    public function doTestPage()
    {
        if (!array_key_exists('search', $_REQUEST)) {
            $default_lat = ini_get('date.default_latitude');
            $default_lon = ini_get('date.default_longitude');

            echo <<<EOF
<form action="" method="post">
    <p>Center latitude: <input size="10" name="center_lat" value="{$default_lat}"/>
        <br/>Center longitude: <input size="10" name="center_lon" value="{$default_lon}"/>
        <br/>Max distance (km): <input size="5" name="max_distance" value="100"/></p>
    <p><input type="submit" name="search" value="Search!"/></p>
</form>
EOF;
            return;
        }
        $center_lon = floatval($_REQUEST['center_lon']);
        $center_lat = floatval($_REQUEST['center_lat']);
        $max_distance = floatval($_REQUEST['max_distance']);

        var_dump(self::getPostsUntilDistanceKm($center_lon, $center_lat, $max_distance));
    }

    /**
     * Get all posts that are closer than the given distance to the given location
     */
    public static function getPostsUntilDistanceKm($center_lon, $center_lat, $max_distance)
    {
        list($north_lat, $east_lon, $south_lat, $west_lon) = self::getBoundingBox($center_lat, $center_lon, $max_distance);

        $geo_posts = self::getPostsInBoundingBox($north_lat, $east_lon, $south_lat, $west_lon);

        $close_posts = array();
        foreach ($geo_posts as $geo_post) {
            $post_lat = floatval($geo_post->lat);
            $post_lon = floatval($geo_post->lon);
            $post_distance = self::calculateDistanceKm($center_lat, $center_lon, $post_lat, $post_lon);
            if ($post_distance < $max_distance) {
                $close_posts[$geo_post->post_id] = $post_distance;
            }
        }
        return $close_posts;
    }

    /**
     * Select all posts ids in a given bounding box
     */
    public static function getPostsInBoundingBox($north_lat, $east_lon, $south_lat, $west_lon)
    {
        global $wpdb;
        $sql = $wpdb->prepare('SELECT post_id, lat, lon FROM ' . $wpdb->prefix . 'monkeyman_geo WHERE lat < %F AND lat > %F AND lon < %F AND lon > %F', array($north_lat, $south_lat, $west_lon, $east_lon));
        return $wpdb->get_results($sql, OBJECT_K);
    }

    /* Geographical calculations: distance and bounding box */

    /**
     * Calculate the distance between two coordinates
     * http://stackoverflow.com/questions/365826/calculate-distance-between-2-gps-coordinates/1416950#1416950
     */
    public static function calculateDistanceKm($a_lat, $a_lon, $b_lat, $b_lon)
    {
        $d_lon = deg2rad($b_lon - $a_lon);
        $d_lat = deg2rad($b_lat - $a_lat);
        $a = pow(sin($d_lat/2.0), 2) + cos(deg2rad($a_lat)) * cos(deg2rad($b_lat)) * pow(sin($d_lon/2.0), 2);
        $c = 2 * atan2(sqrt($a), sqrt(1-$a));
        $d = 6367 * $c;

        return $d;
    }

    /**
     * Create a box around a given point that extends a certain distance in each direction
     * http://www.colorado.edu/geography/gcraft/warmup/aquifer/html/distance.html
     *
     * @todo: Mind the gap at 180 degrees!
     */
    public static function getBoundingBox($center_lat, $center_lon, $distance_km)
    {
        $one_lat_deg_in_km = 111.321543; // Fixed
        $one_lon_deg_in_km = cos(deg2rad($center_lat)) * 111.321543; // Depends on latitude

        $north_lat = $center_lat + ($distance_km / $one_lat_deg_in_km);
        $south_lat = $center_lat - ($distance_km / $one_lat_deg_in_km);

        $east_lon = $center_lon - ($distance_km / $one_lon_deg_in_km);
        $west_lon = $center_lon + ($distance_km / $one_lon_deg_in_km);

        return array($north_lat, $east_lon, $south_lat, $west_lon);
    }

    /* Below this it's not interesting anymore */

    /**
     * Generate some test data
     */
    public function doGeneratorPage()
    {
        if (!array_key_exists('generate', $_REQUEST)) {
            $default_lat = ini_get('date.default_latitude');
            $default_lon = ini_get('date.default_longitude');

            echo <<<EOF
<form action="" method="post">
    <p>Number of posts: <input size="5" name="post_count" value="10"/></p>
    <p>Center latitude: <input size="10" name="center_lat" value="{$default_lat}"/>
        <br/>Center longitude: <input size="10" name="center_lon" value="{$default_lon}"/>
        <br/>Max distance (km): <input size="5" name="max_distance" value="100"/></p>
    <p><input type="submit" name="generate" value="Generate!"/></p>
</form>
EOF;
            return;
        }
        $post_count = intval($_REQUEST['post_count']);
        $center_lon = floatval($_REQUEST['center_lon']);
        $center_lat = floatval($_REQUEST['center_lat']);
        $max_distance = floatval($_REQUEST['max_distance']);

        list($north_lat, $east_lon, $south_lat, $west_lon) = self::getBoundingBox($center_lat, $center_lon, $max_distance);


        add_action('save_post', array(&$this, 'setPostLatLon'), 5);
        $precision = 100000;
        for ($p = 0; $p < $post_count; $p++) {
            self::$currentRandomLat = mt_rand($south_lat * $precision, $north_lat * $precision) / $precision;
            self::$currentRandomLon = mt_rand($west_lon * $precision, $east_lon * $precision) / $precision;

            $location = sprintf('(%F, %F)', self::$currentRandomLat, self::$currentRandomLon);

            $post_data = array(
                'post_status' => 'publish',
                'post_type' => 'monkeyman_geo',
                'post_content' => 'Point at ' . $location,
                'post_title' => 'Point at ' . $location,
            );

            var_dump(wp_insert_post($post_data));
        }
    }

    public static $currentRandomLat = null;
    public static $currentRandomLon = null;

    /**
     * Because I didn't know how to save meta data with wp_insert_post,
     * I do it here
     */
    public function setPostLatLon($post_id)
    {
        add_post_meta($post_id, 'lat', self::$currentRandomLat);
        add_post_meta($post_id, 'lon', self::$currentRandomLon);
    }

    /**
     * Register a simple post type for us
     */
    public function registerPostType()
    {
        register_post_type(
            'monkeyman_geo',
            array(
                'label' => 'Geo Location',
                'labels' => array(
                    'name' => 'Geo Locations',
                    'singular_name' => 'Geo Location',
                    'add_new' => 'Add new',
                    'add_new_item' => 'Add new location',
                    'edit_item' => 'Edit location',
                    'new_item' => 'New location',
                    'view_item' => 'View location',
                    'search_items' => 'Search locations',
                    'not_found' => 'No locations found',
                    'not_found_in_trash' => 'No locations found in trash',
                    'parent_item_colon' => null,
                ),
                'description' => 'Geographical locations',
                'public' => true,
                'exclude_from_search' => false,
                'publicly_queryable' => true,
                'show_ui' => true,
                'menu_position' => null,
                'menu_icon' => null,
                'capability_type' => 'post',
                'capabilities' => array(),
                'hierarchical' => false,
                'supports' => array(
                    'title',
                    'editor',
                    'custom-fields',
                ),
                'register_meta_box_cb' => null,
                'taxonomies' => array(),
                'permalink_epmask' => EP_PERMALINK,
                'rewrite' => array(
                    'slug' => 'locations',
                ),
                'query_var' => true,
                'can_export' => true,
                'show_in_nav_menus' => true,
            )
        );
    }
}

$monkeyman_Geo_instance = new Monkeyman_Geo();

@Jan:答えてくれてありがとう。これらの実装を示す実際のコードを提供できると思いますか?
MikeSchinkel

@マイク:興味深い課題でしたが、機能するコードがいくつかあります。
Jan Fabry

@Jan Fabry: クール!そのプロジェクトに戻ったときにチェックします。
MikeSchinkel

1

私はこれでパーティーに遅れますが、これを振り返ってみると、これget_post_metaは実際に使用しているSQLクエリではなく、ここでの問題です。

私は最近、実行するサイトで同様の地理ルックアップを実行する必要があり、メタテーブルを使用して緯度と経度を格納するのではなく(ルックアップには最大2つの結合が必要で、get_post_metaを使用している場合は、2つの追加データベースが必要です)ロケーションごとのクエリ)、私は空間的にインデックス付けされたジオメトリのPOINTデータ型で新しいテーブルを作成しました。

私のクエリはあなたのクエリによく似ていて、MySQLが多くの重労働を行っていました(私が目的に十分近かったため、trig関数を省略してすべてを2次元空間に簡略化しました)。

function nearby_property_listings( $number = 5 ) {
    global $client_location, $wpdb;

    //sanitize public inputs
    $lat = (float)$client_location['lat'];  
    $lon = (float)$client_location['lon']; 

    $sql = $wpdb->prepare( "SELECT *, ROUND( SQRT( ( ( ( Y(geolocation) - $lat) * 
                                                       ( Y(geolocation) - $lat) ) *
                                                         69.1 * 69.1) +
                                                  ( ( X(geolocation) - $lon ) * 
                                                       ( X(geolocation) - $lon ) * 
                                                         53 * 53 ) ) ) as distance
                            FROM {$wpdb->properties}
                            ORDER BY distance LIMIT %d", $number );

    return $wpdb->get_results( $sql );
}

ここで、$ client_locationは、パブリックgeo IPルックアップサービスによって返された値です(geoio.comを使用しましたが、同様のものがいくつかあります)。

扱いにくいように見えるかもしれませんが、テストでは、80,000行のテーブルから最も近い5つの場所が0.4秒未満で一貫して返されました。

MySQLが提案されているDISTANCE関数をロールアウトするまで、これは位置検索を実装するために私が見つけた最良の方法のようです。

編集:この特定のテーブルのテーブル構造を追加します。プロパティリストのセットであるため、他のユースケースと似ている場合と似ていない場合があります。

CREATE TABLE IF NOT EXISTS `rh_properties` (
  `listingId` int(10) unsigned NOT NULL,
  `listingType` varchar(60) collate utf8_unicode_ci NOT NULL,
  `propertyType` varchar(60) collate utf8_unicode_ci NOT NULL,
  `status` varchar(20) collate utf8_unicode_ci NOT NULL,
  `street` varchar(64) collate utf8_unicode_ci NOT NULL,
  `city` varchar(24) collate utf8_unicode_ci NOT NULL,
  `state` varchar(5) collate utf8_unicode_ci NOT NULL,
  `zip` decimal(5,0) unsigned zerofill NOT NULL,
  `geolocation` point NOT NULL,
  `county` varchar(64) collate utf8_unicode_ci NOT NULL,
  `bedrooms` decimal(3,2) unsigned NOT NULL,
  `bathrooms` decimal(3,2) unsigned NOT NULL,
  `price` mediumint(8) unsigned NOT NULL,
  `image_url` varchar(255) collate utf8_unicode_ci NOT NULL,
  `description` mediumtext collate utf8_unicode_ci NOT NULL,
  `link` varchar(255) collate utf8_unicode_ci NOT NULL,
  PRIMARY KEY  (`listingId`),
  KEY `geolocation` (`geolocation`(25))
)

このgeolocation列は、ここでの目的に関連する唯一のものです。新しい値をデータベースにインポートするときにアドレスから検索するx(lon)、y(lat)座標で構成されています。


フォローアップありがとうございます。テーブルの追加は避けようとしましたが、特定のユースケースよりも汎用的にしようとしましたが、最終的にはテーブルも追加してしまいました。さらに、私はPOINTデータ型を使用しませんでした。というのも、よく知っている標準のデータ型を使い続けたいからです。MySQLの地理拡張機能を快適に使用するには、かなりの学習が必要です。とはいえ、使用したテーブルのDDLで回答を更新していただけますか?将来、これを読んでいる他の人にとっても有益だと思います。
MikeSchinkel、2011

0

すべてのエンティティ間の距離を事前に計算するだけです。それをデータベーステーブルに独自に保存し、値にインデックスを付けることができます。


それは事実上無限のレコード数です...
MikeSchinkel

無限?ここではn ^ 2のみが表示されます。これは無限ではありません。特にエントリー数が増えると、事前カルカレーションをますます検討する必要があります。
10

実質的に無限。6.41977E + 17レコードが得られる、小数点以下7桁の精度の緯度/経度を指定します。はい、それほど多くはありませんが、妥当なものよりも多くあります。
MikeSchinkel

無限は明確に定義された用語であり、それに形容詞を追加してもあまり変わりません。しかし、私はあなたが何を意味するかを知っています、あなたはこれが計算するには多すぎると思います。時間の経過とともに大量の新しい場所を流暢に追加しない場合、この事前計算は、バックグラウンドでアプリケーションとは別に実行されるジョブによって段階的に実行できます。精度は計算の数を変更しません。場所の数はありません。しかし、多分私はあなたのコメントのその部分を読み違えました。たとえば、64の場所は、4 096(またはn *(n-1)の場合は4 032)の計算になり、したがって記録されます。
hakre
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.