by:

Hallo,

nachdem ich die letzten Tage wenig neues veröffentlicht habe, heute mal etwas interessantes für den ambitionierten PHP Programmierer.

Eine PLZ Umkreissuche in PHP, dazu benötigen wir:

  1. Eine Geo DB mit Long und LAT sowie PLZ (am besten von opengeodb auf sourceforge)
  2. Einen brauchbaren Umkreissuchen-Script
  3. Etwas Zeit

Bei meinen Versuchen hat sich herausgestellt, dass ich die meiste Zeit damit verbracht habe, eine brauchbare Datenbank zu finden und zu formatieren. Hilfe dazu weiter unten, jetzt erstmal etwas Code:

Code

<?
// Zuerst eine Verbindung zur Datenbank aufbauen!
 $connect=@mysql_connect("localhost", "user", "pass")
or die("Cant connect to Database");
 @mysql_select_db("geo_plz", $connect)or die("Cant select Database");

// die PLZ nach der wir suchen
$plz = '9220';

// der Umkreis in Km
$umkreis = 5;

// Erdradius (geozentrischer Mittelwert) in Km
$radius = 6368;

/* -------------------------- */

$sql_rad = mysql_query("SELECT lon, lat FROM `plz_at` WHERE `plz` = '$plz' ");
$erg_rad = mysql_fetch_object($sql_rad);

// Umrechnung von GRAD IN RAD

$lon = $erg_rad->lon / 180 * M_PI;
$lat = $erg_rad->lat / 180 * M_PI;

// jetzt erfolgt die eigentliche Abfrage

$query = "SELECT ort, plz, (
 ".$radius." * SQRT(2*(1-cos(RADIANS(lat)) * 
 cos(".$lat.") * (sin(RADIANS(lon)) *
 sin(".$lon.") + cos(RADIANS(lon)) * 
 cos(".$lon.")) - sin(RADIANS(lat)) * sin(".$lat.")))) AS Distance 
 FROM plz_at WHERE 
 ".$radius." * SQRT(2*(1-cos(RADIANS(lat)) * 
 cos(".$lat.") * (sin(RADIANS(lon)) * 
 sin(".$lon.") + cos(RADIANS(lon)) * 
 cos(".$lon.")) - sin(RADIANS(lat)) * sin(".$lat."))) <= ".$umkreis." 
 ORDER BY Distance
";

// die Ausgabe (vereinfacht)

$sql = mysql_query($query);
while( $erg = mysql_fetch_object($sql) ) {

 echo '
<pre>', print_r($erg), '</pre>
';
}
?>


Natürlich wäre es jetzt denkbar für jede gefundene PLZ im Umkreis eine Abfrage der Mitglieder oder Filialen zu machen, diesen Spass überlasse ich aber lieber euch :)

Wer die formatierte Datenbank für Deutschland, Österreich und Schweiz braucht oder eine Frage hat, einfach kurz melden.

LG

Andreas

Eine wichtige Adresse die beim Erstellen der Datenbank sowie der Gestaltung der Abfrage hilfreich ist lautet:

http://opengeodb.giswiki.org/wiki/OpenGeoDB_-_Umkreissuche

[UPDATE]

Ich habe die Datenbank online gestellt, übernehme aber keine Garantie für Vollständigkeit und Richtigkeit.

http://www.codejungle.org/code/zip.sql.gz


Kommentare

by:

Hallo,

bei meinem ersten Beitrag zum Thema Linux auf diesen Blog werde ich nur einen kleinen Artikel schreiben, der wie immer aus gegebenem Anlass endstanden ist.

Vor kurzem kam mir die Idee, einen neuen Arbeitsspeicher zu kaufen, nach dem Motto "ein bisschen mehr kann nie schaden". Stattdessen habe ich nun eine andere Lösung gefunden und meinen Swapbereich auf einen USB Stick ausgelagert.

Swap bitte was ??

Swap oder auch Swapping ist ein Bereich auf der Festplatte, der bei Linux zum Beispiel genutzt wird um die Prozessdaten auszulagern, wenn der Arbeitsspeicher voll ist. Eine Faustregel besagt, dass der Swapbereich doppelt so gross sein soll, wie der Arbeitsspeicher selber.

Ein wesentlicher Vorteil der Auslagerung des Swapbereichs auf einen USB Stick ist der Kostenfaktor. 2 GB USB Sticks bekommt man heute ja schon recht günstig, auf jeden Fall um einiges billiger als 2 GB RAM. Also wieso nicht den Swapbereich auf einen USB Stick auslagern?

Wie mach ich das ??

Zuerst sollte man wissen wo sich die Swappartition derzeit befindet, das kann man zum Beispiel mit cfdisk oder einfach swapon -s als root herausfinden.

Als nächstes hängt man seinen USB Stick an den Computer und führt folgenden Befehl aus:

mkswap /dev/< usb device >

Danach hängt man seine alte SWAP Partition mit swapoff aus. Beispiel:

swapoff /dev/< swap device >

und das neu angelegte USB Swap Device an:

swapon /dev/< usb device >


[UPDATE]

Nach einem Test mittels hdparm bin ich von der Idee nicht mehr so begeistert.

Siehe Benchmark->

/dev/sda1: (Sata - Festplatte)
Timing cached reads: 1536 MB in 2.00 seconds = 767.41 MB/sec
Timing buffered disk reads: 212 MB in 3.02 seconds = 70.24 MB/sec

/dev/sdb1: (USB Stick)
Timing cached reads: 1514 MB in 2.00 seconds = 756.58 MB/sec
Timing buffered disk reads: 36 MB in 3.04 seconds = 11.83 MB/sec

Was hier ersichtlich wird ist, dass der USB Stick wohl signifikant langsamer ist als die SATA Platte. Es macht also wenig Sinn den Swap auf einen USB Stick auszulagern, zumindest nicht bei den heute erhältlichen SATA Festplatten. Vielleicht wiederhole ich den Test nochmal mit einer ATA Platte... Mal sehen wie die Performance da ausschaut.

Leider ist auch die SATA Platte im Vergleich 100 bis 1000 mal langsamer als der Arbeitsspeicher, was einerseits an der Konstruktion der Speicher andererseits an der Architektur des Computers an sich liegt. Um die Geschwindigkeit des Swapspeichers zu tweeken gäbe es noch die Möglichkeit mit hdparm die Geschwindigkeit der Festplatte zu erhöhen. Dies birgt aber auch das Risiko die Festplatte zu beschädigen...

Ich hoffe euch hat der Artikel gefallen und würde mich über ein Kommentar sehr freuen.

Andreas


Quellen:

http://de.wikipedia.org/wiki/Swapping

http://de.wikipedia.org/wiki/Hdparm

http://www.thomashertweck.de/linuxram.html


Kommentare

by:
  1. Webcrawler
    1. What is a Webcrawler?
    2. What can it do for me?
    3. And what not?
  2. How does an indexer work and why do i get so much spam?
  3. Where can i get it and how to install?
  4. TODO


Webcrawler:

1.1 What is a Webcrawler?

A webcrawler - also called (web)robot, spider... - is a small program that follows hyperlinks on the internet to save an amount of data for later use.

1.2. What can it do for me ?

Look at my real life example, i use Larbin as a webcrawler, combined with a
self made indexer to parse the websites into my database. Some example scripts, like extract_mails, show how simple it can be to fetch millions of mail adresses. With small modifications in your query it is possible to get music, movies, documents, adresses etc.

Larbin uses the asynchronous-capable DNS client library wich is very fast ...
Snip:

Larbin should be able to fetch more than 100 millions pages on a standard PC.
The current version of Larbin can fetch 5,000,000 pages a day on a standard PC, but this speed mainly depends on your network.


1.3. And what not ?

Larbin is just a webcrawler, it can fetch you any information from the web, but it does not index them into a database. If you like to have all these mail adresses, mp3s, divx, mpgs etc you must write some code....

2. How does an indexer work and why do i get so much spam?

Simply said it is the job of an indexer is to save all this contents into a database. But it can do a lot more, for example sort the data and extract relevant contents.

3. Where can i get it and how to install ?

The webcrawler Larbin is opensource, my sets of php and perl scripts to handle
the output of larbin called "webtools4larbin" are opensource also.
I use mysql and postgresql supported applications, but for comercial use i have
a db abstraction layer that is able to handle allmost any type of database.....

Larbin (Download here )

For the Database inexer please check my little project:

http://freshmeat.net/projects/webtools4larbin

FAQ:
Why do you descripe how to get millions of email adresses ?

I think its nessesery to understood how a webcrawler/indexer works bevor we can think about systems they preventing you from spam.

More Questions?

why dont leave a short comment Wink


Have a lot of fun

nfo


Kommentare

by:

Hallo,

aus gegebenem Anlass habe ich mir überlegt ein wenig über die Vorratsdatenspeicherung zu schreiben. Einerseits weil hier scheinbar noch grosser Aufklärungsbedarf herrscht und andererseits weil ich gerade von einer Versamlung aus dem Metalab komme, wo über die Vorbereitung zur Demo (am 11 Okt) und die nächsten Schritte diskutiert wurde.

Ich habe ja nichts zu verbergen?

Eigentlich kann ich diese Aussage schon nicht mehr hören, leider ist es jedoch eine Haltung, die die meisten Leute hier in Österreich vertreten. Grundsätzlich stimmt die Aussage auch, denkt man die Sache aber zu Ende sieht es schon etwas anders aus. Mit dem Umkehrsschluss kann sich wohl keiner anfreunden. Wer gibt schon gerne alles von sich Preis?

Ich selber habe generell auch nichts zu verbergen, möchte jedoch selbst entscheiden wer welche Daten bekommt und wer nicht. Zum Beispiel möchte ich nicht, dass mein potenzieller neuer Chef weiss, welchen Kontostand ich habe, oder dass meine Krankenkasse beschliesst meine Beiträge zu erhöhen, da sie über meine Kreditkarte festgestellt haben, dass ich mich zu ungesund ernähre, ebenso wenig dass es möglich ist, dass Firmen ein gesamtes Profil von mir erstellen können was über die Kontaktadresse hinausgeht.

Was ist so schlimm an der Vorratsdatenspeicherung?

Ein einzelner gespeicherter Eintrag ist ja nicht schlimm, dort 'ne Adresse, da die Arztrechnung und hier die Telefonanrufe, alles nicht so tragisch. Doch die Vernetzung dieser Daten ermöglicht eine komplette Überwachung. Und gespeichert werden Daten überall, auch in Bereichen, wo man es sonst weniger vermuten würde. Das alles sind die schönen neuen Möglichkeiten der Überwachung. In der Regel sind Menschen die die Überwachung antreiben, Menschen die etwas verbergen möchten.

Daher fordere ich auf mit personenspezifischen Daten sensibler umzugehen und nicht jede neue Überwachungsaktion unter dem Deckmantel "Terrorabwehr" zu tolerieren.

Ich möchte hier ausserdem auf das nächste Treffen zum Thema im Metalab Wien hinweisen:

Mi 06.08.2008 gegen 20 Uhr

Sowie die europaweite Demonstration "Freedom Not Fear" am 11. Oktober

Ausserdem eine etwas ältere Fernsehendiskussion zum Thema:

http://www.vorratsdatenspeicherung.de/

http://wiki.vorratsdatenspeicherung.de/Freedom_Not_Fear_2008


Kommentare

by:

Nach meinen ersten Tests mit Sqlrelay und MySQL - Proxy denke ich es ist an der Zeit davon zu berichten.

sqlrelay

Sqlrelay verspricht Datenbankanwendungen stabiler und schneller zu machen und unterstützt dabei noch eine breite Palette von Datenbanksystem.

Die Installation kann bei Debian Systemen einfach über das Paketverwaltungstool apt-get gemacht werden. Ich persönlich habe auf Debian Testing-Pakete zurückgegriffen. Die Konfiguration geschieht über eine XML Datei, die für den Anfänger vielleicht etwas zu viel des guten ist.

Es gibt drei Möglichkeiten seine PHP Applikation mit dem sqlrelay Daemon zu verbinden.

  1. Pear DB2 (hat einen sqlrelay Treiber)

  2. Mysql Drop in Replacement

  3. PHP sqlrelay api

Leider habe ich auf die neuere MDB2 api gesetzt für die es derzeit noch keinen sqlrelay Treiber gibt, weshalb für mich nur das mysql drop in replacement in Frage kam.

Nachteil von sqlrelay in meinen Augen ist, dass es nicht möglich ist eine größere Abfrage auf mehrere Nodes zu verteilen, was gleichzeitig auch der Vorteil von mysql-proxy (mit h-scale plugin) ist.

mysql-proxy

Die Installation von mysql-proxy geht ebenfalls über das Packetverwaltungstool apt-get, will man allerdings die aktuellste Version haben ist etwas Handarbeit erforderlich.

In neueren Versionen von mysql-proxy ist das read-write Splitting bereits vorhanden, was besonders bei Master/Slave Setups nützlich ist. Die Konfiguration ist für meinen Geschmack etwas einfacher als beim sqlrelay, man gibt einfach seinen Master und die Slaves an, und übergibt den Port auf dem der Mysql-Proxy laufen soll.

Seiner Applikation braucht man dann auch nur noch den Host und Port vom Proxy mitteilen, und die Lastenverteilung läuft schon, ebenso kann mysql-proxy mit ausgefallenen Nodes umgehen.

Nachteil von mysql-proxy ist evtl. das es nur MySQL ansprechen kann und nicht wie sqlrelay mit anderen DBs kommuniziert. Ausserdem ist mir beim Testen aufgefallen, dass unter starker Last der Arbeitsspeicher rauf geht, was auf einen Memoryleak schliessen lässt (evtl. in aktuellen Versionen schon behoben).

Last but not least

postgres-r

Bei meinen Recherchen bin ich noch auf postgres-r gestossen, was ein Master/Master Replicationssystem für Postgresql darstellt.

Tests sind zwar noch aus ständig, generell kann man aber sagen das postgresql eine stabile, mit vielen Funktionen bestückte Datenbank ist, die evtl mehr den fortgeschrittenen Programmierer anspricht.

 

Fazit

Für den Standard Mysql Benutzer empfehle ich mysql-proxy, das auch bald in den mysql-cluster einfließen wird. Da es einfach zu installieren ist und man wenig Änderungen am System und den Anwendungen machen muss.

Für den Produktivbetrieb empfehle ich Postgresql, da es eine robuste, mit vielen Funktionen erweiterbare, Datenbank ist.

Generell sollte man einiges beachten bevor man sich einen Datenbank Cluster zulegt. Ich habe schon viele schlecht programmierte Webanwendungen gesehen, die durch falsch gesetzte Indexe und schlecht geschriebene Abfragen mehr als 10 mal so lange brauchen und weitaus weniger Anfragen entgegen nehmen können als äquivalente Anwendungen. Außerdem sollte man beachten das nicht jede Anwendung von Haus aus Lastverteilung unterstützt, fragen die man sich dabei stellen sollte sind z.B. wo werden Sessiondaten gespeichert (default im Filesystem), wo die Benutzerdaten (Bilder..). Man muss sich also zumindest Gedanken machen wie man die Daten repliziert, bei Sessiondaten eignet sich z.B. ein session handler, bei den Benutzerdaten gibts viele Ansätze (siehe drbd, c oder r sync, nfs usw.).

Ein oft gemachter Fehler in Lasten verteilten Systemen ist die Sprache selber, Marketingleute verwechseln gerne Lastverteilung mit Ausfallsicherheit. Man sollte sich auch Gedanken über den Single Point of Failure machen, sowie drauf achten, das der Lastenverteiler diesen nicht selbst darstellt. In ausfallsicheren Systemen sind diese, sowie im Idealfall alle anderen Komponente, redundant (also doppelt vorhanden).

Ich hoffe ich konnte einen kleinen nicht all zu technischen Überblick über die verschiedenen Vor- und Nachteile der vorgestellten Systeme geben und wünsche im Sinne von Linux "have a lot of fun"

Andreas

 

Quellen:

sqlrelay http://sqlrelay.sourceforge.net/

mysql-proxy http://forge.mysql.com/wiki/MySQL_Proxy

hscale http://hscale.org

postgres-r http://postgres-r.org/

lvs http://www.linuxvirtualserver.org/

drbd http://www.drbd.org

rsync http://rsync.samba.org/


Kommentare


Seiten: