by:

Hallo,


zuerst einmal eine kurze Erklärung wieso ich die letzten Tage nichts Neues
veröffentlicht habe. Die übliche Ausrede - ich wäre zu beschäftigt -  
stimmt nur teilweise,
vielmehr wusste ich nicht über was ich schreiben soll...

Also, was gibt es so Neues ???

Wir haben in Österreich tatsächlich eine neue Regierung...
Wieder einmal...
Okay daran ist nicht wirklich etwas Neues.
Eher so eine - bald jährliche - politische Begleiterscheinung, die ausser viel 
Steuergeldverschwendung wenig bringt.
Und wirklich "neu" ist sie eigentlich auch nicht...
Aber das ist natürlich nur meine persönliche Meinung, und ich möchte 
euch auch eher verschonen mit Statements zu Politik oder Weltwirtschaftskrise.

Statt über die wirtschaftliche Lage zu jammern hab
ich ein Börsenspiel programmiert, wo man seine ganz persönliche Wirtschaftskrise kostenlos
simulieren kann :)
Das Spiel hat mir ca. 14000 Impressions in den ersten 2 Wochen gebracht.
Wer es testen, hacken oder kritisieren möchte kann sich gerne hier 
registrieren:

boersenspiel.ath.cx

Update :

Leider ist die Domain nicht mehr Verfügbar (danke dyndns). Dafür haben wir den Sourcecode ganz neu Überarbeitet. Wer sich daran beteidigen mag, kann sich gerne mal in unser neuem Ticket System umschauen:

http://codejungle.org/redmine/projects/boersenspiel


Ausserdem bin ich dazu gekommen meine Suchmaschine etwas neu zu 
gestalten, nun ist es möglich eigene Webseiten hinzuzufügen.
Wichtig ist nur, dass man vollständige Meta Angaben hat (title, description, keywords).
Das Ranking wurde auch verändert, Sinn soll sein, dass der 
Benutzer selbst
entscheiden kann welche Ergebnisse relevant sind und welche nicht.
Ziel ist es, wie auch bei anderen Suchmaschinen, möglichst gute 
Ergebnisse zu bekommen.
Weniger wichtig ist mir, Millionen von Webseiten im Index zu haben.
Nach dem Motto: "Weniger ist mehr".
Deswegen habe ich die 30 GB DB (ca. eine halbe Million
Webseiten) aus dem Index gelöscht.

Wer sich die Suche anschauen möchte oder seine Seite eintragen will 
kann das hier tun:

codejungle.org/search

Einige große Änderungen sind auch an meinem CMS geplant.
Das Datenbank Layout habe ich nochmal komplett neu gestaltet, in 
weiterer Folge werde ich das CMS von Anfang an neu schreiben.
Es sollen nur die notwendigsten Funktionen
kopiert werden, Ziel soll sein das CMS so sauber wie möglich zu haben.
Es werden auch mehr Teile in oo neu geschrieben, bisher ist der DB 
Abstractionslayer, der Sessionhandler und Thumbnailer in oo.
Fraglich ist noch ob ich Cake als Framework verwende oder nicht, die 
Frage wird sich vermutlich aber auch am Wochenende beantworten.

Zeitplan: Die erste Beta Release ist Ende Dezember geplant.
Ausserdem wird das CMS nicht unter dem alten Namen weiterentwickelt 
werden, neuer Code, neuer Name...
Hierfür werden noch Vorschläge angenommen, wer sich beteiligen möchte, 
kann mir gerne eine Email schreiben, ich geb dann die aktuelle Dev. Version im 
SVN frei.


Kommentare

by:
  1. Webcrawler
    1. What is a Webcrawler?
    2. What can it do for me?
    3. And what not?
  2. How does an indexer work and why do i get so much spam?
  3. Where can i get it and how to install?
  4. TODO


Webcrawler:

1.1 What is a Webcrawler?

A webcrawler - also called (web)robot, spider... - is a small program that follows hyperlinks on the internet to save an amount of data for later use.

1.2. What can it do for me ?

Look at my real life example, i use Larbin as a webcrawler, combined with a
self made indexer to parse the websites into my database. Some example scripts, like extract_mails, show how simple it can be to fetch millions of mail adresses. With small modifications in your query it is possible to get music, movies, documents, adresses etc.

Larbin uses the asynchronous-capable DNS client library wich is very fast ...
Snip:

Larbin should be able to fetch more than 100 millions pages on a standard PC.
The current version of Larbin can fetch 5,000,000 pages a day on a standard PC, but this speed mainly depends on your network.


1.3. And what not ?

Larbin is just a webcrawler, it can fetch you any information from the web, but it does not index them into a database. If you like to have all these mail adresses, mp3s, divx, mpgs etc you must write some code....

2. How does an indexer work and why do i get so much spam?

Simply said it is the job of an indexer is to save all this contents into a database. But it can do a lot more, for example sort the data and extract relevant contents.

3. Where can i get it and how to install ?

The webcrawler Larbin is opensource, my sets of php and perl scripts to handle
the output of larbin called "webtools4larbin" are opensource also.
I use mysql and postgresql supported applications, but for comercial use i have
a db abstraction layer that is able to handle allmost any type of database.....

Larbin (Download here )

For the Database inexer please check my little project:

http://freshmeat.net/projects/webtools4larbin

FAQ:
Why do you descripe how to get millions of email adresses ?

I think its nessesery to understood how a webcrawler/indexer works bevor we can think about systems they preventing you from spam.

More Questions?

why dont leave a short comment Wink


Have a lot of fun

nfo


Kommentare

by:

Eines von meinen aktivsten Projekten ist CMS-Bandits an dem ich die letzten Monate die meisten Änderungen gemacht habe. Zu den größeren Änderungen gehört der Datenbank Abstractionslayer und das neue Sessionhandling. Sowie viele kleine Änderungen wie das Revisionslog, die Übersetzungsfunktion und den komplett überarbeiteten RSS Feed.

Ausserdem habe ich eine 100 Mbit Anbindung spendiert bekommen (danke Istvan). Dennoch ist es nicht leicht ein OpenSource Projekt ohne Sponsoren oder sonstige Einnahmen am Leben zu erhalten. Derzeit konzentriere ich mich auf neue Projekte die auch etwas Geld einbringen, werde aber das CMS noch weiterentwickeln.

BTW bassiert diese Webseite auch auf einer Entwicklerversion von meinem CMS, welches ihr hier gratis downloaden könnt.

Jetzt etwas technisches zu den neuen Funktionen:

Der Datenbank Abstraktionslayer MDB2 ermöglicht den Betrieb auf nahezu jeder Datenbank. Das neue Sessionhandling ist besonders dann interessant, wenn man das CMS auf einer Clusterfarm betreiben will, ausserdem hat man auch einen kleinen Performancegewinn auf normalen Maschinen da die Sessiondaten von MySQL nach Möglichkeit im Arbeitsspeicher gehalten wird, was 100-1000 fach schneller ist als das Dateisystem.

Der neue Revisionslog ermöglicht es bei Änderungen Schritte wieder zurück zu gehen, es macht also nichts wenn man mal einen Artikel versehentlich gelöscht hat. Der neu geschriebene RSS Feed kann jetzt auch von allen RSS-Readern gelesen werden.

Ich würde mich natürlich freuen, wenn jemand mein CMS unterstützen möchte, sei es finanziell oder einfach nur durch Verbesserungsvorschläge (in Form von Code am liebsten).

Ich wünsche euch noch eine schöne Woche

Andreas


Kommentare


Seiten: