Blog
Nov
07
News correlate: algoritmo nuovo vs algoritmo vecchio
webmaster: 07/11/08 @ 17:25Come abbiamo già scritto varie volte sto lavorando insieme a zello per vedere di ottimizzare l'algoritmo che decide se due news sono correlate o meno.
Al momento ci sono 11 possibili variabili (ne abbiamo trovata una nuova) ognuna della quali può assumere un valore da 1 a 10. Questo vuol dire che ci sono 100.000.000.000 (cento miliardi) di possibili combinazioni da calcolare. Ovviamente qualcosa di impensabile se consideriamo che il calcolo di una sola combinazione richiede almeno 0,05 secondi e che sto implementando un tesuaro nell'algoritmo - cioé che sto per aggiungere una nuova variabile - e che questo porterà le combinazioni a un bilione.
Zello ha implementato un algoritmo genetico che semplificherà di molto il calcolo delle combinazioni in modo darwinistico e quindi diminuirà i tempi.
Per verificare quale combinazione di variabili è la migliore abbiamo scelto un numero di news e abbiamo indicato un numero di collegamenti che la combinazione migliore deve trovare. Senza grandi ottimizzazioni il tool di zello ha già individuato una combinazione che trova il 68% dei link che abbiamo indicato noi a mano. Il problema è che trova anche molti falsi positivi.
Ho quindi voluto far fare al mio algoritmo (quello attuale) la stessa prova per vedere come se la cava. Bene, il mio algoritmo ha trovato solo il 9% dei collegamenti che avrebbe dovuto, ma ha anche trovato solo il 2% di falsi positivi.
Cosa vuol dire questo? Semplicemente che il mio algoritmo, per quanto sembri buono, è molto scarso quando paragonato ai primi test di zello e che appena implementato il nuovo algoritmo si vedranno dei grandi miglioramenti.
Bon, è ora di tornare al lavoro. L'implementazione del tesauro è la mia priorità ora.
Al momento ci sono 11 possibili variabili (ne abbiamo trovata una nuova) ognuna della quali può assumere un valore da 1 a 10. Questo vuol dire che ci sono 100.000.000.000 (cento miliardi) di possibili combinazioni da calcolare. Ovviamente qualcosa di impensabile se consideriamo che il calcolo di una sola combinazione richiede almeno 0,05 secondi e che sto implementando un tesuaro nell'algoritmo - cioé che sto per aggiungere una nuova variabile - e che questo porterà le combinazioni a un bilione.
Zello ha implementato un algoritmo genetico che semplificherà di molto il calcolo delle combinazioni in modo darwinistico e quindi diminuirà i tempi.
Per verificare quale combinazione di variabili è la migliore abbiamo scelto un numero di news e abbiamo indicato un numero di collegamenti che la combinazione migliore deve trovare. Senza grandi ottimizzazioni il tool di zello ha già individuato una combinazione che trova il 68% dei link che abbiamo indicato noi a mano. Il problema è che trova anche molti falsi positivi.
Ho quindi voluto far fare al mio algoritmo (quello attuale) la stessa prova per vedere come se la cava. Bene, il mio algoritmo ha trovato solo il 9% dei collegamenti che avrebbe dovuto, ma ha anche trovato solo il 2% di falsi positivi.
Cosa vuol dire questo? Semplicemente che il mio algoritmo, per quanto sembri buono, è molto scarso quando paragonato ai primi test di zello e che appena implementato il nuovo algoritmo si vedranno dei grandi miglioramenti.
Bon, è ora di tornare al lavoro. L'implementazione del tesauro è la mia priorità ora.
Commenti: 2
Post correlati:
- [10/02/09] Search Engine Optimisation - Internal Linking
- [31/12/08] Ultimi bug e miglioramenti per il 2008
- [05/10/08] News correlate: migliorare l'algoritmo
I commenti dei lettori:
Dylan666
il 25 Novembre 08 @ 23:09 pm
sto implementando un tesuaro
nell'algoritmo
'implementazione del tesauro è la mia priorità
ora.
Intendi un dizionario?