tomasw said:

tomasw

En tidig morgonfråga: Letar algoritmer för att hitta "liknande texter" med hjälp av textanalys. Några ideer?

2 months, 1 week ago in Denmark.

27 comments so far

  • plindberg

    Programming Collective Intelligence är en bra bok.

    2 months, 1 week ago by plindberg.

  • tomasw

    Latent semantic analysis http://en.wikipedia.org/wiki/Latent_sema... verkar vara ett lovande spår.

    2 months, 1 week ago by tomasw.

  • plindberg

    Om inte annat så är denna i alla fall tankeväckande läsning: BBC om hur de labbar med att tagga automatiskt genom att använda Lucenes "More Like This" mot Wikipedia-artiklar (bigups @erik).

    2 months, 1 week ago by plindberg.

  • erik

    Ja, BBCs lösning tycker jag var riktigt rolig, även om jag inte kan avgöra om den är effektiv.

    2 months, 1 week ago by erik.

  • deeped

    Det är väl något liknande det som PRfekt håller på med (även om det handlar om att hitta psykografier och persona i texter).

    2 months, 1 week ago by deeped.

  • tomasw

    @plindberg, @erik: Jag har testat den lite. Funkar bra ibland, sämre på nyare specifict material från till exempel techcrunch, (databasen är från 2007). Mycket lovande ide tycker jag.

    För den som vill testa: http://sells.welcomebackstage.com:5000/i...

    2 months, 1 week ago by tomasw.

  • Clas

    @tomasw: Är du intresserad av att bygga ett "liknande texter"-script baserat på Lucene? Jag har ett projekt om det i bakhuvudet, eventuellt hoppas jag också kunna få lite input från SvD.se. Jag har provat "more-like-this" (aka more-like-these på Lucene-språk) på mina insamlade nyheter till Frisim.com. Jag programmerar gärna; vill du komma med input så lyssnar jag gärna. Du kan också få prova det jag har just nu, om du är intresserad.

    2 months, 1 week ago by Clas.

  • tomasw

    @clas. Jag har en mycket lös ide som jag mest tänkte undersöka förutsättningarna för. Kan kanske visa en prototyp inom kort.

    2 months, 1 week ago by tomasw.

  • deeped

    Skulle vara briljant med en bättre plugin än "Related posts"-plugsen som finns idag. För rakt, för introvert.

    2 months, 1 week ago by deeped.

  • Clas

    @tomasw: Vilken typ av databas använder du? Jag har tidigare byggt "klassificering"-script som bygger på FULLTEXT-sökning i MySQL och en större mängd artiklar som jag "handklassificerat" (automatiskt baserat på vissa tidningars "smarts" URL-info). Nu är jag intresserad av att göra något bättre, med någon indexeringstyp som också kan användas för att hitta bra "liknande artiklar", "fördjupningar" av ett ämne och "uppföljningsartiklar".

    2 months, 1 week ago by Clas.

  • tomasw

    @clas: För att bygga receptsajtens index använder vi oss av lucene's ruby-port Ferret. Själva databasen är förstås mysql, men fulltextsök blev snabbt alldeles för långsamt.

    Du kanske skulle prova att köra BBCs teknik, men mot svenska wikipedia. Blev sugen på att prova, men det är inte riktigt vad jag är ute efter just nu.

    2 months, 1 week ago by tomasw.

  • tomasw

    @deeped: Tänker du på några särskila plugins?

    2 months, 1 week ago by tomasw.

  • plindberg

    @tomasw: Är det texter eller recept du vill hitta liknande för?

    2 months, 1 week ago by plindberg.

  • Clas

    @tomasw: Jag har tittat på BBC-test-script tidigare men dels så är det alldeles för långsamt för det jag behöver, dels så är jag inte ute efter tagging direkt, utan hellre kategorisering (i reltivt få kategorier) och "liknande artiklar", gärna båda dessa funktioner baserad på samma index. Att gå "via" taggning är jag inte säker på att det är det bästa. Att indexera Wikipedia är annars en bra början för att gärna en massa annat, t.ex. för att komplettera sökresultaten, som t.ex. Sesam.se har idag på sitt nyhetssök.

    Jag har tidigare även provat Carrot2 för Lucene, men det blev lite för struligt för mig, då, och jag fick det inte att fungera så bra som jag tror kan vara möjligt.

    @deeped, kanske tänker på denna som säkert bygger på en enkelt MySQL-sökning med orden i titeln/ingressen, typ, kanske!?

    2 months, 1 week ago by Clas.

  • erik

    I sammanhanget: läs om Yahoos patent för matsök.

    2 months, 1 week ago by erik.

  • tomasw

    @erik: Intressant!

    2 months, 1 week ago by tomasw.

  • tomasw

    @plindberg: Både och, men helt olika applikationer.

    2 months, 1 week ago by tomasw.

  • perkovich

    Det där är jag också nyfiken på..

    2 months, 1 week ago by perkovich.

  • plindberg

    @tomasw: Jag tror inte på textanalys när det gäller recept. På Menumo klustrar vi recept på ingredienser och taggar och det tycker jag är väldigt effektivt. Se t ex den här morotssoppan. Ju fler gemensamma ingredienser och taggar desto högre "likhetspoäng".

    Sedan skulle jag vilja experimentera med att vikta ingredienser, lite som på Amazon med Statistically Improbable Phrases, alltså att ingredienser viktas efter hur ovanligt förekommande de är.

    2 months, 1 week ago by plindberg.

  • Clas

    IIS.se har ju någon form av "forskningspengar" som man kan ansöka om, som verkar kunna täcka även "teknikutveckling". Någon som är intresserad av att vara med på en ansökan runt klassificering/kategorisering?

    2 months, 1 week ago by Clas.

  • moonhouse

    @plindberg: Tror du inte man kan använda LSI och dessutom hoppa över ordsteget och istället räkna ingredienser som vektorer?

    2 months, 1 week ago by moonhouse.

  • ctail

    Ha inte för stora förväntningar på svarta lådor baserade på matematiska modeller etc. Magin sitter i de applikationsspecifika parametrarna, inte i algoritmerna. Och mer data slår oftast smartare algoritmer.

    2 months, 1 week ago by ctail.

  • Clas

    Ingen som var sugen på att skriva ihop något till IIS? Tyvärr tror jag inte på LSI (av flera skäl), men jag skulle gärna vilja prova något som bygger andra former av term-vektor-beräkningar.

    @ctail: Matematiskt modeller är inte "svarta lådor" för mig, men självklart är det bättre med mer data än med mindre, även om stora datamängder och hög uppdateringsfrekvens också ställer stora krav på effektivitet i de beräkningar man gör.

    2 months, 1 week ago by Clas.

  • biffteki

    Googla på "simfinder", den är "liknande texter"-motorn bakom Columbia Newsblaster.

    2 months, 1 week ago by biffteki.

  • moonhouse

    För mig är det svarta lådor men det beror mest på att jag inte tagit mig tid för att fördjupa mig inom området. Det är något jag gärna skulle göra.

    2 months, 1 week ago by moonhouse.

  • tomasw

    @biffteki: Newsblaster är jag riktigt coolt, om än inte alltid helt pedagogisk. Sammanfattningarna ser ju för det mesta ut att funka.

    2 months, 1 week ago by tomasw.

  • ctail

    Med "svarta lådor" menar jag generella metoder som neuronnätverk, matrisdekompositioner, regression etc. som man pluggar in på mer eller mindre väl valda abstraktioner av de problem man vill lösa. Oavsett hur väl man förstår matematiken i dem. Poängen med påpekandet om mer data är att när man finner att beräkningarna blir för krävande för stora datamängder är det ofta bättre att begränsa beräkningarna än att begränsa data.

    2 months, 1 week ago by ctail.

Sign in to add a comment