Jag har ägnat dagen åt att fundera på ämnesklassificering av foruminlägg för att använda i direktdemokratiskt diskussionsforum. Jag har tittat på flera metoder. Det "bästa" verkar vara att träna neurala nätverk med stora mängder text. Exempelvis med LIBSVM.

Jag vill ha något som kan knytas till hierarkiska ämnesklassificeringar / taxonomier, som i slutändan kan kategorisera diskussioner till departement eller liknande. Meningen är att hjälpa människor att hitta grupper, motioner, personer, argument, osv som pratar om samma sak.

Jag vill kunna härleda eller föreslå metadata men sedan kombinera automatisk analys med crowd-analysis för att kunna skapa översikt över områden så som exempelvis faktorer som främjar eller hämmar speciella effekter och hur det hänger samman med problemområden, förslag, motioner, argument, osv, för komplexa system.

Även för att skapa självsanerande forum/wikis där innehållet kontinuerligt förbättras. Det är en idé som jag funderat vidare på sedan ca 1990.

Det handlar om att navigera i ett universum av information. En direktdemokratisk wiki med personligt gränssnitt baserat på dina rådgivare och vänner. System som kan anpassa sig inte bara för många användare utan också för olika typer av diskussionsklimat. Olika grader av komplexitet, olika grad av kontrovers, osv.

Framför allt har jag alltid tänk att det ska vara mer som en direktdemokratisk wiki än ett diskussionsforum eftersom det är budskapet som är det viktiga och alla ska kunna hjälpas åt att flytta inlägg till rätt kategori. För det är helt enkelt fel-konstruerat att någon ska välja kategori innan de har skrivit inlägget. … Och svar på en viss fråga kan beröra ämnen som diskuterats på andra håll. Så ”taggarna” ska tas fram med gruppintelligens.

Och istället för utsedda moderatorer borde vi ha grupp-moderering så att det du ser default är baserat på en kombination av vad de du litar på har tyckt om läsvärdheten, kombinerat med vad du själv tycker om författaren, ämnet, osv. Mycket bättre än hårda censurregler.

Och så behöver vi hantera ett processflöde som hanterar att det hela tiden tillkommer nya människor och gamla faller bort. Om vi exempelvis tänker oss stegen analys, formulerande av förslag, motion, omröstning och implementering. Istället för att ha fasta tidpunkter för varje steg bör vi hantera att nya människor kan komma att behöva diskutera från början, komma med nya förslag och också vilja vara med och påverka, oavsett om vi redan röstat igenom en tidigare version eller inte. Det görs med KONTINUERLIG direktdemokrati och demokratisk versionshantering.

Vi behöver även ett system som skapar mer och mer ordning ju mer och längre vi använder det. Det ska bli mer översiktligt. Det betyder att istället för vanliga ämneskategorier och trådar behövs det relationer mellan ämnen som kontinuerligt förbättras.

Resultatet av diskussionen ska bli en karta med relationer av orsakssamband där alla faktorer som påverkar tillstånd hos fenomen ska finnas med. Det gör att komplicerade områden kan bli allt mer överskådliga där alla argument i en diskussion som uppkommer kan placeras in som en förklaring av ett visst orsakssamband. Detta kan sedan användas för att hitta lösningar på problem och sätta in konsekvensanalyser i sitt sammanhang.

Det finns en hel del projekt som snarare än röstning bygger på att skapa verktyg för att analysera problem, hitta lösningar och skapa konsensus.

Jag har inte hittat något riktigt bra ännu och skulle vilja haffa någon datorlingvist och fråga vad som kan användas för att få bra resultat i praktisk användning för politiska diskussioner på svenska.

Jag funderar på hur mycket jag måste göra själv och vad som kan finnas färdigt att använda utan inlåsningseffekt. Kanske kan det fungera att använda en kombination av Lucene och Swesarus?

Önskar det fanns något som enkelt kunde sättas upp som en webbtjänst och gärna färdigtränad åtminstone för att ha något att börja med som sedan kan justeras vidare med hjälp av användar-input.

Skulle jag hitta på en egen enkel lösning skulle jag leta upp en motsvarighet till wordnet, försöka matcha "resten" av förekommande begrepp till positioner i denna wordnet. För varje text kan jag sedan dela sammansatta ord och matcha mot denna wordnet. Sedan använda frekvensen av varje ord, som i Bayes, för att hitta de mest unika kategorierna. Sedan gå upp i hierarkin för att hitta de mest beskrivande orden, som en slags klustring.

Det verkar som bättre lösning är att använda neurala nätverk men behöver en bra och passande taxanomi/ontologi som täcker upp alla områden. Det går att beräkna fram dessa grupperingar med tillräckligt mycket data. Behöver stora mängder bra data för att träna systemet med.

Hade hoppats på att det skulle finnas något fritt och öppet för svenska att bara ladda ned och använda.

För det första vill jag hitta en taxonomi som inbegriper godtyckliga ämnen, med fokus på samhälle och politik. Den behöver vara detaljerad inom varje specifikt område för att ge användbar kategorisering. För det andra behövs ett sätt att matcha text mot denna taxonomi.

Existerande system kan hitta texter som liknar varandra och även plocka ut nyckelord. Så det större problemet är antagligen det första.Jag har studerat vad som finns inom text classification, content analysis, text minig, automatic tagging, deep learning, mm.Nu senast tittade jag på word2vec som har en del kul egenskaper. Verkar likna IBM Watson.

För det första vill jag hitta en taxonomi som inbegriper godtyckliga ämnen, med fokus på samhälle och politik. Den behöver vara detaljerad inom varje specifikt område för att ge användbar kategorisering. För det andra behövs ett sätt att matcha text mot denna taxonomi.

Existerande system kan hitta texter som liknar varandra och även plocka ut nyckelord. Så det större problemet är antagligen det första.

Jag har studerat vad som finns inom text classification, content analysis, text minig, automatic tagging, deep learning, mm.

Nu senast tittade jag på word2vec som har en del kul egenskaper. Verkar likna IBM Watson.

Got it!  Automatic taxonomy construction and Latent Dirichlet allocation.

Jag hittar inte så mycket tillämpning av Automatic taxonomy construction. Skulle vilja hitta programbibliotek och föredrag av personer som använt dem.

[[https://www.facebook.com/aigan/posts/10153194823397393]]