Menetelmä

Tämä sivu dokumentoi, miten NoCall muuttaa tuhansia käyttäjäilmoituksia luotettavaksi arvioksi jokaiselle puhelinnumerolle. Selitämme tarkan riskipistekaavan, vaaratasot, miten luokittelemme luokkia, miten tekoälyanalyysimme toimii ja mistä data tulee. Julkaisemme tämän menetelmän, jotta kuka tahansa voi ymmärtää — ja kyseenalaistaa — järjestelmän tekemät päätökset.

Miten riskipisteet lasketaan

Jokaiselle tietokantamme numerolle annetaan riskipisteet välillä 0–100. Se ei ole subjektiivinen arvio: se johdetaan deterministisestä kaavasta, joka lasketaan uudelleen joka kerta, kun uusi hyväksytty ilmoitus saapuu.

riski = min(100, ilmoitukset × 5 + (vahvistettu ? 30 : 0))

Jokainen hyväksytty ilmoitus lisää 5 pistettä. Jos tiimimme on vahvistanut numeron vahvistetuksi roskapostiksi, lisätään 30 ylimääräistä pistettä. Tulos ei koskaan ylitä 100:aa.

Vahvistuskerroin on olemassa erottaakseen numeron, jolla on monta tuoretta ilmoitusta (joka voisi olla kertaluonteinen väärä positiivinen), numerosta, jonka ihmistarkastaja on aktiivisesti vahvistanut väärinkäytöksi. Siksi 20 vahvistamatonta ilmoitusta (100 pistettä ilmoituksista, ylärajalla) ja 14 vahvistettua ilmoitusta (70 + 30) voivat saavuttaa samankaltaiset pisteet eri reittejä pitkin.

Kun numeron on analysoinut tekoälymme ja sillä on hyväksyttyjä yhteisösignaaleja, havaittu vaarataso toimii myös pisteiden alarajana: kriittiseksi merkitty numero ei koskaan näytä alle 90:tä, korkea alle 70:tä, keskitaso alle 45:tä ja matala alle 20:tä, vaikka ilmoituksia olisi vähän. Näin selvästi petollista kaavaa ei aliarvioida vain siksi, että se on tuore.

Vaaratasot

Numeerisesta pisteestä luokittelemme jokaisen numeron yhteen neljästä vaaratasosta. Nämä ovat samat tunnisteet, joita tietokantamme käyttää sisäisesti:

Roskapostiluokat

Jokainen ilmoitus ja jokainen numero luokitellaan yhteen seitsemästä luokasta. Luokka määrää, miten numero esitetään hakemistossa, ja se johdetaan sekä käyttäjän ilmoituksesta että myöhemmästä automaattisesta analyysistä:

SPAM — Yleiset, ei-toivotut kaupalliset puhelut, jotka eivät sovi tarkempaan luokkaan.
TELEMARKKINOINTI — Puhelinmyyntikampanjat, yleensä tietoliikenne tai energia, jotka jatkuvat torjunnasta huolimatta.
HUIJAUS — Huijaukset ja petokset, mukaan lukien henkilöllisyyden esiintyminen (pankit, viranomaiset, väärä tekninen tuki). Vakavin luokka.
PERINTÄ — Perintä- ja velanperintäpuhelut, usein aggressiivisia tai väärälle henkilölle kohdistettuja.
HÄIRINTÄ — Toistuvat puhelut, joiden tarkoituksena on häiritä, pelotella tai tarkoituksellisesti haitata.
KYSELY — Pyytämättömät puhelinkyselyt, mielipidemittaukset ja markkinatutkimukset.
MUU — Mikä tahansa muu ei-toivottu puhelu, joka ei sovi edellä mainittuihin.

Tekoälyanalyysi

Numeerisen pisteen lisäksi tekoälytyökalu analysoi numeroita yhteisön hyväksymän sisällön perusteella: kommentit ja ilmoitukset, jotka ovat läpäisseet moderoinnin. Tekoäly ei koskaan käsittele hyväksymätöntä sisältöä, joten mikään tarkistamaton panos ei voi vaikuttaa julkiseen analyysiin.

Jokaiselle analysoidulle numerolle tekoäly luo jäsennellyn tietojoukon, joka näytetään numeron sivulla:

Analyysin tuottamat kentät ovat seuraavat:

Kuvaus — Luonnollisen kielen yhteenveto siitä, kuka näyttää olevan numeron takana ja mitä he haluavat.
Valituskaavat — Yleisimmin toistuvat valituksen syyt ilmoituksissa (esimerkiksi puhelut sopimattomina aikoina tai sinnikkyys torjunnan jälkeen).
Käytetyt taktiikat — Havaitut erityiset tekniikat, kuten paine, väärä kiireellisyys tai henkilötietojen pyytäminen.
Toimiala — Ala, johon toiminta kuuluu (tietoliikenne, energia, perintä, kyselyt jne.).
Havaittu yritys — Yritys tai organisaatio, jota numero näyttää edustavan tai esiintyvän, kun se voidaan tunnistaa.
Esiintyminen — Indikaattori siitä, esiintyykö numero laillisena tahona (pankki, julkishallinto, tunnettu brändi).
Suositeltu toimenpide — Lopullinen suositus käyttäjälle: estä, varovaisuus, ohita tai turvallinen.

Tämä analyysi on suuntaa antava ja luotu automaattisesti yhteisön panoksista; se ei korvaa käyttäjän omaa harkintaa eikä muodosta syytöstä mitään tiettyä yritystä kohtaan.

Moderointi: mitään ei julkaista ilman tarkistusta

Laadunvalvonta on menetelmän keskeisin osa. Ilmoitukset ja kommentit eivät näy julkisessa hakemistossa heti niiden lähettämisen jälkeen: ne pysyvät odottavina, kunnes ylläpitäjä hyväksyy ne. Vasta sitten ne lasketaan mukaan riskipisteisiin, syöttävät tekoälyanalyysiä ja tulevat näkyviksi muille käyttäjille.

Tämä moderointiportti palvelee kahta tarkoitusta: se hylkää väärät tai pahantahtoiset ilmoitukset ennen kuin ne vaikuttavat numeron maineeseen, ja se varmistaa, että tekoäly päättelee vain tarkistetun tiedon perusteella. Odottavan ilmoituksen tekijä voi nähdä oman panoksensa, mutta ei kukaan muu, ennen kuin se hyväksytään.

Datalähteet

Jokaisen numeron arvio yhdistää kolme riippumatonta lähdettä:

Yhteisön ilmoitukset — Kaiken perusta. Käyttäjät ilmoittavat numeroita sovelluksesta ja verkosta, anonyymisti, luokan ja kommentin kanssa. Moderoinnin jälkeen ne ovat pisteiden tärkein signaali.
CNMC:n operaattori- ja etunumerodata — Käytämme julkista dataa Espanjan markkina- ja kilpailukomissiolta (CNMC) tunnistaaksemme kullekin numerolohkolle määritetyn operaattorin ja linjatyypin (matkapuhelin, lankapuhelin, lisämaksullinen).
Yritysten lehdistötiedotteet (RSS) — Seuraamme yritysten uutishuoneita RSS-syötteiden kautta havaitaksemme lailliset kampanjat ja vähentääksemme vääriä positiivisia, kun todellinen yritys harjoittaa massaviestintää.