Liste aller deutschsprachigen Steemnutzer Update #7 | Neue Nutzer durch Textanalyse
Hallo zusammen,
evt. kann sich jemand von euch noch an diesen Post hier erinnern, indem ich ein Tool vorgestellt habe, dass die Blockchain in Echtzeit auf deutschsprachige Beiträge/Kommentare durchforstet.
Es gibt inzwischen einige Anwendungen hierfür und heute ist eine neue dazu gekommen.
Und zwar werde ich zukünftig ausschließlich dieses Tool nutzen, um die Liste deutschsprachiger Steemnutzer zu erweitern.
Wie sieht das ganze aus?
Postet ein Nutzer, welcher noch nicht in der Liste deutschsprachiger Steemnutzer ist, einen deutschen Beitrag/Kommentar, denn wird mir dieser:
- Auf Discord angezeigt. (Das sieht denn in etwa so aus:)
- In eine einfache Textdatei geschrieben
Danach kategorisiere ich die Nutzer in zwei Gruppen.
- Wenn der Fall eindeutig ist, dann kommt der Nutzer ohne Umwege in die Liste.
- Falls zweifel bestehen, wird dieser durch die angelegte Textdatei erneut manuell überprüft. (So wie ich das mit den fast 5000 Nutzern bereits getan habe :P)
Somit stelle ich sicher, dass die Liste auch weiterhin eine hohe Qualität haben wird. Dies wird nämlich für meine zukünftigen wöchentlichen deutsch Reports äußerst wichtig.
Bald gibt es mehr dazu... versprochen :D
und bei Fragen
gerne fragen
Lol, das schaut in meinem Discord-Bot fast genauso aus :-)
Haha jetzt erst gecheckt, dass bei dir auch @almarlene zu sehen ist :DDD
Sauber! :)
Wieder einmal spannend, was du da machst und was du heraus findest. Schöne Arbeit für die deutsche Community!
Lieben Gruß
Kadna
Hi @maxpatternman! We are @steem-ua, a new Steem dApp, using UserAuthority for algorithmic post curation! Your post is eligible for our upvote! Thanks for your contribution, keep up the good work, and feel free to join our Discord server!
Du schreibst also den ganzen Post oder Kommentar von einem neuen deutschsprachigen Nutzer in eine Textdatei? Ist diese dann nicht ziemlich bald ziemlich gross, bzw. hast du dann nicht eine Unmenge an Dateien?
Aber ich bin auf jeden Fall gespannt auf deine Auswertungen.
Hey @hawk399,
im Beitrag meinte ich, dass eine Textdatei mit den Namen der Nutzer entsteht. Das Tool selber überprüft, ob in dem Text des Posts/Kommentars gewisse Voraussetzungen herrschen und falls nicht, verwirft er diesen und nimmt sich den nächsten vor. :)
Das ist teilweise echt gruselig. Hier mal ein Beispiel. Eine einfache Auflistung aller Links zu den Posts (keine Kommentare) 2018, welche von deutschsprachigen Nutzern erstellt wurden = ~ 32 MB
Meine größte "Textdatei" bei den letzten Auswertungen war über 244 MB groß.
Die Datenbanken, welche ich sammel, sind noch viel viel größer.
Danke :D
LG Max
Ah, nur die Namen speichern macht mehr Sinn. Ich dachte du kopierst auch denn Inhalt, damit du gleich den Post selber anschauen kannst ohne aufs Internet zu gehen.
Ja, Datenbanken werden oft ziemlich gross, aber die Steem Blockchain ist noch erstaunlich klein. Vor einem Jahr war sie "nur" 43GB gross. Ich schätze mittlerweile wird sie aber fast doppelt so gross sein.
https://steemit.com/steem/@crokkon/steem-blockchain-size
Ich habe fürs Studium kürzlich Messungen gemacht (ca. 1000Stk a jeweils 100'000 Samples) und die ganzen CSV Dateien kamen auf rund 800MB. Aber ich muss auch zugeben, dass die "Datenbank" nicht wirklich speicheroptimiert war.
Ah, witzig dass dieser alte Post immer wieder gefunden wird :) Die serialisierten Blockchain-Rohdaten sind aktuell ca. 144 GB gross, verarbeitet in den Datenbanken des steemd-clients ists ein Vielfaches davon...
Was ich mal interessant fände, wäre in welcher zeit der deutsche user durchschnittlich welche reputation erreicht oder so:)
Vielleicht kannst du das ja mal analysieren.
Hey @urdreamscometrue,
danke erst mal für Deine Anfrage.
Das scheint mir ein wenig schwieriger zu werden. Wenn auch nicht ganz unmöglich. Ich müsste wissen, wie genau die Reputation entsteht, also berechnet wird (und damit meine ich nicht die Umrechnung von der blanken Rep. zum Rep. Level).
Ehrlich gesagt ist mir das bis heute immer noch ein Rätsel.
Und einen Blick in den Source Code möchte ich nicht werfen. xD
LG Max
Hey, danke für deine Antwort.
Das ist natürlich verständlich:D
Schönen Tag noch!
Eine Untersuchung da hinsichtlich des Accountalters ist wohl wenig aussagekräftig - da müssten wohl viele "Tiefschlafphasen" etc. herausgerechnet werden. Interessant könnte es werden wenn man sich die Anzahl von Beiträgen anschaut und vllt auch das Verhältnis Post:Kommentare.
Ist doch egal, ich will ja die echte Zeit. Wenn da Pausen dazwischen sind drückt es halt den durchschnitt aber ist dann halt so.
Wäre auch interessant.
Du hast ein kleines Upvote von unserem Curations-, Support- und Reblog Account erhalten. Dieser wurde per Hand erteilt und nicht von einem Bot. Wir, die Mitglieder des German Steem Bootcamps möchten die deutsche Community stärken. Bei einer Mitgliedschaft im German Steem Bootcamp könnt ihr sicher sein, dass eure Beiträge auch gelesen werden.
Aktuell als Kurator tätig ist @derbesserwisser
Du findest uns im Discord unter https://discord.gg/vTsTSrZ
Congratulations! This post has been upvoted from the communal account, @minnowsupport, by MaxPatternMan from the Minnow Support Project. It's a witness project run by aggroed, ausbitbank, teamsteem, someguy123, neoxian, followbtcnews, and netuoso. The goal is to help Steemit grow by supporting Minnows. Please find us at the Peace, Abundance, and Liberty Network (PALnet) Discord Channel. It's a completely public and open space to all members of the Steemit community who voluntarily choose to be there.
If you would like to delegate to the Minnow Support Project you can do so by clicking on the following links: 50SP, 100SP, 250SP, 500SP, 1000SP, 5000SP.
Be sure to leave at least 50SP undelegated on your account.