ניתוח (פשטני) של מאות מאמרי דעה מאת כתבים בכירים

מאת נביא שקר

לאחרונה הורדתי את כל המאמרים של ארי שביט, ובדקתי עד כמה הוא חוזר על עצמו, מילולית.

יש עוד דברים שאפשר לעשות עם כמות גדולה של מילים. לצורך ההשוואות הבאות זה לא הוגן שנסתכל רק על שביט, אז הורדתי גם את כל המאמרים שיכולתי למצוא של אמיר ״בדיחה דלוחה״ אורן, ויוסי ״רכילות שבת״ ורטר.

ענני מילים

אפשר למשל ליצור ענן המתאר את המילים ששביט השתמש בהן בעשור האחרון:

shavitWordCloud

אם מורידים את ׳ישראל׳ על ההטיות השונות:

shavitWordCloud2

נראה…נכון.

הנה הענן של ורטר:

verterCloud

והנה הענן של אורן:

orenCloud זה אולי לא מפתיע במיוחד, אבל זה מעניין עד כמה בעצם דפי הפרשנות מוקדשים לזוויות שונות של האדם נתניהו.

מודל נושא

ניסיתי להפעיל ׳מודל נושא׳ על כל הטקסט של כתבי הארץ במשותף, אבל לא יצא משהו מעניין במיוחד. כל הנושאים מערבים במידה כזו או אחרת פוליטיקאים וצבא. יכול להיות שפשוט אין לי מספיק מלל, יכול להיות שזה לא עובד כל-כך טוב בעברית, ויכול להיות שאין באמת הרבה נושאים להפריד ביניהם.

כתיבה אוטומטית ומחוללים

דבר נחמד אחר שאפשר לנסות זה ליצור טבלה גדולה המתארת את ההסתברות מעבר בין כל מילה ומילה בטקסט של כתב. נגיד למשל ששביט כתב ״אסור״. מה אמורה להיות המילה הבאה? אפשר לתאר את כל המילים שבאו אחרי ״אסור״ בעשור האחרון אצלו וליצור הסתברות מעבר. אפשר לעשות זאת עבור כל מילה ומילה, ולמעשה אפשר לעשות זאת לצמדי מילים. כלומר, נגיד ששביט כתב ״לישראל אסור״, אז מה אמור לבוא אחר-כך?

קל לראות שאפשר להשתמש בטבלה כזו כדי לעשות קטגוריזציה של טקסט חדש, או כדי ליצור טקסט אוטומטי חדש. דברים שכאלה נקראים מודלי ngram, והם פופולריים בעיקר בתור בסיס להשוואה למודלים יותר מתוחכמים.

אני לא באמת מצפה ממודלים שכאלה שייצרו טקסט אוטומטי מעניין במיוחד.

ובכל זאת.

הנה פסבדו-שביט:

מושג המפתח בסביבה הקרובה של ראש הממשלה. יפה. ללפיד אין הניסיון הנדרש כדי לייצר פצצה גרעינית. כאשר במרתפה חמישה טונות של אורניום המועשר ברמה בינונית, איראן נמצאת על הסף. כשאיראן מפתחת נפצים גרעיניים ומתכת כדורית גרעינית וראשי חץ גרעיניים – איראן היא איום ממשי ומיידי. לדגן יוחסו גדולות, אך הוא ימשיך לאיים. הלקח שהמזרח התיכון יבער נמוכה, אך כשפועלים באופן כוחני נגד איראן, איראן תיהפך למעצמה המובילה במזרח התיכון

 הנה פסבדו-ורטר:

חלקו של מי שמסוגל לנבא תוצאות בחירות של הגברת נתניהו, מבלי שהם יודעים דבר וחצי דבר על בבית ברחוב היא לא לשכנע מדוע בחרה לרוץ לבד, ולא לחבור ללפיד או ליחימוביץ' – את על נתפסה בחירות מביש לא. עם "הארץ" לבני בבחירות שלא להיכנס לבדה לממשלת ימיןחרדים. יודעת איזו ממשלה היתה יכולה להיות משמעות שוברת בחירות, לטובת נתניהו. אחרי הבחירות לכנסת ה-19 אמש בתום מערכה מתמודדים חדשים, לצד פוליטיקאים ותיקים, בין המפלגות על של לפיד מתלבטים אף הם בין האחרונים שלא עדיין את קהלים לא בקצב בעיקר של פרופ' בן ציון נתניהו בן נתניהו גם הכחיש כי שלח אל לבני שליחים המצב יותר מאז הבחירות, נתניהו יהיה ראש הממשלה בכבודו בדרך עד מאוד, חלחל האנשים שם. אין ספק שיחימוביץ' ניהלה קמפיין שכלל של אחדות מחד, של התקרבנות מצד אחד, לפיד יזכה להערכה כמי שלא הפנה עורף לכלכלה הישראלית, עליה מסע הבחירות שלו. אנשים שם מתארים גדול וחוסר סדר.

ולבסוף, פסבדו-אורן:

בין כל הבאים בחשבון הרמטכ״ל, שלישי של אלוף, של שניים מעשית יאיר גולן מפקד חיל הים, רם רוטברג, בבסיס חיפה. את תגובת דוברות בתי המשפט, בעד סגל ונגד גולדברג. בין גולדברג בני דורות מפריד יותר גולדברג ישב ופרש ממנו כדי לכהן כמבקר המדינה בטרם קידום גרוניס ותיק ומנוסה יותר השרים ומי נדרשה למינוי והקצונה הבכירותבצה"ל, במשטרה, במוסד. חזקה ממנו רק של בדיחה עצמית שנהג לספר רונלד רייגן, זקן הנשיאים האמריקאים, על ג׳ורג׳ וושינגטון. באמצע סוף המאה היה ההוליוודי בדימוס ממתין שנייה ומעיד, כשהוא אמר את בצאתו מהבית הלבן היה רייגן רק בן עוד נותרו לו 15 שנות חיים. איפה רייגן הימים ואיפה בן של שמעון האחרון, לאחר תום כהונתו ביולי יותר הרצל כמו נפתלי, כך גם החבר התחיל את פה, בטלפון, מה זה של משפט הולילנד.

===

לגבי פסבדו-אורן: כפי שאולי שמתם לב, בהטקסט נעדות התפתלויות הלשון המזוויעות המאפיינות את אותנטי-אורן. לא רק שאין לי אלגוריתם שיבנה את הבדיחות התפלות שלו, אין לי אפילו אלגוריתם שיזהה את הבדיחות התפלות האלה. מאוד הייתי שמח לייצר רשימה בנוסח ״כל משחקי הלשון הגרועים של אורן״, אבל בלי אוטומטיזציה אני לא אגע בזה.