463 Synthetic data generation at ActiveFence

מדע וטכנולוגיה | רן תבורי ואורי להב | 218 פרקים
רברס עם פלטפורמה

[קישור לקובץ mp3]פודקאסט מספר 463 של רברס עם פלטפורמה - הוקלט בתאריך ה-25 ביולי 2023. אורי ורן מארחים באולפן בכרכור, בשיא גל החום, את אייר ואת מאיה מ-ActiveFence לשיחה על Data Science - ובעיקר, ספציפית, על איך מג’נרטים (Generate) דאטה - ולמה, עם כל ה-Data שכבר יש בעולם . . .01:23 מאיה ואייר (רן) אז כמה מילים עליכם, מאיה ואייר ,ואחר כך גם על החברה  - Shoot:(מאיה) אז אני מאיה, אני Data Scientist-ית ב ActiveFence כבר שנתיים וחצי בערךכשל-ActiveFence הגעתי ככה ישר מהטכניון - סיימתי שם את המאסטר שלי בתחום NLP.וזהו . . . אייר?(אייר) אני עם מסלול קצת דומה - גם עשיתי תואר שני ב- Data Science בטכניוןאחרי זה עבדתי שנתיים באינטל בתור Data Scientistואז הצטרפתי ל-ActiveFence - גם עם היכרות מוקדמת עם מאיה.(מאיה) אני הבאתי אותך ל-ActiveFence  . . . (אייר) לגמרי, לגמרי(רן) ונראה שקיבלת את מה שהיית צריכה(מאיה) לגמרי.02:07 ו-ActiveFence(רן) אוקיי, ו- ActiveFence, למי שלא מכיר?(אייר) אז ActiveFence זה סטארט-אפ ישראלי, שבעצם מתעסק בניטור של תכנים זדוניים ברשתות שיתוף-תוכןאפשר לחשוב בקלות על רשת שיתוף-תוכן - לא ניכנס פה לשמות ספציפיים וכאלה, אבל כל רשת שמאפשרת ללקוחות הקצה שלה להעלות תכניםאם זה תכנים טקסטואלים או ויזואלים - סרטונים, תמונותבעצם חשופה, באיזושהי מידה, לתכנים פוגעניים - תכנים שעלולים לפגועגם במשתמשים האחריםוגם, כמובן, ב-Lag הבא - גם במפרסמים, שהם מתקשרים לכל מיני דברים כאלהולכן הפלטפורמות האלה רוצות להימנע מתכנים זדוניים אצלן במערכת.וכאן בעצם אנחנו - החברה, ActiveFence - נכנסים לתמונהאנחנו יודעים לזהות תכנים כאלה - ואם אנחנו רוצים לעשות את זה ב-Scale, אנחנו צריכים גם להשתמש בשיטות של AI, Machine Learning, כדי לזהות את התכנים האלה.(רן) והן [החברות] לא עושות את זה בעצמן? זאת אומרת, למה הן צריכות אתכם כדי לעשות את זה?(אייר) זו שאלה מצוינת . . . יש לנו בעצם כמה סוגים של לקוחותיש לקוחות גדולים, שיש להם גם כל מיני דברים שהם עושים בעצמם - ועדיין נעזרים באנו בתחומים שבהם אנחנו באמת איזשהו . . . (מאיה)  . . . יש לנו מומחיות בהם . . . (אייר) . . . ויש חברות יותר קטנות - לא ”ענקיות הטכנולוגיה” - שעדיין יש להן מאות-אלפי ולפעמים מיליונים של משתמשיםהחברה עצמה היא לא גדולה, והם לא מתעסקים בעצמם בדברים כאלה - של ניתוח-תוכן ורמת הפוגעניות שבוולכן הם צריכים חברה חיצונית שתעשה את זה.(אורי) ובתוכן - אנחנו מדברים על טקסט, וידאו ותמונה?(אייר) ו . . . .(מאיה) נכון, וגם תכנים מורכבים - זאת אומרת, שמכילים גם איזושהי תמונה; גם איזשהו Title לתמונה; גם Comment-ים על התמונה או על הVideo; ה-User שהעלה את התמונה, לדוגמא . . . .(אורי) זאת אומרת, האם ה-User עצמו הוא . . .(מאיה) נכון - אם יש לנו איזשהו ידע מוקדם על ה-User, או כל מיני Feature-ים כאלה ואחרים . . . . כן, לגמרי.(אייר) וגם ה-Audio - זה עוד Media-type שאנחנו מתעסקים בו לא מעט גםב-Video יש כמובן גם את ה-Audio Track - אבל גם יש Audio לבד, שגם שם יכול להיות . . .(אורי) Speech-to-Text או כאלה . . .(אייר) לגמרי . . . . גם דברים שאנחנו מתעסקיםאני יכול להסביר גם קצת על מה זה בכלל אומר “תוכן פוגעני” - כמובן לא ניכנס לדוגמאות ספיציפיות, אבל . . .(אורי) בגבולות הפוגעניות של הפודקאסט . . . (אייר) אז זה יכול להיות באמת קידום של אלימות, של טרורזה יכול להיות קידום של פגיעה בילדיםגזענות, אלימות . . . ובאמת - מגוון די רחב של פגיעה.(רן) אבל אני מניח שיש קטיגוריות ספציפיות שאותן אתם מחפשים -זאת אומרת, לא משהו ש”בוא -  נחפש מי נפגע!”(אייר) לגמרי, לגמרי, יש מגווןאבל גם שם - הדרישה היא למגוון של . . . אנחנו קוראים לזה Violations שונים זאת אומרת, מה הפגיעה?כי גם לקוחות, פלטפורמות מסוימות, מסכימות לאיזשהו סוג של פגיעהאם היא אולי קלה יותראבל לא מסכימים לדבר אחרזאת אומרת - אם זה פלטפורמות של נגיד ילדים, אז שם ברור שהרף הוא הרבה יותר מחמיר(מאיה) כל לקוח - מעניין אותו למנוע סוג תכנים שונה בפלטפורמה שלולדוגמא, פלטפורמה שמתעסקת בתכנים למבוגרים, אז פחות מעניין אותה לתפוס תוכן מיני כזה או אחרופלטפורמות אחרות לא רוצות שתוכן כזה . . . . סתם, לדוגמא הכי פשוטה(רן) כן, וצריך היה גם לומר בהגינות שיש חלק מהפלטפורמות שאולי דווקא נהנות מהתוכן הזה, באיזה אופן מסוים06:05 רגולציה? Fake News?(רן) מעניין, יש רגולציה בעולם הזה? זאת אומרת, יש משהו שגורם להם…

לכל הפרקים של פודקאסט רברס עם פלטפורמה >>

פרסומת
[קישור לקובץ mp3]פודקאסט מספר 463 של רברס עם פלטפורמה - הוקלט בתאריך ה-25 ביולי 2023. אורי ורן מארחים באולפן בכרכור, בשיא גל החום, את אייר ואת מאיה מ-ActiveFence לשיחה על Data Science - ובעיקר, ספציפית, על איך מג’נרטים (Generate) דאטה - ולמה, עם כל ה-Data שכבר יש בעולם . . .01:23 מאיה ואייר (רן) אז כמה מילים עליכם, מאיה ואייר ,ואחר כך גם על החברה  - Shoot:(מאיה) אז אני מאיה, אני Data Scientist-ית ב ActiveFence כבר שנתיים וחצי בערךכשל-ActiveFence הגעתי ככה ישר מהטכניון - סיימתי שם את המאסטר שלי בתחום NLP.וזהו . . . אייר?(אייר) אני עם מסלול קצת דומה - גם עשיתי תואר שני ב- Data Science בטכניוןאחרי זה עבדתי שנתיים באינטל בתור Data Scientistואז הצטרפתי ל-ActiveFence - גם עם היכרות מוקדמת עם מאיה.(מאיה) אני הבאתי אותך ל-ActiveFence  . . . (אייר) לגמרי, לגמרי(רן) ונראה שקיבלת את מה שהיית צריכה(מאיה) לגמרי.02:07 ו-ActiveFence(רן) אוקיי, ו- ActiveFence, למי שלא מכיר?(אייר) אז ActiveFence זה סטארט-אפ ישראלי, שבעצם מתעסק בניטור של תכנים זדוניים ברשתות שיתוף-תוכןאפשר לחשוב בקלות על רשת שיתוף-תוכן - לא ניכנס פה לשמות ספציפיים וכאלה, אבל כל רשת שמאפשרת ללקוחות הקצה שלה להעלות תכניםאם זה תכנים טקסטואלים או ויזואלים - סרטונים, תמונותבעצם חשופה, באיזושהי מידה, לתכנים פוגעניים - תכנים שעלולים לפגועגם במשתמשים האחריםוגם, כמובן, ב-Lag הבא - גם במפרסמים, שהם מתקשרים לכל מיני דברים כאלהולכן הפלטפורמות האלה רוצות להימנע מתכנים זדוניים אצלן במערכת.וכאן בעצם אנחנו - החברה, ActiveFence - נכנסים לתמונהאנחנו יודעים לזהות תכנים כאלה - ואם אנחנו רוצים לעשות את זה ב-Scale, אנחנו צריכים גם להשתמש בשיטות של AI, Machine Learning, כדי לזהות את התכנים האלה.(רן) והן [החברות] לא עושות את זה בעצמן? זאת אומרת, למה הן צריכות אתכם כדי לעשות את זה?(אייר) זו שאלה מצוינת . . . יש לנו בעצם כמה סוגים של לקוחותיש לקוחות גדולים, שיש להם גם כל מיני דברים שהם עושים בעצמם - ועדיין נעזרים באנו בתחומים שבהם אנחנו באמת איזשהו . . . (מאיה)  . . . יש לנו מומחיות בהם . . . (אייר) . . . ויש חברות יותר קטנות - לא ”ענקיות הטכנולוגיה” - שעדיין יש להן מאות-אלפי ולפעמים מיליונים של משתמשיםהחברה עצמה היא לא גדולה, והם לא מתעסקים בעצמם בדברים כאלה - של ניתוח-תוכן ורמת הפוגעניות שבוולכן הם צריכים חברה חיצונית שתעשה את זה.(אורי) ובתוכן - אנחנו מדברים על טקסט, וידאו ותמונה?(אייר) ו . . . .(מאיה) נכון, וגם תכנים מורכבים - זאת אומרת, שמכילים גם איזושהי תמונה; גם איזשהו Title לתמונה; גם Comment-ים על התמונה או על הVideo; ה-User שהעלה את התמונה, לדוגמא . . . .(אורי) זאת אומרת, האם ה-User עצמו הוא . . .(מאיה) נכון - אם יש לנו איזשהו ידע מוקדם על ה-User, או כל מיני Feature-ים כאלה ואחרים . . . . כן, לגמרי.(אייר) וגם ה-Audio - זה עוד Media-type שאנחנו מתעסקים בו לא מעט גםב-Video יש כמובן גם את ה-Audio Track - אבל גם יש Audio לבד, שגם שם יכול להיות . . .(אורי) Speech-to-Text או כאלה . . .(אייר) לגמרי . . . . גם דברים שאנחנו מתעסקיםאני יכול להסביר גם קצת על מה זה בכלל אומר “תוכן פוגעני” - כמובן לא ניכנס לדוגמאות ספיציפיות, אבל . . .(אורי) בגבולות הפוגעניות של הפודקאסט . . . (אייר) אז זה יכול להיות באמת קידום של אלימות, של טרורזה יכול להיות קידום של פגיעה בילדיםגזענות, אלימות . . . ובאמת - מגוון די רחב של פגיעה.(רן) אבל אני מניח שיש קטיגוריות ספציפיות שאותן אתם מחפשים -זאת אומרת, לא משהו ש”בוא -  נחפש מי נפגע!”(אייר) לגמרי, לגמרי, יש מגווןאבל גם שם - הדרישה היא למגוון של . . . אנחנו קוראים לזה Violations שונים זאת אומרת, מה הפגיעה?כי גם לקוחות, פלטפורמות מסוימות, מסכימות לאיזשהו סוג של פגיעהאם היא אולי קלה יותראבל לא מסכימים לדבר אחרזאת אומרת - אם זה פלטפורמות של נגיד ילדים, אז שם ברור שהרף הוא הרבה יותר מחמיר(מאיה) כל לקוח - מעניין אותו למנוע סוג תכנים שונה בפלטפורמה שלולדוגמא, פלטפורמה שמתעסקת בתכנים למבוגרים, אז פחות מעניין אותה לתפוס תוכן מיני כזה או אחרופלטפורמות אחרות לא רוצות שתוכן כזה . . . . סתם, לדוגמא הכי פשוטה(רן) כן, וצריך היה גם לומר בהגינות שיש חלק מהפלטפורמות שאולי דווקא נהנות מהתוכן הזה, באיזה אופן מסוים06:05 רגולציה? Fake News?(רן) מעניין, יש רגולציה בעולם הזה? זאת אומרת, יש משהו שגורם להם…

פודאסטים מובילים

פרסומת