Menu
Sign In Search Podcasts Charts People & Topics Add Podcast API Blog Pricing

Умпутун

👤 Speaker
1824 total appearances

Appearances Over Time

Podcast Appearances

Радио-Т
Радио-Т 926

Я подозреваю, что это все в виде капшин дается. Они все же с картинками, правильно? И, видимо, весь текст это капшин картинки. Я так подозреваю. А поскольку он форвард, а не просто месседж, мы понимаем, в общем, там можно представить себе вот этот путь, который именно в такой ситуации сработает. Ксюша, ты вернулась к нам? Все еще нет?

Радио-Т
Радио-Т 926

Я подозреваю, что это все в виде капшин дается. Они все же с картинками, правильно? И, видимо, весь текст это капшин картинки. Я так подозреваю. А поскольку он форвард, а не просто месседж, мы понимаем, в общем, там можно представить себе вот этот путь, который именно в такой ситуации сработает. Ксюша, ты вернулась к нам? Все еще нет?

Радио-Т
Радио-Т 926

Да, конечно. Мы тут с Лехой объясняли, что такое мейнсплейнинг без тебя. Вот это все.

Радио-Т
Радио-Т 926

Да, конечно. Мы тут с Лехой объясняли, что такое мейнсплейнинг без тебя. Вот это все.

Радио-Т
Радио-Т 926

Я вчера в эту тему читал статью, по-моему, на Hacker News, где чувак принес свою модель, которую он сам сделал маленькую, натренировал, Исключительно для одной задачи. Его задача – доставать текст статьи с любого произвольного веб-сайта типа блога. Ну, то есть, где есть, собственно, статья. Не просто такой новостной сайт, где куча все идет, а где заходишь по ссылке, и там статья.

Радио-Т
Радио-Т 926

Я вчера в эту тему читал статью, по-моему, на Hacker News, где чувак принес свою модель, которую он сам сделал маленькую, натренировал, Исключительно для одной задачи. Его задача – доставать текст статьи с любого произвольного веб-сайта типа блога. Ну, то есть, где есть, собственно, статья. Не просто такой новостной сайт, где куча все идет, а где заходишь по ссылке, и там статья.

Радио-Т
Радио-Т 926

У статьи есть артикл, там автор, вот это все есть. И как человек, близкий к этой задаче, который пытался разными методами, ну, самый популярный метод – это то, что Мазило придумал, не знаю, 15 лет назад, наверное, редабилити-алгоритм, и так с тех пор и делают. Но особо выдающиеся люди делают регексами, все это парсят, или особыми правилами, там, стоит машина… Как правило, оно все вместе завязано.

Радио-Т
Радио-Т 926

У статьи есть артикл, там автор, вот это все есть. И как человек, близкий к этой задаче, который пытался разными методами, ну, самый популярный метод – это то, что Мазило придумал, не знаю, 15 лет назад, наверное, редабилити-алгоритм, и так с тех пор и делают. Но особо выдающиеся люди делают регексами, все это парсят, или особыми правилами, там, стоит машина… Как правило, оно все вместе завязано.

Радио-Т
Радио-Т 926

А вот такой черный ящик, прямо говорит, да фигня ваши все вопросы, не надо все это программировать. Я натренировал модель, и она умеет из любого сайта достать смысловый текст в виде маркдауна. Слушайте, ну что-то в этом, несомненно, есть. То есть у нас до этого была логика, которую было трудно поддерживать. которые парсят вот эти кастомные сайты и кастомные правила, которые вам для сайтов надо.

Радио-Т
Радио-Т 926

А вот такой черный ящик, прямо говорит, да фигня ваши все вопросы, не надо все это программировать. Я натренировал модель, и она умеет из любого сайта достать смысловый текст в виде маркдауна. Слушайте, ну что-то в этом, несомненно, есть. То есть у нас до этого была логика, которую было трудно поддерживать. которые парсят вот эти кастомные сайты и кастомные правила, которые вам для сайтов надо.

Радио-Т
Радио-Т 926

Ну, грубо говоря, если это Хаббр, то вот там примерно ищи. А если это Хакер Ньюс, вот там примерно ищи. А если это CNN, то там ищи. Оно и до этого было трудно поддерживать. Тут, если, допустим, сдаться AI и сказать, да ну, фигня, мы вообще поддерживать не хотим, мы все, что можем делать, это тренировать модель, получается интересная альтернативная какая-то вселенная. Ну, у нас же спам.

Радио-Т
Радио-Т 926

Ну, грубо говоря, если это Хаббр, то вот там примерно ищи. А если это Хакер Ньюс, вот там примерно ищи. А если это CNN, то там ищи. Оно и до этого было трудно поддерживать. Тут, если, допустим, сдаться AI и сказать, да ну, фигня, мы вообще поддерживать не хотим, мы все, что можем делать, это тренировать модель, получается интересная альтернативная какая-то вселенная. Ну, у нас же спам.

Радио-Т
Радио-Т 926

Примерно так же и определяется. Мы ведь не можем сказать, почему то или иное сообщение определено в виде спама. Классификатор, который наивный, вот этот байесовский, его тоже так не одебажить в ту сторону. Правильно? И на практике работает нормально. А могли бы сделать ивристиками. И бились бы с ними всю оставшуюся жизнь.

Радио-Т
Радио-Т 926

Примерно так же и определяется. Мы ведь не можем сказать, почему то или иное сообщение определено в виде спама. Классификатор, который наивный, вот этот байесовский, его тоже так не одебажить в ту сторону. Правильно? И на практике работает нормально. А могли бы сделать ивристиками. И бились бы с ними всю оставшуюся жизнь.

Радио-Т
Радио-Т 926

В общем, в подходе вот в этом, когда ты в черный ящик загоняешь задачу, особенно в специализированной модели, получаешь обратный результат, по-моему, что-то есть.

Радио-Т
Радио-Т 926

В общем, в подходе вот в этом, когда ты в черный ящик загоняешь задачу, особенно в специализированной модели, получаешь обратный результат, по-моему, что-то есть.

Радио-Т
Радио-Т 926

Ну, до последнего времени, относительно недавнего времени, я проводил этот эксперимент. То есть у меня же есть код, который, например, новостные вот эти выжимки для нашего ньюс генерит. И он нуждается вот в уходе. Он нуждается в уходе, он нуждается в том, чтобы размечать сайты некоторые, в которых он сам не может определить. Ну, достало, заколебало.

Радио-Т
Радио-Т 926

Ну, до последнего времени, относительно недавнего времени, я проводил этот эксперимент. То есть у меня же есть код, который, например, новостные вот эти выжимки для нашего ньюс генерит. И он нуждается вот в уходе. Он нуждается в уходе, он нуждается в том, чтобы размечать сайты некоторые, в которых он сам не может определить. Ну, достало, заколебало.

Радио-Т
Радио-Т 926

В результате у нас части сайтов новости не приходят в нормальном виде. И думал я, давай я дам это в GPT, ну, весь HTML засунул в GPT, правильно? Но чтобы не было так много, сразу уберу все, что не бади, и весь JavaScript уберу, который там может быть, и всю метаинформацию уберу, и велю ему из HTML достать текст в виде маркдауна. Ну, нормальная задача для AI, правильно?

Радио-Т
Радио-Т 926

В результате у нас части сайтов новости не приходят в нормальном виде. И думал я, давай я дам это в GPT, ну, весь HTML засунул в GPT, правильно? Но чтобы не было так много, сразу уберу все, что не бади, и весь JavaScript уберу, который там может быть, и всю метаинформацию уберу, и велю ему из HTML достать текст в виде маркдауна. Ну, нормальная задача для AI, правильно?