超越GPT-4V!马斯克发布Grok-1.5 With Vision

超越GPT-4V!马斯克发布Grok-1.5 With Vision

在 Grok-1 开源后不到一个月,xAI 的首个多模态模型就问世了。Grok-1.5V是XAI的第一代多模态模型,除了其强大的文本处理能力之外,Grok现在还能够处理包括文档、图表、图形、屏幕截图和照片在内的各种视觉信息。相信Grok-1.5V将很快提供给现有的Grok用户和早期测试者来使用。

精选文章

类别 教程
Claude 如何解决Claude账号被封,及Claude3使用方法
Claude3注册教程,解决Claude手机号验证问题
Anthropic官网提供Claude3注册及使用教程|以及如何预防封号
Sora 详细教程与使用指南助您轻松上手Sora
OpenAI Sora是什么?Sora到底能做什么?它与其他类似技术有什么区别
ChatGPT 国内升级GPT-Plus教程,订阅GTP4-0
国内无需手机验证码获取GPT账号教程
【2024亲测】保姆级获取美区Apple Id教程
Onlyfans Onlyfans-注册以及充值、订阅教程
【2024亲测】Onlyfans搜索博主?如何在OnlyFans搜索HongkongDoll
Midjourney 【一看就会】五分钟完成MidJourney订阅
WildCard WildCard虚拟信用卡注册保姆级教程
WildCard虚拟信用卡平台详解
其他 【新手小白教程】2024最新:如何轻松订阅Patreon及其支付、充值全攻略
【新手小白】如何订阅Youtube Premium?Youtube Premium购买教程(2024最新)

不过就目前来看,GPT4-Turbo目前还是最强的。在画图、看图、写作、逻辑推理、编码这些方面,其他的大模型还是和GPT4-Turbo有很大的差距。

有需要的同学可以按照 ChatGPT4 Turbo 升级教程 ,很方便就升级并使用GPT4-Turbo。

功能

Grok-1.5V在多个领域与现有的前沿多模态模型具有竞争力,这些领域包括跨学科推理、理解文档、科学图表、图表、屏幕截图和照片。Grok具有理解我们物理世界的能力。在新RealWorldQA基准测试中,Grok在衡量现实世界空间理解方面超越了其同行。xAI 还表示,在接下来的几个月里,预计将在图像、音频和视频等各种模态上显著提高模型能力。

image-20240415213214003

根据手绘流程图编写代码

将白板上的流程图草图转换为 Python 代码

image-20240415213313153

提示词

1
Can you translate this into Python code?(你能把它翻译成 Python 代码吗?)

Grok回复

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Certainly! The flowchart you’ve provided describes a simple guessing game where the computer generates a random number, and the user has to guess it. Here’s the Python code that represents the logic in the flowchart:

当然!您提供的流程图描述了一个简单的竞猜游戏:计算机生成一个随机数,用户必须猜出它。下面是表示流程图中逻辑的 Python 代码:

import random

def guess_number(): # Generate a random number between 1 and 10

target = random.randint(1, 10)

while True:
guess = int(input("Guess a number between 1 and 10: "))

if guess == target:
print("You won!")
break
else:
print("Wrong guess, try again!")

if __name__ == "__main__":
guess_number()

计算商品的卡路里

image-20240415213840502

提示词

1
How many calories are there in 5 slices of this?(5 片有多少卡路里?)

Grok回复

1
2
3
If one serving size is 3 slices and contains 60 calories, then 5 slices would contain approximately 100 calories. This is calculated by first determining the calories per slice: 60 calories / 3 slices = 20 calories per slice. Then, multiply the calories per slice by the number of slices: 20 calories per slice * 5 slices = 100 calories.

如果一份是 3 片,含有 60 卡路里,那么 5 片就含有大约 100 卡路里。计算方法是首先确定每片的热量:60 卡 / 3 片 = 20 卡 / 片。然后,将每片的卡路里乘以片数:每片 20 卡路里 * 5 片 = 100 卡路里。

解决Leetcode中等难度的问题

image-20240415214528638

提示词

1
Prompt:Can you write Python code that solves this?(你能编写 Python 代码来解决这个问题吗?)

Grok回复

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
def find_triplets(nums):
result = []
nums.sort()

for i in range(len(nums) - 2):
if i > 0 and nums[i] == nums[i - 1]:
continue

target = -nums[i]
left = i + 1
right = len(nums) - 1

while left < right:
if nums[left] + nums[right] == target:
result.append([-target, nums[left], nums[right]])
left += 1
right -= 1
while left < right and nums[left] == nums[left - 1]:
left += 1
while left < right and nums[right] == nums[right + 1]:
right -= 1
elif nums[left] + nums[right] < target:
left += 1
else:
right -= 1

return result

理解现实世界

为了开发有用的现实世界人工智能助手,提高模型对物理世界的理解至关重要。为了实现这一目标,xAI正在引入一个新的基准测试,即RealWorldQA。这个基准测试旨在评估多模态模型的基本现实世界空间理解能力。

image-20240415214114419

image-20240415214139258

从上面的图片中可以看到,Grok已经能够识别真实世界的物品和事物。

总结

从Grok-1.5V放出来的实例来看,Grok-1.5V的图片识别能力还是很强的。毕竟Grok-1.5V是马斯克的,可能是借鉴了特斯拉的图像识别技术。

ChatGPT前脚刚更新了最新强大的GPT4-Turbo,马斯克这边立马放出来了Grok-1.5V。

各家的大模型技术又要卷起来了啊。现在的大模型的竞争,让我想起了当年国产手机的发布会的感觉,各家都不断迭代开发新技术发布新手机,

希望后面的大模型可以给我们带来更多的惊喜,最终收益的还是我们这些普通用户。

按照 ChatGPT4 Turbo 升级教程 ,很方便升级到GPT4-Turbo,体验到目前最强大的人工智能工具。

原文链接:超越GPT-4V!马斯克发布Grok-1.5 With Vision


你好,我是火哥!

亲爱的读者你好,我是火哥,一个乐于分享技术类干货的博主。 最新原创的文章都先发布在公众号,欢迎关注哦~

扫描下方二维码,带你第一时间了解ChatGPT、Sora、Midjourney最新动态!

9475746462373236362612

超越GPT-4V!马斯克发布Grok-1.5 With Vision

https://7we.cn/grok-1-5v-preview/

作者

火哥研习社

发布于

2024-03-23

更新于

2024-04-15

许可协议